来源:AICG工具箱 责编:网络 时间:2025-04-28 10:50:16
目前,多数文生图模型皆使用的是随机采样模式,使得每次生成的图像效果皆不同,在生成连贯的图像方面非常差。
例如,想通过AI生成一套图像连环画,即便使用同类的提示词也很难实现。虽然DALL·E 3和Midjourney可以对图像实现连贯的生成控制,但这两个产品都是闭源的。
因此,英伟达和特拉维夫大学的研究人员开发了免训练一致性连贯文生图模型——ConsiStory。(即将开源)
论文地址:https://arxiv.org/abs/2402.03286
目前,文生图模型在生成内容一致性方面比较差的原因主要有两个:1)无法识别和定位图像中的共同主体,文生图像模型没有内置的对象检测或分割模块,很难自动识别不同图像中的相同主体;
2)无法在不同图像中保持主体的视觉一致性,即使定位到主体,也很难使不同步骤中独立生成的主体在细节上保持高度相似。
主流解决这两种难题的方法是,基于个性化和编码器的优化方法。但这两类方法都需要额外的训练流程,例如,针对特定主体微调模型参数,或使用目标图像训练编码器作为条件。
即便使用了这种优化方法,训练周期较长难以扩展到多个主体,且容易与原始模型分布偏离。
而ConsiStory提出了一种全新的方法,通过共享和调整模型内部表示,可以在无需任何训练或调优的情况下实现主体的一致性。
值得一提的是,ConsiStory可以作为一种插件,帮助其他扩散模型提升文生图的一致性和连贯性。
SDSA是ConsiStory的核心模块之一,可以在生成的图像批次**享主体相关的视觉信息,使不同图像中的主体保持一致的外观。
SDSA主要扩大了扩散模型中自注意力层,允许一个图像中的“提示词”不仅可以关注自己图像的输出结果,还可以关注批次中其他图像的主体区域的输出结果。
这样主体的视觉特征就可以在整个批次**享,不同图像中的主体互相"对齐"。
为了防止背景区域之间的敏感信息泄露,该模块使用主体分割蒙版来进行遮蔽——每个图像只能关注批次中其他图像主体区域的输出结果。
主体蒙版是通过扩散模型本身的交叉注意力特征自动提取。
为了进一步增强主体不同图像之间细节层面的一致性,“特征注入”基于扩散特征空间建立的密集对应图,可以在图像之间共享自注意力输出特征。
同时图像中一些相似的优化地方之间共享自注意力特征,这可以有效确保主体相关的纹理、颜色等细节特征在整个批次中互相"对齐"。
特征注入也使用主体蒙版进行遮蔽,只在主体区域执行特征共享。同时还设置相似度阈值,只在足够相似的优化之间执行。
锚图像和可重用主体
ConsiStory中的锚图像提供了主题信息的参考功能,主要用于引导图像生成过程,确保生成的图像在主题上保持一致。
锚图像可以是用户提供的图像,也可以是从其他来源获取的相关图像。在生成过程中,模型会参考锚图像的特征和结构,并尽可能地生成与一致性的图像。
可重用主体是通过共享预训练模型的内部激活,来实现主题一致性的方法。在图像生成过程中,模型会利用预训练模型的内部特征表示来对生成的图像进行对齐,而无需进一步对齐外部来源的图像。
也就是说生成的图像可以相互关注、共享特征,这使得ConsiStory实现了0训练成本,避免了传统方法中需要针对每个主题进行训练的难题。
硅谷AI大厂Meta官网上新,官宣Llama 3正式发布。提供80亿和700亿参数两个版本。有意思的是,80亿版本在某些测评项目的成绩上还超过了70亿版本。
【AI奇点网2024年6月7日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
英伟达CEO黄仁勋日前参加了“CadenceLIVE硅谷2024”大会,与大会主办方进行了一场对话。黄仁勋谈到人工智能和加速计算在塑造行业大趋势中的关键作用。
「人形机器人天花板」波士顿动力,上新了!波士顿动力发布的新款电驱版Atlas机器人采用了全电驱动方案。高难度360°转体起身……惊艳全场!
全网沸腾!AI大模型「开源之王」Llama 3正式发布:性能比肩GPT-4
科大讯飞星火大模型V1.5升级版首发测评:文本反馈疾速,一项指标“遥遥领先”
金山WPS AI新功能新玩法首发测评:不含水分,中文版「GPT+Office」真的来了!
Hey Photo最新教程_Hey Photo图像实时调整
SD渲染脚本_核显怎么跑stable diffusion_SD
小白0基础教程:利用AI视频生成工具,批量制作视频,太爽哦
Midjourney 模型如何选择_怎么选择MJ模型
ChatGPT计划在年底将订阅费涨到22美元/月丨Llama 3.2发布:手机端侧可运行丨百度世界大会将于11月12日举行
字节跳动发布两款豆包系列视频模型丨ChatGPT「高级语音模式」功能全量上线丨「Apple智能」对存储空间要求进一步提高
ChatGPT将新增8种语音音色丨小米小爱音箱推送小爱大模型丨阿里通义Qwen2-VL视觉语言模型开源