来源:AICG工具箱 责编:网络 时间:2025-02-27 13:13:41
6月3日晚,著名开源大模型平台Stability AI的联合首席执行官Christian Laforte,在AMD的产品发布会上宣布,文生图模型 Stable Diffusion 3将于6月12日在Hugging Face开源权重。
本次开源的是Stable Diffusion 3的Medium模型,有20亿参数,在照片真实感、样式、图片质量、算力资源消耗等方面都进行了大幅度优化,将比前两代更好。
同时Stable Diffusion 3也是对标闭源文生图产品Midjourney、DALL·E 3的最佳模型之一,该系列已经被全球数百万开发者使用,很多文生视频/3D模型也借鉴了该架构。
今年2月22日,Stability AI首次预览了Stable Diffusion 3.其逼真的图片质量、更好的文本语义理解与文字嵌入,使得全球开发者们对这个模型相当期待。
但在3月23日,Stability AI的首席执行官Emad Mostaque被辞退,随后又爆出财务危机正在寻求买家等不少负面新闻,大家开始担心Stable Diffusion 3的开源还能否顺利进行。
好在Stability AI都挺过来了,而此时其新上任的联合首席执行官在AMD的产品发布会宣布这个事情,估计已经获得了ADM的赞助还很可能被全资收购。
与英伟达相比,AMD在大模型、生成式AI的部署、开发等方面略处于落后,Stability AI开源的大语言模型、扩散模型等的下载量合计超过千万级别,拿下它等同于收获了一大批开发者。
根据Stable Diffusion 3论文显示,使用了与Sora相同的架构Diffusion Transformer。
Diffusion模型作为生成模型的一种,主要通过数据到噪声的逆过程来创造新的数据点。这种方法在图像和视频生成方面应用非常广泛。
但是随着Diffusion不断迭代,预训练、推理对算力需求呈指数级增长,对于中小企业、个人开发者来说非常不友好。
所以,在Diffusion基础之上又融合了大模型界非常知名的Transformer架构,通过独立的权重处理图像和文本模态,并实现了这两种模态之间的双向信息流。
Diffusion Transformer架构引入新的噪声采样技术,改进了训练Rectified Flow模型的方法。通过偏向感知上相关的尺度,提高了训练的效率和性能。
该架构采用了模拟无关的流训练方法,直接回归一个向量场,用于生成数据分布和噪声分布之间的概率路径,有效避免了求解常微分方程所带来的超高算力成本,同时也极大增强了文本语义理解、文字嵌入和图片样式等。
其实在Stability AI发布预览版时,已经公布了一大批Stable Diffusion 3生成的图片,基本上与Midjourney、DALL·E 3这两款知名产品差不多。
例如,教室里,黑板上用白色粉笔写着 "GPUs go brrmr",这是一个肯定而幽默的场景。黑板前,一群学生正在庆祝。这些学生被独特地描绘成鳄梨,长着小胳膊小腿,脸上洋溢着喜悦和兴奋的表情。
这个场景捕捉到了一种充满童趣和想象力的氛围,将传统教室的概念与牛油果学生的奇特形象融为一体。
一只半透明的猪,里面是一只更小的猪。
一只青蛙坐在20世纪50年代的快餐厅里,穿着皮夹克,戴着礼帽。桌子上有一个巨大的汉堡和一个写着“Froggy Fridays”的牌子。
一只巨大、威严的白色巨龙,它有多个角和类似须的触角,翱翔在崎岖的山脉景观之上。
这条龙有着明亮的橙色眼睛,似乎在清澈的蓝天下飞翔在蓬松的白云之间。周围有尖锐的积雪覆盖的山峰,以及一座类似古代寺庙或塔楼的小建筑。
目前,Stable Diffusion 3 Medium模型只能用于学术研究无法商业化。如果在正式开源后,想商业化的开发者可以联系Stability AI。
想使用Stable Diffusion3Turbo和其他版本的需要开通Stability AI的会员。
申请地址:https://stability.ai/stablediffusion3
百度网盘AI修图版是一款专业高效的智能修图软件。百度网盘AI修图最新版内置了强大的图片处理工具,包括一键瘦身、智能磨皮、色彩调整等功能,能够提高用户的修图效率。
4月26日,星火大模型V3 5春季上新,直戳办公场景的痛点!科大讯飞推出首个支持长文本、长图文、长语音大模型,解决用户真实场景中多源信息的获取需求。
这是AIGC应用系列教程,之前给大家详细介绍了AIGC做海报、微信红包、动态引导页,这一篇给大家介绍AIGC辅助古诗词视频设计的全流程!直接上干货,手把手保姆级教程保证轻松完成。
【AI奇点网2024年7月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
AIGC落地应用教程丨关于如何利用AIGC工具进行古诗词视频制作
OpenAI发布Mac版ChatGPT应用,与macOS深度兼容,官网可下载
小米AI助理“小爱同学”接入字节跳动豆包大模型,将用于小米旗下所有「人车家」终端
Stable Diffusion四大基础模型测评丨附整合包下载地址
深度实测谷歌Bard聊天机器人最新免费生图功能:PK对比DALL·E 3与Midjourney,顶流大对决!
科大讯飞最新AI PPT产品“讯飞智文”全面测评:借助AIGC的能力,分分钟交付一份精美的年终PPT
实测阿里通义千问视觉大模型Qwen-VL Max「超大杯」:会读图、写代码,秒懂网络梗图,中文顶流性能视觉大模型
全球AI绘画工具测评_AI绘画横评_国内绘画工具哪个比较厉害
打工人必备ai软件_ai软件推荐_有什么好用的ai软件
美图WHEE怎么样_美图WHEE怎么进行AI绘画_美图WHEE测评如何_如何利用美图WHEE进行绘画