谷歌发布3D建模生成大模型「CAT3D」：开局一张图，1分钟构建精美3D建模成像

来源：AICG工具箱责编：网络时间：2025-06-14 14:12:31

5月24日报道丨近日，谷歌在GitHub平台发布了一款3D生成模型「CAT3D」，通过使用多视角扩散模型来创建3D场景。

「CAT3D」通过使用多视角扩散模型来创建3D场景，提供了一种快速且高效的方法来生成3D内容。这次大模型的发布，彰显了3D影像重建领域取得了显著的技术进展。

在过去，3D重建场景是一项非常繁琐而复杂的工作，需要耗费巨大的人力物力算力。现如今，用户只需要提供一些包含具体对象元素的图片，「CAT3D」就能够利用这些图片生成新的视角，然后通过一个强大的3D重建流程，将这些视角转换成一个可以实时渲染的3D表示。

据介绍，「CAT3D」能够在一分钟内完成整个3D场景的创建，这比现有的单图像和少视图3D场景创建方法要快得多。

只需在模型内上传一定数量的图像，就可以这些图像为条件的多视图扩散模型来生成场景的新视图。生成的视图被馈送到强大的3D重建管线，生成可以支持交互式实时渲染的3D成像文档。总处理时间（包括视图生成和3D重建）仅仅只需一分钟而已。

该模型不仅支持单图像输入，还能够处理多图像输入，从而生成更加丰富和详细的3D场景。CAT3D利用多视图扩散模型，可以根据任意数量的输入图像和目标新视图生成高度一致的场景新视图。

与竞争对手相比，「CAT3D」输出的3D图像渲染速度又快又清晰，细节保留程度较高，重复修改的工作量少。也不会出现明显的空间景深误差与视觉上的不和谐。

谷歌表示，生成的新视图可以作为3D重建技术的输入，实现从任何视点实时渲染3D表示，这对于虚拟现实、游戏开发和建筑设计等领域非常有用。

主要特点：

快速生成：CAT3D能够在最短的时间内，即一分钟内完成整个3D场景的创建，这比现有的单图像和少视图3D场景创建方法要快得多。多视图支持：该模型不仅支持单图像输入，还能够处理多图像输入，从而生成更加丰富和详细的3D场景。高质量的3D捕获：CAT3D利用多视图扩散模型，可以根据任意数量的输入图像和目标新视图生成高度一致的场景新视图。实时渲染：生成的新视图可以作为3D重建技术的输入，实现从任何视点实时渲染3D表示，这对于虚拟现实、游戏开发和建筑设计等领域非常有用。结构优势：CAT3D使用视频扩散模型的结构，但与时间嵌入不同，每个图像都嵌入了相机姿态，这有助于更准确地捕捉场景的3D结构。3D重建管道：生成的视图被传递到3D重建管道，以创建精确的3D表示，这对于后续的3D建模和可视化至关重要。

项目主页：

https://cat3d.github.io/index.html

李彦宏谈中西方AI产业的区别丨阿里披露投资“月之暗面”8亿美元丨李开复谈大模型价格战：宁愿出海也不参与

猜你喜欢

常用AI 共 188 款
工具箱 共 218 款
最新消息 共 2103 款

查看更多

最新上线 更多

热门资讯 更多

最新资讯 更多