Sora是由OpenAI研发的AI视频生成模型,具备将文本描述转化为视频的能力,能够创造出既逼真又富有想象力的视频场景。该模型专注于模拟物理世界的运动,旨在帮助人们解决需要现实世界互动的问题。相较于Pika、Runway、PixVerse、Morph Studio、Genmo等只能生成四五秒的AI视频工具,Sora能够生成长达一分钟的视频,同时保持视觉质量和对用户输入的高度还原。除从零开始创建视频,Sora还能基于现有静态图像生成动画,或者扩展和补全现有视频。
需要注意的是,尽管Sora的功能看起来非常强大,但目前还没有正式对外开放,OpenAI正在对其进行红队测试、安全检查和优化。OpenAI的官网上目前只有对Sora的介绍、视频Demo和技术讲解,暂未提供可直接使用的视频生成工具或API。madewithsora.com网站上收集了Sora生成的视频,感兴趣的朋友可以前往观看。
OpenAI Sora的技术架构猜想
文本条件生成:Sora模型能够根据文本提示生成视频,这是通过将文本信息与视频内容相结合实现的。这种能力使得模型能够理解用户的描述,并生成与之相符的视频片段。视觉块(Visual Patches):Sora将视频和图像分解为小块的视觉块,作为视频和图像的低维表示。这种方法允许模型处理和理解复杂的视觉信息,同时保持计算效率。视频压缩网络:在生成视频之前,Sora使用一个视频压缩网络将原始视频数据压缩到一个低维的潜在空间。这个压缩过程减少了数据的复杂性,使得模型更容易学习和生成视频内容。空间时间块(Spacetime Patches):在视频压缩后,Sora进一步将视频表示分解为一系列空间时间块,作为模型的输入,使得模型能够处理和理解视频的时空特性。扩散模型(Diffusion Model):Sora采用扩散模型(基于Transformer架构的DiT模型)作为其核心生成机制。扩散模型通过逐步去除噪声并预测原始数据的方式来生成内容。在视频生成中,这意味着模型会从一系列噪声补丁开始,逐步恢复出清晰的视频帧。Transformer架构:Sora利用Transformer架构来处理空间时间块。Transformer是一种强大的神经网络模型,在处理序列数据(如文本和时间序列)方面表现出色。在Sora中,Transformer用于理解和生成视频帧序列。大规模训练:Sora在大规模的视频数据集上进行训练,这使得模型能够学习到丰富的视觉模式和动态变化。大规模训练有助于提高模型的泛化能力,使其能够生成多样化和高质量的视频内容。文本到视频的生成:Sora通过训练一个描述性字幕生成器,将文本提示转换为详细的视频描述。然后,这些描述被用来指导视频生成过程,确保生成的视频内容与文本描述相匹配。零样本学习:Sora能够通过零样本学习来执行特定的任务,如模拟特定风格的视频或游戏。即模型能够在没有直接训练数据的情况下,根据文本提示生成相应的视频内容。模拟物理世界:Sora在训练过程中展现出了模拟物理世界的能力,如3D一致性和物体持久性,表明该模型能够在一定程度上理解并模拟现实世界中的物理规律。OpenAI官方Sora技术报告:https://openai.com/research/video-generation-models-as-world-simulators机器之心解读的Sora技术细节:https://www.jiqizhixin.com/articles/2024-02-16-7赛博禅心 – 中学生能看懂:Sora 原理解读:https://mp.weixin.qq.com/s/KUnXlDlg-Rs_6D5RFpQbnQOpenAI Sora目前暂未提供公开访问使用的入口,该模型正在接受红队(安全专家)的评估,只向少数视觉艺术家、设计师和电影制作人进行测试评估。OpenAI没有指定更广泛的公众可用性的具体时间表,不过可能是2024年的某个时间。若想现在获得访问权限,个人需要根据OpenAI定义的专家标准获得资格,其中包括属于参与评估模型有用性和风险缓解策略的相关专业团体。
4月18日,金山办公展示了其具备大语言模型能力的生成式AI应用——WPS AI!据官方介绍,WPS AI是国内协同办公赛道上的首个类ChatGPT式应用。
上周 OpenAI 在首次开发者大会上,发布了重磅炸弹 GPTs!你无需任何编程知识,通过简单聊天的交互方式就能创建数学、论文、创意设计等不同任务的专属GPT小助理啦。快来体验一下吧
谷歌一出手,又把AI视频生成卷上了新高度。一句话生成视频,现在在名为Lumiere的AI操刀下,AI视频竟然可以这么厉害!
豆包视频生成模型拥有精准的语义理解能力,支持多动作多主体交互的内容生成。遵从更复杂的 prompt,解锁时序性多拍动作指令与多个主体间的交互能力
金山WPS AI新功能新玩法首发测评:不含水分,中文版「GPT+Office」真的来了!
一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度丨Lumiere AI使用体验分享
字节跳动发布豆包视频生成模型,这效果让我分不清AI虚拟与现实的边界
首批85个ChatGPT Plus插件全面测评:能打“五星”的插件只有6个
国内首次2024全科高考AI测评开分:阿里通义、GPT-4o等七款大模型参与,文科进一本理科进二本
Midjourney VS Stable Diffusion超全对比丨一篇让你全面了解他们的区别!
实测阿里通义千问视觉大模型Qwen-VL Max「超大杯」:会读图、写代码,秒懂网络梗图,中文顶流性能视觉大模型
Midjourney V6生图超进化!国外大神深度测评:对比V5.2版本,画质逼真骇人,人像细节不再有「AI感」
谷歌Gemini引发争议!网友质疑宣传片疑似剪辑效果 夸大宣传丨实测对标GPT-4测评基准有失偏颇
飞书AI协同办公产品“飞书智能伙伴”实测:AI员工搬砖效率震惊全公司