Vidu是由北京生数科技有限公司联合清华大学共同发布的中国首个长时长、高一致性、高动态性的视频大模型。
该模型于2024年4月27日在中关村论坛未来人工智能先锋论坛上正式发布,并于2024年7月30日上线。Vidu采用了团队原创的Diffusion与Transformer融合的架构U-ViT,这一核心技术由团队于2022年9月提出,是全球首个将这两种技术融合的架构,具有显著的技术创新性和知识产权优势。
高清视频生成:
Vidu能够一键生成长达16秒、分辨率高达1080P的高清视频内容。这种一键生成的方式,使得从文本到视频的转换过程直接且连续,不涉及中间的多步骤处理,如插帧等。
多镜头生成与时空一致性:
Vidu在生成视频时,能够围绕统一主体实现远景、中景、近景、特写等多种镜头的切换,包括生成长镜头、追焦、转场等效果,给视频注入丰富的镜头语言,显著提升画面的叙事感与质感。
同时,Vidu在保持时空一致性方面表现出色,能够在不同镜头之间保持画面主体的一致性,如服饰、表情、模态等,使得视频整体看上去非常连贯、统一和流畅。
模拟真实物理世界:
Vidu能够模拟真实物理世界的运动规律,如光影效果、物体的物理行为等,使得生成的视频内容更加逼真。例如,在模拟“一辆老式SUV行驶在山坡上”的场景中,Vidu能够准确地呈现灰尘、光影、背景等细节,与真实世界中人类的感知非常相近。
丰富的想象力:
除了模拟现实外,Vidu还能够基于文本描述或指令,创造出具有想象力的场景和故事。例如,“画室里的一艘船正在海浪中驶向镜头”这样的超现实主义画面,Vidu也能够合理地生成并呈现。
理解中国元素:
作为中国自研的视频大模型,Vidu能够生成特有中国元素的画面,如熊猫、龙、宫殿场景等,这体现了其在文化理解和表达方面的独特优势。
高动态性与高一致性:
Vidu在视频生成过程中,不仅注重画面的高清和逼真,还强调动态性和一致性。这使得生成的视频内容更加生动、连贯,能够满足多种应用场景的需求。
高效的推理速度:
据现场演示效果显示,Vidu的实测推理速度为生成一段4秒片段需要30秒。这表明Vidu在保持高质量视频生成的同时,也具备较快的处理速度。
综上所述,Vidu作为一款集高清视频生成、多镜头生成、时空一致性保持、真实物理世界模拟、丰富想象力、中国元素理解以及高效推理速度于一体的视频大模型,具有广泛的应用前景和巨大的市场潜力。
4月18日,金山办公展示了其具备大语言模型能力的生成式AI应用——WPS AI!据官方介绍,WPS AI是国内协同办公赛道上的首个类ChatGPT式应用。
上周 OpenAI 在首次开发者大会上,发布了重磅炸弹 GPTs!你无需任何编程知识,通过简单聊天的交互方式就能创建数学、论文、创意设计等不同任务的专属GPT小助理啦。快来体验一下吧
谷歌一出手,又把AI视频生成卷上了新高度。一句话生成视频,现在在名为Lumiere的AI操刀下,AI视频竟然可以这么厉害!
豆包视频生成模型拥有精准的语义理解能力,支持多动作多主体交互的内容生成。遵从更复杂的 prompt,解锁时序性多拍动作指令与多个主体间的交互能力
金山WPS AI新功能新玩法首发测评:不含水分,中文版「GPT+Office」真的来了!
一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度丨Lumiere AI使用体验分享
字节跳动发布豆包视频生成模型,这效果让我分不清AI虚拟与现实的边界
首批85个ChatGPT Plus插件全面测评:能打“五星”的插件只有6个
国内首次2024全科高考AI测评开分:阿里通义、GPT-4o等七款大模型参与,文科进一本理科进二本
实测阿里通义千问视觉大模型Qwen-VL Max「超大杯」:会读图、写代码,秒懂网络梗图,中文顶流性能视觉大模型
Midjourney V6生图超进化!国外大神深度测评:对比V5.2版本,画质逼真骇人,人像细节不再有「AI感」
谷歌Gemini引发争议!网友质疑宣传片疑似剪辑效果 夸大宣传丨实测对标GPT-4测评基准有失偏颇
飞书AI协同办公产品“飞书智能伙伴”实测:AI员工搬砖效率震惊全公司
有哪些好用的大模型_SDXL大模型测评