Meta发布新一代实时人工智能翻译大模型SeamlessM4T v2：支持100多种语言，延迟不到2秒

来源：AICG工具箱责编：网络时间：2025-05-06 16:15:48

12月4日报道丨当地时间12月2日，Meta对外发布了新一代Seamless翻译大模型的新版本—— SeamlessM4T v2，这是一项新的多任务语音转换技术。SeamlessM4T v2 能够同时将语音转换成多种语言，并且能够保持语音的流畅度和自然度。

SeamlessM4T v2 在多种语言转换任务上都取得了优异的效果。例如，在英语到法语的转换任务上，SeamlessM4T v2 的准确率达到了 98%。在英语到中文的转换任务上，SeamlessM4T v2 的准确率达到了 97%。

Meta透露，SeamlessM4T第二代的改进包括跨语言更加精准地保留表达的原意，并将延迟降低到约两秒。

在世界各地，语言差异可能成为沟通的障碍，翻译系统可以使来自不同语言背景的人更无缝地分享知识和经验。然而，如今许多这些系统并不能保留人类沟通所具有的关键要素。此外，语调、停顿和强调都传递着帮助人们沟通情感和意图的重要信号。

AI大模型模仿的是人类口译员的工作模式，人类的语音和翻译对于诸如轮流发言和时间控制等微妙之处也非常敏感。例如，想象一下人类口译员的工作方式：他们在低延迟和准确翻译之间找到了恰到好处的平衡。等待时间过长会阻碍沟通的流畅进行，而速度过快则会影响翻译的整体质量。能够实现真实对话的翻译系统应该在所有这些沟通要素上都能够交付。