当闭环王者进入开源世界：苹果发布开源多模态大模型Ferret，可用于精准识别与定位图像里边的物体

来源：AICG工具箱责编：网络时间：2025-05-04 10:07:14

12月25日报道丨今年10月，苹果和哥伦比亚大学的研究人员低调地发布了一个名为「Ferret」(中文名：雪貂）的开源多模态大语言模型。这款大模型其实是苹果公司与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码生成和权重，仅限研究用途，不可用于商业。因为没有太多的宣发，当时并未引起广泛的注意。

一直奉行闭环生态的苹果公司在今年 10 月正式加入了开源 AI 的圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺。这款模型既能精准地识别图像并描述其内容，还能辨别和定位图像中的各种元素。

Ferret 有 7B 和 13B 两个参数量版本，是一个对标微软、谷歌的10B量级的小参数模型。此外，为了增强模型的能力，苹果专门收集了一个名为 GRIT 数据集。该数据集包含了 110 万个样本，涵盖丰富的层次空间知识。

苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。

简单地说，该模型可以分析图像上绘制的区域，确定其中对用户查询有用的元素，并将其识别出来，在检测到的元素周围绘制一个边界框。然后，它就可以将识别出的元素用作查询的一部分，并以典型的方式作出响应。

例如，高亮显示图像中的动物图片并询问大模型“这是什么动物”，大语言模型可以确定该动物的种类，并确定用户所指的是动物群中的某只动物。然后，它还可以利用图像中检测到的其他项目的上下文，提供进一步的回复。

尽管苹果以往以其产品和技术的封闭性著称，但现在它通过GitHub发布开源大语言模型，正逐渐改变这一形象，展现出其在 AI 领域的活跃参与和创新精神。这不仅对苹果自身，也对整个 AI 领域来说，都是一个值得关注的重要发展方向。

GitHub开源代码：

https://github.com/apple/ml-ferret

官宣：ChatGPT APP语音交互功能已下放至GPT-3.5模型，面向全体用户开放使用

猜你喜欢

常用AI 共 188 款
工具箱 共 218 款
最新消息 共 1271 款

查看更多

最新上线 更多

热门资讯 更多

最新资讯 更多