来源:AICG工具箱 责编:网络 时间:2025-04-30 14:40:00
一款名为Vary-toy的超小体积的大模型来了!模型大小不到20亿参数,消费级显卡可训练,几年前的GTX1080Ti 8G的老显卡轻松运行。
你想将一份图片文档转换成Markdown的格式?
以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。而现在只需一句话命令:
无论中英文,图片中的大段文字都能分分钟提取出来:
对一张图做对象检测,还是能给出具体坐标的那种:
Vary-toy项目的研究由来自旷视科技、国科大、华中大的研究人员共同提出。
据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别、视觉定位、图像描述、视觉问答。
现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。
网友对于这款大模型,最感兴趣的地方莫过于执行训练的运算卡竟然是GTX 1080,心情Be like:
其实,去年的12月,该研发团队就发布了Vary大模型的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。
研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。Vary发布后得到广泛关注,目前Github得到了超过1200颗星星,但也有不少人因为资源受限运行不了。
考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。
与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。
那这究竟是如何做到的?
Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。
首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。
然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。
众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。
因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:
而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。
Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:
Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:
MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。
项目地址:
https://varytoy.github.io/
硅谷AI大厂Meta官网上新,官宣Llama 3正式发布。提供80亿和700亿参数两个版本。有意思的是,80亿版本在某些测评项目的成绩上还超过了70亿版本。
英伟达CEO黄仁勋日前参加了“CadenceLIVE硅谷2024”大会,与大会主办方进行了一场对话。黄仁勋谈到人工智能和加速计算在塑造行业大趋势中的关键作用。
【AI奇点网2024年9月25日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
4月9日,金山办公生产力大会在京举行,现场发布了面向组织和企业的办公新质生产力平台WPS 365 其包含升级的WPS Office、最新发布的WPS AI企业版和WPS协作。
全网沸腾!AI大模型「开源之王」Llama 3正式发布:性能比肩GPT-4
商汤全新AI绘图大模型“秒画Artist”v0.3.5版本上手测评:作画水平比肩Midjourney!划重点——免费
科大讯飞星火大模型V1.5升级版首发测评:文本反馈疾速,一项指标“遥遥领先”
金山WPS AI新功能新玩法首发测评:不含水分,中文版「GPT+Office」真的来了!
Hey Photo最新教程_Hey Photo图像实时调整
WPS AI表格教程丨Excel办公软件函数公式怎么使用_WPS AI表格公式快速生成!
SD渲染脚本_核显怎么跑stable diffusion_SD
小白0基础教程:利用AI视频生成工具,批量制作视频,太爽哦
Midjourney 模型如何选择_怎么选择MJ模型
MJ怎么批量出图_怎么用MJ批量生图