来源:AICG工具箱 责编:网络 时间:2025-06-10 14:15:58
6月2日报道丨为什么国内的语言大模型如雨后春笋般萌发,但是十分好用又能媲美ChatGPT的几乎没有呢?每天几乎都能从各大媒体的评论区听到类似的声音——“这一看就是ChatGPT套壳”“又是拿国外开源的大模型然后谎称是自研吧”之类的评价。
诚然,目前国产的大模型还有诸多需要追赶国际先进企业的差距。业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能直接购买外文标注数据集或者直接采集开源的国外语料库作为外援。一旦“进口语料”加入的训练参数量多了,就会出现跟ChatGPT相似的回答方式。
业内渐渐形成共识:通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。
目前的国际主流大模型,参数数据集主要以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据尽然只占据4.8%,你要想想,中国是一个14亿人口大国,竟然凑不出一个强大的语料库,多少有点男子国足的窘境。
目前的中文数据集是什么情况?公开数据集不是没有,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。开源的还包括MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和质量,和英文数据集相比可谓九牛一毛。并且其中相当一部分的内容已经非常陈旧。
要想尽快训练出中文大模型,行之有效的解决方法之一,是直接用英文数据集训大模型。不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。但是这种转译的方法是不能满足中文博大精深的语言系统,也无法翻译出古诗词和古典经文还有成语,存在极大的文化冲突。
国内不少大模型团队决定走自己的第二条路,着手利用私有数据库做数据集。比如:百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。这些具备较强的社交属性平台的训练团队选择先将这些收集到的人类沟通数据进行严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。
不具备社交属性的企业就用爬虫工具从全网爬数据,华为为了打造盘古大模型,从互联网爬取了80TB文本,最后清洗为1TB的中文数据集;浪潮源1.0训练采用的中文数据集高达5000GB;天津超算中心的天河天元大模型也在全域搜集整理网页数据,同时集成各种开源的数据集。值得注意的是,除了预训练数据,目前阶段人类反馈数据同样不可或缺。
必须强调的是,光有巨量的中文数据集还是不够的,还需要有人为AI提供用户反馈。提供人类反馈最直接的办法,就是告诉AI助手“你的回答不对”,或者直接在AI助手生成的回复旁边点赞或踩一踩。
先用起来就能先收集一波用户反馈,让雪球滚起来,这就是为什么大家都抢着发布大模型的原因之一。现在,国内的类ChatGPT产品,从百度文心一言、复旦MOSS到智谱ChatGLM,都提供了进行回答结果的用户反馈按钮。所以建议各位致力于希望中国AIGC产业崛起的小伙伴们,当遇到AI回答出现错误或者不令人满意的时候,可以高抬贵手点一个赞或者点一个踩。
近日,谷歌又摊上了美国社会最敏感的「种族政治正确」问题,这一次,追求多元性的谷歌,没有惹恼有色人种,而是惹到了白人族群。Gemini 1 5生成历史人物的图像,竟然诞生了一个平行时空的荒诞感十足的新宇宙。?
本地SD部署速度一直被大家诟病,本次视频就给大家分享Tensorrt插件是如何秒变“5090”,让你的显卡生图速度提升4倍!
在这个时代里,不是模型越大越好,而是更加贴合实际应用场景的小型化、定制化模型正在成为主流。
DeepL 发布了新一代面向翻译和编辑应用的大型语言模型。据 DeepL 官方称,该模型在翻译质量和流畅度方面均优于当前市场上的其他竞争对手。
TensorRT插件安装_TensorRT插件怎么提升SD生图速度_stable diffusion插件
阿里“通义听悟”升级:支持6小时超长视频内容解析提问,还可一键生成巨幅思维导图
MJ怎么批量出图_怎么用MJ批量生图
苹果与OpenAI合作,发布新版Siri与生成式AI功能丨马斯克宣布将禁用iPhone丨OpenAI百万年薪挖角谷歌芯片人才
快手APP上线首个AI社交技能:「AI小快」聊天机器人,成为评论区的欢乐喜剧人
华为HDC 2024大会将发布盘古大模型5.0丨谷歌Gemini手机版将迎来多项功能更新丨马斯克xAI计划融资60亿美元
苹果WWDC定档6月10日将发布AI战略丨中国时报:苹果与百度尚未达成AI合作丨抖音发布AI数字人治理公告
OpenAI CEO奥特曼最新讲话汇总,再次曝光GPT-5细节:性能飞跃超乎想象,低估它的人都会被吓傻
李开复:最好的AI大模型已经达到人类平均智商的三倍,“杀手级应用”已经出现
重磅!英伟达正式官宣「AI核弹级」芯片B100,性能比H100强两倍的H200将于2024年第二季度出货