来源:AICG工具箱 责编:网络 时间:2025-02-14 15:12:22
以下文章节选自丨量子位
屏幕前的家人们,你们说,「9.11」和「9.9」哪个数字大??
这么小儿科的问题,居然把号称“大学生IQ”的AI大模型给难倒了。
比如,行业智商标杆的GPT-4o就坚定认为「9.11」更大。
付费的谷歌Gemini Advanced也是同样的口径。
将ChatGPT掀翻在地的死对头Claude 3.5 Sonnet,还一本正经地给出了离谱的计算方法。
总之,「9.11比9.9大」。❎
简直要怀疑全世界的AI联合起来忽悠人类了。
难道是这道题目的个体问题?
有网友换了一组对比数字,将「9」换成「13」,GPT-4o依旧翻车…
这时候有网友恍然大悟,似乎发现了“华点”——如果说数字被辨识为「软件版本号」,那么V9.11确实要比V9.9的版本更新。
而联想到,AI大模型都是软件工程师开发的,所以…??
这到底是怎么一回事啊?!
最先揭露这个情况的是人工智能创业公司Scale AI的提示词工程师Riley Goodside。
最近他在使用GPT-4o时偶然发现,GPT-4o竟然始终无法分辨9.11与9.9的大小。
他不死心,又去测试了其他的知名大模型,几乎全军覆没。
当他将这个发现发到网上时,有网友尝试将这组数字的提问调换词序,没想到AI大模型竟然光速反应过来了。
面对这种窘境,其他闻讯而来的网友纷纷开启自己的测试。
目前可以确信,在开发商未更新AI大模型版本之前,只要将对比的小数额放在提示词之前列,大模型均会回答错误。
那么,带着疑问,让我们看看国产大模型表现如何呢?
我们选择了几个代表性的AI机器人——
月之暗面的Kimi不假思索地快速给出错误答案。
智谱AI的ChatGLM大模型自动触发了联网查询,然后很啰嗦地描述了自己的比较方法,可惜输出结果依然错误。❎
不过并非每一家的AI都会算错。
比如「腾讯元宝」直接做对。
字节的豆包则是少数能逻辑清晰地阐述理由的大模型,甚至还提出了实际的案例来佐证。
再看国内搜索老大哥百度的文心一言,面对这个问题默认触发联网查询。
本来计算过程完全正确,无奈联网检索后光速被网络信息误导,话锋一转直接给出错误结论。
不过,很有意义的是,通过文心一言的解题思路,我们可以一窥大模型的思考逻辑,发现背后问题所在。
首先,AI大模型普遍是以字节Token读取的方式来理解一段文字。
例如本案,当「9.11」这个数值被拆成「9」、「小数点」与「11」三部分分别理解时,「11」确实比「9」大。
由于OpenAI给ChatGPT部署的Tokens提取器是Tokenizer,这是一个开源产品,因此我们可以很容易揭露问题。
上图可以看出,「9.11」和「9.9」这两个数值都包含「9」和「小数点」这两个要素,它们被分配的标识码分别为“24”和“13”,而「11」则被单独分配到“994”。
这种类似于“打包”合并同类项的提取字的方法,最大优势便是节约运算资源。
然而只要是使用了Tokenizer提取字节方法的大模型都会认定「9.11」比「9.9」更大,其实是认为「11」>「9」。
问题恰恰就出在这个提取机制上。
还有网友指出其他的看法,在实际生活中有很多案例是「9.11」>「9.9」。
比如,?书籍目录的9.11章节的确是大于9.9章节。
所以最终还可能是大模型的训练数据集里边包含了书籍章节信息,反而是人类手把手教AI学基础算数的数据量很少。
总而言之,AI就是有点“愣”,人类不教它不会。?
但是很快也有网友发现,在提示词里边,你只需要向AI解释清楚——「9.11」和「9.9」都是双精度浮点数,这道神奇的“难题”就可以轻松做对了。
这是为什么呢?
很简单,在有限的计算资源里边,Tokenizer字节提取器会优先将“双精度浮点数”这个关键词标记出来,大模型在「后续自注意力机制」的作用下,AI就会自觉将「9.11」与“双精度浮点数”串联起来理解,从而了解到这两个比较数其实都是纯数值。
说到底,AI只是“愣”,它并不傻,脑子不会拐弯。?
然而许多行业领先的大模型都会告诉你「9.11」>「9.9」,这个设计逻辑就很奇怪。
在主流大模型未迭代之前,想让AI“上当”,只需要将更小的那个数值放在比较级的前边,如果调换顺序则不会出错。
综上,AI很牛,但最鸡贼的依然是人类。
今年6月,美图公司不动声色地推出了一个名叫「WHEE」的AI绘画平台,完全免费的国产AI绘图工具。WHEE甚至允许用户投喂若干素材图,然后训练出自己的专属绘画风格大模型。
大家好,我是言川。本期文章是2024年的第一篇文章,也是2023年农历的最后一篇文章。截至这篇文章完成时,距离春节也只有最后一周的时间了,我无法单独向支持我的朋友们传达祝福之意。所以在本篇文章的开头,向大家说一些祝福之词
淘宝问问相较于其他功能相似、差异性不强的AI聊天机器人,淘宝AI助手与自身产品能力的结合度特别高,十分成熟。
如何使用AI应用进行变现,以及如何让自己的GPTs在众多GPTs中脱颖而出。通过视频教学,你可以掌握AI的玩法和教学,从而打败市面上80%的GPTs。
美图WHEE怎么样_美图WHEE怎么进行AI绘画_美图WHEE测评如何_如何利用美图WHEE进行绘画
超级简单 | 0基础教你学会 Stable Diffusion 入门教学 安装篇【3】— 安装 Stable Diffusion web 命令行参数 含懒人参数
夸克AI搜索_夸克最新动态_夸克官方网站
Runway发布全新多重运动笔刷技能:AI视频“图生视频”可控性的高能进化!轻松复刻《黑客帝国》子弹瞬间
深度解析丨ControlNet模型的工作原理与应用场景(附案例解析)
ChatGPTs保姆教程_ChatGPT使用教程_怎么自己生成GPT
ChatGPT怎么本地登录_GPT怎么使用_GPT本地项目
stable diffusion怎么生成角色姿势_SD应用案例
AI装修教学_AI室内设计师太惊艳:毛坯房一键变身精装修方案
如何定制ChatGPT小工具_有哪些实用的ChatGPT工具推荐