来源:AICG工具箱 责编:网络 时间:2025-06-04 09:59:29
6月15日报道 | OpenAI在3月份公布了GPT-4的重磅升级,这版本的大模型具备了图像输入的能力,能够理解梗图、解答物理问题,甚至能够阅读论文,仍记得这一消息当时震惊了许多人。然而,OpenAI表示图像输入功能仍处于研究预览阶段,尚未向公众开放。然而,最近Reddit上的一位网友却发现他的Bing Chat账号悄悄增加了一个上传图片的入口,并且Bing Chat竟然可以通过识图回答问题。
此前,微软透**ing Chat使用的正是GPT-4模型,并在上个月的更新日志中提到将为Bing加入多模态支持。综合这些信息来看,Bing Chat很可能正在逐步开发并向用户开放识图功能的测试。
该网友进行了大量的测试,让我们一起来看看这个被称为「长了眼睛」的Bing Chat有多厉害吧。
网友将这张梗图上传到Bing Chat进行测试,Bing Chat并没有认出这是VGA接口,因此也无法理解其中的笑点。但是,Bing Chat还是可以将照片解读出来,甚至提供线缆的品牌和更详细的资料。这可能是Bing Chat的一个偶然误差,或者是微软在实际应用GPT-4时进行了更多限制和调整,导致回答的偏差。
网友还上传了一张关于机器学习的梗图漫画,这次Bing Chat能够准确地回答出图片中的内容和笑点。
同样,Bing Chat对一张关于在汽车上烫衣服的梗图的分析也非常到位。
Bing Chat的识图精度似乎相当高,网友还上传了一张《任天堂大乱斗》游戏的角色图,要求Bing Chat识别其中的所有角色。结果显示,Bing Chat在12个角色中认出了7个,这说明对于二次元的问题,它还存在一定的困难。
OpenAI在发布GPT-4时还展示了通过手绘图编程网页的案例,这位网友也手画了一张图来测试Bing Chat。虽然代码的部分被省略了,但可以看出基础的网页雏形已经搭建完成。
识图功能的加入为Bing Chat增添了许多实用的用途。毕竟,有些现实世界中的内容(如公式、图表)很难用文字来清晰表达,这时候通过一张图向AI提问就能得到答案。
加入视觉识别后,Bing Chat甚至可以充当初中、高中甚至大学老师的角色,帮助学生解答复杂的数理化问题。如果将识图功能推广开来,或许能在一定程度上解决教育资源不均衡的问题。
用户还可以利用Bing Chat进行基础的医疗诊断,节约就医所需的金钱和时间,充分展现了AI对大众的普惠价值。
然而,尽管Bing Chat能够基本理解现实世界的内容,但它的回答终究只能作为参考,不能被当作专业意见。因此,要完全向公众开放识图功能,微软仍需要进行大量的限制和调试,以确保公众不会因为错误的AI回答而导致安全问题的发生。
本地SD部署速度一直被大家诟病,本次视频就给大家分享Tensorrt插件是如何秒变“5090”,让你的显卡生图速度提升4倍!
在这个时代里,不是模型越大越好,而是更加贴合实际应用场景的小型化、定制化模型正在成为主流。
DeepL 发布了新一代面向翻译和编辑应用的大型语言模型。据 DeepL 官方称,该模型在翻译质量和流畅度方面均优于当前市场上的其他竞争对手。
关于微软撤离中国AI团队这件事,或许早有预兆。目前,在AI研究方面,微软正在对中国区的员工进行一定的技术“隔离”。
TensorRT插件安装_TensorRT插件怎么提升SD生图速度_stable diffusion插件
阿里“通义听悟”升级:支持6小时超长视频内容解析提问,还可一键生成巨幅思维导图
苹果与OpenAI合作,发布新版Siri与生成式AI功能丨马斯克宣布将禁用iPhone丨OpenAI百万年薪挖角谷歌芯片人才
华为HDC 2024大会将发布盘古大模型5.0丨谷歌Gemini手机版将迎来多项功能更新丨马斯克xAI计划融资60亿美元
苹果WWDC定档6月10日将发布AI战略丨中国时报:苹果与百度尚未达成AI合作丨抖音发布AI数字人治理公告
OpenAI CEO奥特曼最新讲话汇总,再次曝光GPT-5细节:性能飞跃超乎想象,低估它的人都会被吓傻
李开复:最好的AI大模型已经达到人类平均智商的三倍,“杀手级应用”已经出现
重磅!英伟达正式官宣「AI核弹级」芯片B100,性能比H100强两倍的H200将于2024年第二季度出货
面对Sora训练数据来源一问三不知!OpenAI遭遇成立以来最为惨烈的公关灾难
英伟达发布AI算力芯片B200丨高通发布第三代骁龙8s处理器丨李开复:目前最好的大模型已达人类平均IQ的三倍