你已经是个“成熟的AI”，可以帮我代肝了：智谱AI联合清华大学团队打造视觉大模型CogAgent：可提供《原神》教学辅助

来源：AICG工具箱责编：网络时间：2025-05-03 12:23:58

1月2日报道丨近日，清华大学的 KEG 实验室与旗下孵化的人工智能创企智谱 AI 合作，联合推出了新一代视觉GUI Agent图像理解大模型 CogAgent。这款产品在几个月前曾经在圈内引发了小轰动。

所谓的视觉GUI Agent，就是通过大模型参与大规模的图像内容训练，使之可以替代人类完成指定的代理操作的一种大模型技术。

长期对人类行为进行研究发现，人类是通过视觉与GUI交互的。比如，面对一个网页，当给定一个操作目标时，人类会先观察他的GUI界面，然后决定下一步做什么，而不是去扒它冗长的HTML源码。GUI界面天然是为了人类便捷而设计的。也就是说，在GUI场景下，视觉是一种更为直接、本质的交互模态，能更高效完整提供环境信息。

CogAgent就是这样一款基于视觉的GUI Agent。下面的示例展现了其工作路径与能力。用户只需把操作目标“search for the best paper in CVPR 2023”连同当前截图一起丢给模型，CogAgent就能预测出详细的动作，甚至能够把操作元素的精准定位也一同输出！

该模型基于此前推出的 CogVLM，通过视觉 GUI Agent，使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知，从而作出规划和决策。

CogAgent 可以接受 1120×1120 的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，在 9 个经典的图像理解榜单上（包括 VQAv2.STVQA，DocVQA，TextVQA，MM-VET，POPE 等）取得了通用大模型能力第一名的成绩。

例如，用户输入一张关于 CogVLM 项目的 GitHub 的图片，然后询问如何给这个项目点“Star”，然后 CogAgent 就会反馈出结果。

例如用户输入一张原神游戏的截图，可以询问“当前任务中的队友是谁?”，CogAgent 会给出相关的回答。

AI大模型能”看懂“游戏界面上展示的GUI信息。具体来说，翻译过来大概是这样的：

用户：Who are the teammates on the current mission? （当前任务中的队友是谁？）

【腾讯云AI绘画使用教学】深入了解腾讯云的AI绘画工具，并实际应用于图像生成工作流丨赠送免费生成次数福利

猜你喜欢

常用AI 共 188 款
工具箱 共 218 款
最新消息 共 1244 款

查看更多

最新上线 更多

热门资讯 更多

最新资讯 更多