多名核心研究员被挖后，奥特曼放出超级智能体ChatGPT Agent，AGI还有多远？

出品｜搜狐科技

作者｜常博硕

编辑｜杨锦

Agent的风越刮越大了。

就在刚刚，OpenAI 正式推出了自己的智能体，名字简单直接，就叫ChatGPT Agent，成功将 ChatGPT 从单纯的文本对话助手升级为能够自主思考和行动的智能代理系统。

1+1大于2

现在，有了ChatGPT Agent，用户只需在 ChatGPT 界面中里的工具中选择“智能体模式”（Agent mode），就可以让电脑自动执行诸如深度财务研究、在线表格填写、幻灯片制作等任务，真正实现将想法或问题“转化为实际行动”。

其实，今年1月OpenAI发布的Operator就可以称得上是一个Agent了，它可以对浏览器上的内容进行视觉识别+操控，缺点是在网页上阅读超长文章时会遇到困难，耗时过长。两周以后，Deep Research诞生，这个功能可以让用户进行深入的互联网研究并输出高质量的研究报告，但是Deep Research不擅长与交互式和高度可视化的网页进行互动。

但是，如果把这两个功能同时放进一个虚拟机里，那就会变成一个可以调同时调度文本浏览器、图形界面浏览器和一个代码终端的模型。而这，就是ChatGPT Agent！

人类对于Agent的终极幻想应该就是《钢铁侠》中的贾维斯形象，一个能够无缝处理复杂的在线任务的全能秘书。ChatGPT Agent目前已经朝着这个方向大步跃进了。从跨公共网站、上传文件和连接的第三方来源（如电子邮件和文档库）进行深入研究，到执行填写表格和编辑电子表格等操作，一应俱全。

为了支持复杂任务的执行，OpenAI 为智能体配备了一套丰富的内置工具：包括图形化的网页浏览器、基于文本的网页检索工具、命令行终端，以及对外部 API 的直接访问接口。此外，ChatGPT Agent还可以利用连接器安全地访问诸如 Gmail、GitHub 等应用，从而在理解问题时获取更完整的上下文。

展开全文

发布会上，奥特曼的团队通过几个案例向大众展示了ChatGPT Agent的强大功能。比如，你可以用它设计并制作出心仪的公司吉祥物漫画风贴纸，然后再订购500张并送到某个地址。再比如，你可以用它生成一份详细的旅游规划、婚礼策划等等，你只需要输入指令，ChatGPT Agent就会自主打开浏览器，在虚拟计算环境中开始执行任务，只需要几分钟就会生成一份详细的规划，甚至还能直接做成PPT。

“查看日历并基于最新动态总结即将到来的会议”“计划并购买四人份早餐的食材清单”“分析三家竞争对手并制作幻灯片报告”等等这些问题都不在话下。只要一句话，ChatGPT Agent就会像你的私人秘书一样为你计划好。

此外，ChatGPT Agent还可以利用连接器安全地访问诸如 Gmail、GitHub 等应用，从而在理解问题时获取更完整的上下文。

ChatGPT Agent还针对迭代式、协作式工作流进行了优化，与传统模型相比具有更强的交互性和灵活性。在执行任务时，用户始终可以随时中断或接管操作。例如，用户可以在它执行任务的过程中进行澄清、重新下达指令或者完全停止任务，系统会在获得新信息后从中断点继续执行，而不会丢失先前的进度。

系统也会主动向用户询问更多细节，确保执行结果与用户目标保持一致。如果任务耗时过长或陷入瓶颈，用户可以随时暂停任务、要求提供进度摘要，甚至完全终止任务然后仅收取部分结果。

也就是说，整个交互过程中，用户始终保持对任务的控制权。

多项基准破纪录，刷新SOTA

ChatGPT Agent在多种行业基准测试中表现出色。例如，在“Humanity’s Last Exam”（人类最终测试）这一专家级多学科评估中，该评估通过专家级问题衡量 AI 在广泛学科领域的表现，ChatGPT Agent所采用的模型取得了以41.6%的得分，刷新了pass@1最高纪录。当研究团队采用并行策略后，即同时运行最多8次并选取自信度最高结果，HLE得分直接刷到了44.4%。

多名核心研究员被挖后，奥特曼放出超级智能体ChatGPT Agent，AGI还有多远？

在最难的数学基准测试FrontierMath中，ChatGPT agent借助代码终端等工具，实现了27.4%准确率，大幅超越o3和o4-mini。在电子表格编辑的专业测（SpreadsheetBench）中，ChatGPT 智能体的表现甚至超过了微软 Excel Copilot 借助原生插件的水平，正确率高达45.5%。

多名核心研究员被挖后，奥特曼放出超级智能体ChatGPT Agent，AGI还有多远？