您的位置 首页 科技

多名核心研究员被挖后,奥特曼放出超级智能体ChatGPT Agent,AGI还有多远?

出品|搜狐科技作者|常博硕编辑|杨锦Agent的风越刮越大了。就在刚刚,OpenAI 正式推出了自己的智能体,名字简单直接,就叫ChatGPT Agent,成功将 ChatGPT 从单纯的文本对话助手升级为能够自主思考和行动的智能代理系统。

出品|搜狐科技

作者|常博硕

编辑|杨锦

Agent的风越刮越大了。

就在刚刚,OpenAI 正式推出了自己的智能体,名字简单直接,就叫ChatGPT Agent,成功将 ChatGPT 从单纯的文本对话助手升级为能够自主思考和行动的智能代理系统。

1+1大于2

现在,有了ChatGPT Agent,用户只需在 ChatGPT 界面中里的工具中选择“智能体模式”(Agent mode),就可以让电脑自动执行诸如深度财务研究、在线表格填写、幻灯片制作等任务,真正实现将想法或问题“转化为实际行动”。

其实,今年1月OpenAI发布的Operator就可以称得上是一个Agent了,它可以对浏览器上的内容进行视觉识别+操控,缺点是在网页上阅读超长文章时会遇到困难,耗时过长。两周以后,Deep Research诞生,这个功能可以让用户进行深入的互联网研究并输出高质量的研究报告,但是Deep Research不擅长与交互式和高度可视化的网页进行互动。

但是,如果把这两个功能同时放进一个虚拟机里,那就会变成一个可以调同时调度文本浏览器、图形界面浏览器和一个代码终端的模型。而这,就是ChatGPT Agent!

人类对于Agent的终极幻想应该就是《钢铁侠》中的贾维斯形象,一个能够无缝处理复杂的在线任务的全能秘书。ChatGPT Agent目前已经朝着这个方向大步跃进了。从跨公共网站、上传文件和连接的第三方来源(如电子邮件和文档库)进行深入研究,到执行填写表格和编辑电子表格等操作,一应俱全。

为了支持复杂任务的执行,OpenAI 为智能体配备了一套丰富的内置工具:包括图形化的网页浏览器、基于文本的网页检索工具、命令行终端,以及对外部 API 的直接访问接口。此外,ChatGPT Agent还可以利用连接器安全地访问诸如 Gmail、GitHub 等应用,从而在理解问题时获取更完整的上下文。

展开全文

发布会上,奥特曼的团队通过几个案例向大众展示了ChatGPT Agent的强大功能。比如,你可以用它设计并制作出心仪的公司吉祥物漫画风贴纸,然后再订购500张并送到某个地址。再比如,你可以用它生成一份详细的旅游规划、婚礼策划等等,你只需要输入指令,ChatGPT Agent就会自主打开浏览器,在虚拟计算环境中开始执行任务,只需要几分钟就会生成一份详细的规划,甚至还能直接做成PPT。

“查看日历并基于最新动态总结即将到来的会议”“计划并购买四人份早餐的食材清单”“分析三家竞争对手并制作幻灯片报告”等等这些问题都不在话下。只要一句话,ChatGPT Agent就会像你的私人秘书一样为你计划好。

此外,ChatGPT Agent还可以利用连接器安全地访问诸如 Gmail、GitHub 等应用,从而在理解问题时获取更完整的上下文。

ChatGPT Agent还针对迭代式、协作式工作流进行了优化,与传统模型相比具有更强的交互性和灵活性。在执行任务时,用户始终可以随时中断或接管操作。例如,用户可以在它执行任务的过程中进行澄清、重新下达指令或者完全停止任务,系统会在获得新信息后从中断点继续执行,而不会丢失先前的进度。

系统也会主动向用户询问更多细节,确保执行结果与用户目标保持一致。如果任务耗时过长或陷入瓶颈,用户可以随时暂停任务、要求提供进度摘要,甚至完全终止任务然后仅收取部分结果。

也就是说,整个交互过程中,用户始终保持对任务的控制权。

多项基准破纪录,刷新SOTA

ChatGPT Agent在多种行业基准测试中表现出色。例如,在“Humanity’s Last Exam”(人类最终测试)这一专家级多学科评估中,该评估通过专家级问题衡量 AI 在广泛学科领域的表现,ChatGPT Agent所采用的模型取得了以41.6%的得分,刷新了pass@1最高纪录。当研究团队采用并行策略后,即同时运行最多8次并选取自信度最高结果,HLE得分直接刷到了44.4%。

多名核心研究员被挖后,奥特曼放出超级智能体ChatGPT Agent,AGI还有多远?

在最难的数学基准测试FrontierMath中,ChatGPT agent借助代码终端等工具,实现了27.4%准确率,大幅超越o3和o4-mini。在电子表格编辑的专业测(SpreadsheetBench)中,ChatGPT 智能体的表现甚至超过了微软 Excel Copilot 借助原生插件的水平,正确率高达45.5%。

多名核心研究员被挖后,奥特曼放出超级智能体ChatGPT Agent,AGI还有多远?

在模拟真实数据科学工作流程的 DSBench 测试中,智能体也显著优于人类专家平均水平。

多名核心研究员被挖后,奥特曼放出超级智能体ChatGPT Agent,AGI还有多远?

除此之外,模型还展现了其银行投资分析师的能力,比如为《财富》500 强企业构建符合规范的财务报表模型,或者为私有化交易构建杠杆收购模型。ChatGPT 智能体所采用的模型在该测试中显著优于Deep Research和o3模型。

多名核心研究员被挖后,奥特曼放出超级智能体ChatGPT Agent,AGI还有多远?

这些结果表明,ChatGPT Agent 的功能不仅仅停留在问答或简单检索上,而能够处理广泛的专业知识任务。

ChatGPT Agent功能目前向 Pro、Plus 及团队版用户开放。Pro用户每月可用约400次,Plus/团队版用户则略少,每月有40次使用权限,企业版和教育版订阅用户也会在之后陆续获得访问权限。

换言之,从 ChatGPT-4 到 ChatGPT Agent,不只是模型理解力的提升,更是执行力的引入,AI已经逐步从被动回应转变为主动代劳。ChatGPT Agent的推出正值国内外各大AI厂商集体布局智能体的时代,许多公司也在推出类似产品或研发相应技术,各有侧重。

OpenAI的ChatGPT Agent、Google的Gemini、Anthropic的Claude,国内的秘塔、Kimi等等都已经实现模型自动调用浏览器、终端、API 等工具的能力。未来,模型不会再只是文本生成器,而是具备工具链指挥能力的全方位助手。

目前大部分Agent主要基于大型通用语言模型加工具调用,在一体化智能体架构中,模型自行决定使用哪种工具和行动路径。还有像Anthropic 和Manus 等,采取多代理并行模式,多个模型实例协同工作,Kimi则持续走强化学习路线,让单一模型通过自我探索来完成多步任务。

各大公司都在尝试将AI从纯信息问答推向行动执行,华为、阿里云、蚂蚁等大厂今年也纷纷宣布进军Agent。尽管如此,通用智能体的路还有很长,首先是主流国内智能体多处于内测或闭环商业模式,缺乏完善的插件市场、第三方 SDK 和标准 API一定程度上制约了多样化场景下的集成与创新。

从现有Agent的实际使用上来看,要支持跨会话、跨任务的持续执行,Agent 需要记住用户偏好、历史决策和中间状态,虽然各家都在这上面下足了功夫,但目前现有的智能体的上下文或记忆机制,想要完全代替人工还有很长的路要走。

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://www.wqgzj.cn/37251.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部