您现在的位置:首页  >  新闻资讯

AI芯天下丨热点丨OpenAI即将推出Agent模式,AI能力又进一步

2025/7/24 14:04:06 标签:中国传动网

 2025年下半年伊始,始终致力于定义AI领域的OpenAI,正式推出了其Agent模式的解决方案。

       这一方案使ChatGPT能在虚拟沙盒中调用文本浏览器、可视化浏览器和终端工具,自主完成多步骤复杂任务,实现从信息检索到在线购物等操作,开启了从Chat到Agent的跨越。

       OpenAI自己的Agent模式亮相

       近日,萨姆·奥尔特曼与四位OpenAI研究员通过直播形式介绍了即将发布的Agent模式。

       观其演示过程可发现,该模式在用户交互层面的直观体验,与数月前引发广泛关注的Manus模式极为相似。

       当用户提出需求后,系统均会自动创建一个虚拟环境,并开始执行任务。

       任务执行期间,Agent会反复请求用户确认操作步骤,并允许用户随时手动接管进程。

        同时,用户亦可在任务执行过程中插入新的需求指令,实现实时交互。

       OpenAI首席执行官山姆奥特曼表示,目睹ChatGPT智能体运用计算机执行复杂任务,使其真切感受到AGI的存在。计算机自主完成思考、规划与执行的过程,将产生显著差异的体验。

        所有操作均在ChatGPT Agent专属虚拟计算机中完成,此举可在调用多工具时完整保留任务上下文信息。

       该智能体可根据需求选择文本浏览器或可视化浏览器访问网页,执行文件下载操作,通过终端命令处理文件,并借助可视化浏览器审阅输出结果。

       同时能够动态调整任务策略,以实现高效、精准的快速执行。

       ChatGPTAgent专为迭代式、协同式工作流程设计,其交互性与灵活性远超既往模型。

       任务执行过程中,用户可随时中断进程:进一步澄清指令以修正执行方向,或直接变更任务目标。智能体将基于新增信息继续推进工作,且完整保留先前进度。

       同理,ChatGPT亦会在必要时主动要求用户补充细节,确保任务执行不偏离既定目标。

       若任务耗时超出预期或陷入停滞,用户可选择暂停进程、获取进度摘要,或终止任务以提取现有成果。

       当用户安装移动端ChatGPT应用时,系统将在任务完成后推送通知。

       由Operator+Deep Research工具整合而成

       根据OpenAI的介绍,Agent模式可调用三种工具:文本浏览器、可视化浏览器及终端。模型具备自主选择并切换这些工具的能力。

       此工具组合的设计颇具巧思:文本浏览器专司大量文本信息的浏览与检索,可视化浏览器则负责在定位信息后执行键鼠操作或读取图像信息。

       而终端工具,则用于运行代码、生成包括演示文稿与电子表格在内的文件,并调用特定的云端应用程序接口。

       OpenAI此次推出的新型Agent模式,并非一项全新的技术创新,实则由该公司上半年发布的两项工具——Operator与Deep Research整合而成。

       Operator原为仅向Pro用户开放的浏览器Agent工具,具备分析图形操作界面并执行基础操作的能力。

       Deep Research则是一款深度研究分析工具,可读取大量网页内容并直接生成调研报告。

       OpenAI在分别推广这两项工具时发现,许多用户通过Operator提交的提示指令更趋近于DeepResearch的任务范畴,例如[规划旅行行程并进行预订];

       而Deep Research用户强烈呼吁的[登录网站、访问受保护资源]功能,实为Operator已具备的能力。

       这两个从不同维度推进的Agent项目最终实现整合,产生了显著的协同效应。

       既规避了单纯依赖浏览器图形界面处理文本材料的低效问题,又使得生成深度研究报告所需时长显著缩短。

       实现了通用智能体能力的关键升级

       与过往的基础大模型迭代不同,通用Agent能够自主调用多种工具进行任务规划,协助用户完成复杂操作,包括自动查阅用户日历、生成可编辑的PPT文档、运行代码等。

       ChatGPT Agent可连接用户的Gmail、GitHub等平台获取信息并解决问题,同时通过API接口访问各类应用程序。

       OpenAI采用模拟复杂现实任务的基准测试对该模型进行评估。

       经Agent技术增强后,AI智能水平实现大幅提升。

       基于ChatGPTAgent的模型在HLE基准测试中获得41.6%的评分,达到O3与O4-mini模型性能的近两倍。

       在部构建的复杂经济价值知识型任务评估体系中,ChatGPTAgent的产出质量约半数情况下达到甚至超越人类水平,任务完成时间存在浮动区间,且显著优于o3与o4-mini模型。

       在SpreadsheetBench表格操作测试中,该智能体处理复杂电子表格的编辑、函数应用及格式规范能力取得显著突破,以45.5%的得分达到GPT4o性能的两倍,首次逼近ExcelCopilot商业级解决方案水平。

       网页操作领域,ChatGPT Agent在WebArena测试中成功执行账户登录、页面跳转、数据采集等现实任务,其表现已接近人类平均水准。

       信息检索能力方面,该智能体于BrowseComp基准测试中以68.9分创下当前最高记录。此项指标直接决定其自主执行任务时的可靠性水平。

       结尾:OpenAI的正式入场,或将重塑Agent创业领域的整体叙事框架。数月前,Manus尚被誉为[国产Agent的希望]:其于业界尚未充分理解Agent概念之际,率先向市场展示了未来图景,实证了AI执行复杂任务的现实潜力。然今年7月初,Manus官网悄然关闭,中国大陆业务全面暂停,仅保留海外产品线——此举促使外界重新审视Agent初创企业的真实生存状态。数日前,朱啸虎曾公开断言:大模型将吞噬90%的Agent市场。毋庸置疑,此现象背后交织着监管政策、合规要求与资本环境等多重复杂因素。但现在的问题又来到了,当OpenAI亲自下场,初创通用型Agent的机会已经不多了。


供稿:维科网

本文链接:http://www.cmcia.cn/content.aspx?url=rew&id=6915

成员中心

《伺服与运动控制》

《伺服与运动控制》

创刊于2005年,秉承面向市场、面向科技、面向应用、面向行业,集实用性、信息性、...

《机器人与智能系统》

《机器人与智能系统》

是深圳市机器人协会、中国传动网共同主办的聚焦机器人、智能系统领域的高端产经...

《直驱与传动》

《直驱与传动》

聚焦直驱产业,整合资源,为直驱企业与用户搭建桥梁。