OpenAI 最近推出一套新的 API 和工具,可以让开发者更有效率地打造由 AI 驱动的 AI 代理(AI Agents)。这些工具创建在与其自家 AI 代理——Deep Research(能独立搜索互联网以开发丰富研究、组织良好且有引用的报告)和Operator(基于用户的文本指示自主控制网页浏览器光标并运行操作,如寻找体育票券或进行预订)——相同的技术之上。
有了这些强大技术的基础模块,开发者现在可以打造自己的替代方案或更专精于特定领域的产品和服务,以符合特定使用场景和目标用户的需求。
这几项新产品分别是 Responses API,内置网页与文件搜索工具、电脑操作工具以及开源 Agents SDK。Responses API 让开发者能基于 OpenAI 技术创建代理,而 Agents SDK 则协助将这些代理链接到其他网页工具和流程,自主运行用户或企业需要的「工作流程」。
Responses API 是什么?
Responses API 将让开发者利用 GPT-4o search 和 GPT-4o mini search 等 AI 模型,创建能运行网络搜索、扫描公司文件及浏览网站的客制化 AI 代理,OpenAI 声称,这些搜索模型在事实准确性上表现优异,在 SimpleQA 基准测试中分别获得 90% 和 88% 的高分,远超最新的 GPT-4.5 模型的 63%。
除了搜索功能外,Responses API 还集成了 Computer-Using Agent(CUA)模型,能产生鼠标和键盘动作,自动化数据输入和应用程序工作流程等电脑任务。企业可选择在自身系统上本地运行此模型。OpenAI 也强调,不会在这些企业文档上训练模型。
开发者可开发出「自己」的 AI Agents
通过 Responses API,OpenAI 希望销售驱动 AI 代理的基础组件,让开发者能创建自己的 Operator 和 Deep Research 风格的应用程序。OpenAI 期望开发者能借此创造出比目前更具自主性的应用。
新 API 将开发者连接 ChatGPT 背后技术的代码需求从一百行大幅简化至仅三行,同时扩展功能以支持多媒体交互、多轮对话和自动化操作。对超过三百万名使用 OpenAI API 的开发者而言,这代表能更轻松地打造复杂 AI 功能,尤其对非 LLM 专家的普通开发者更为友善。
回归开源领域
OpenAI 同时发布了名为 Agents SDK 的开源工具包,提供开发者免费工具,用于将模型与内部系统集成、创建安全防护及监控 AI 代理活动,也能帮助开发者管理、协调和优化 AI 代理工作流程,甚至可以支持使用非 OpenAI 模型创建代理,如竞争对手 Anthropic 和 Google 的模型,或 DeepSeek、Qwen、Mistral 和 Meta 的 Llama 系列等开源模型。
然而,这些工具并非万能。GPT-4o search 仍有 10% 的事实性问题回答错误,AI 搜索工具在处理简短导航查找时仍有困难,且 ChatGPT 的引用来源并不总是可靠。OpenAI 承认 CUA 模型「在自动化操作系统任务方面尚未高度可靠」,且可能产生「无意」的错误。
今年 AI Agents 就会走入职场
「展示代理相当容易,但要扩大规模相当困难,要让人们持续使用则更是挑战,」OpenAI 的 API 产品主管 Olivier Godement 在接受 TechCrunch 访问时表示。他希望 OpenAI 能在今年缩小 AI 代理演示与实际产品间的差距,并认为「代理是 AI 最具影响力的应用」。这呼应了 OpenAI 首席执行官 Sam Altman 预测 2025 年将是 AI 代理进入职场的一年。
这与中国新创公司 Butterfly Effect 的案例形成鲜明对比,该公司本周初推出的 AI 代理平台 Manus 走红后,用户很快发现其实 Manus 能做到的比想像中少很多。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除