解析人工智能代理的六个核心特征以及为什么基础比流行语更重要
科技界对人工智能代理非常着迷。从销售代理到自主系统,Salesforce 和 Hubspot 等公司声称提供改变游戏规则的人工智能代理。然而,我还没有看到由法学硕士构建的令人信服的真正代理体验。市场上充满了废话,如果 Salesforce 能做的最好的事情就是说他们的新代理比出版社以前的聊天机器人表现得更好,那真是令人失望地不起眼。
这是一个没有人问的最重要的问题:即使我们可以构建完全自主的人工智能代理,它们对用户来说有多少次是最好的?
让我们通过代理和助理的视角来使用旅行计划的用例。这个特定的用例有助于阐明代理行为的每个组成部分带来的内容,以及如何提出正确的问题来区分炒作与现实。到最后,我希望你能自己决定真正的人工智能自主是一项值得的正确战略投资,还是十年来最昂贵的干扰。
目录
- 代理行为谱:实用框架
- 代理行为的基石 — 感知 — 交互性 — 持久性 — 反应性 — 主动性 — 自主性
- 未来前沿:主动自主
- 代理人与助理
- Flash 诞生之前的基础:数据在 AI 感知中的关键作用
- 从问题开始:为什么以用户为中心的人工智能会获胜
- 前进之路:协调数据、系统和用户需求
对于什么才是真正的“代理人”,学术界和工业界都没有达成共识。我主张企业采用频谱框架,借鉴人工智能学术文献中的六个属性。 “代理”或“非代理”的二元分类在当前的人工智能领域通常没有帮助,原因如下:
- 它没有捕捉到不同系统的细微差别的功能。
- 它可能导致不切实际的期望或低估系统的潜力。
- 它与现实世界应用中人工智能开发的增量性质不相符。
通过采用基于频谱的方法,企业可以更好地理解、评估和交流人工智能系统不断发展的功能和要求。这种方法对于参与人工智能集成、功能开发和战略决策的任何人都特别有价值。
通过旅行“代理”的示例,我们将看到现实世界的实现如何落在不同属性的一系列代理行为上。大多数现实世界的应用程序都介于“基本”层和“高级”层之间。这种理解将帮助您就项目中的人工智能集成做出更明智的决策,并与技术团队和最终用户进行更有效的沟通。到最后,您将能够:
- 当有人声称他们已经构建了“人工智能代理”时,请检测出 BS。
- 了解开发人工智能系统时真正重要的是什么。
- 指导您组织的人工智能战略,不要被炒作所迷惑。
1. 感知
感知和解释其环境或相关数据流的能力。
基本:理解有关旅行偏好的文本输入并访问基本旅行数据库。
高级:集成和解释多个数据流,包括过去的旅行历史、实时航班数据、天气预报、当地活动时间表、社交媒体趋势和全球新闻源。
具有先进感知能力的代理可能会识别您过去旅行决策的模式,例如对不需要汽车的目的地的偏好。这些见解可以用来为未来的建议提供信息。
2、互动性
有效参与其运营环境的能力,包括用户、其他人工智能系统以及外部数据源或服务。
基本:采用有关旅行选择的问答形式,理解并回答用户的疑问。
高级:维护对话界面,要求澄清,为其建议提供解释,并根据用户偏好和上下文调整其通信风格。
ChatGPT、Claude 和 Gemini 等 LLM 聊天机器人为交互性设定了很高的标准。您可能已经注意到,大多数客户支持聊天机器人在这方面都存在不足。这是因为客户服务聊天机器人需要提供准确的、公司特定的信息,并且通常与复杂的后端系统集成。他们无法像 ChatGPT 那样具有创造性或概括性,因为 ChatGPT 优先考虑有吸引力的响应而不是准确性。
3、坚持
创建、维护和更新有关用户和关键交互的长期记忆的能力。
基本:保存基本的用户首选项,并可以在以后的会话中调用它们。
高级:随着时间的推移,建立用户旅行习惯和偏好的全面档案,并不断完善其理解。
人工智能的真正持久性需要用户数据的读写能力。这是关于在每次互动后写出新的见解,并从这个扩展的知识库中阅读以指导未来的行动。想一想,一位出色的旅行社会如何记住您对靠过道座位的喜爱,或者您对将商务旅行延长为迷你假期的偏好。具有强大持久性的人工智能也会做同样的事情,不断建立和参考对你的理解。
ChatGPT 引入了选择性持久性的元素,但大多数对话实际上是在空白状态下进行的。为了实现真正持久的系统,您需要建立自己的长期记忆,其中包括每个提示的相关上下文。
4. 反应性
及时响应环境变化或传入数据的能力。做好这件事在很大程度上取决于强大的感知能力。
基本:当用户手动输入新的货币汇率时更新差旅成本估算。
高级:持续监控和分析多个数据流,以主动调整旅行行程和成本估算。
最好的人工智能旅行助手会注意到您目的地的酒店价格由于重大事件而突然上涨。它可以主动建议替代日期或附近的地点,以节省您的钱。
真正的反应式系统需要大量的实时数据流,以确保强大的感知能力。例如,我们的高级旅行助理能够因政治起义而改变行程路线,这不仅仅是快速反应的问题。它需要:
- 访问实时新闻和政府咨询源(感知)
- 理解这些信息对旅行的影响的能力(解释)
- 根据这种理解(反应)迅速调整拟议计划的能力
感知和反应之间的这种相互联系强调了为什么开发真正的反应式人工智能系统是复杂且资源密集型的。这不仅涉及快速响应,还涉及建立对环境的全面认识,从而能够做出有意义且及时的响应。
5. 积极主动
能够预测需求或潜在问题,并在没有明确提示的情况下提供相关建议或信息,同时仍将最终决定推迟给用户。
基本:建议所选目的地的热门景点。
高级:预测潜在需求并主动提供相关建议。
真正主动的系统会标记即将到来的护照到期日期,由于预计道路封闭而建议乘坐地铁而不是汽车,或者建议日历提醒以在受欢迎的餐厅有空时立即进行预订。
真正的主动性需要系统充分的坚持、感知和反应能力,以提出相关、及时和情境感知的建议。
6. 自主权
独立运作并在定义的参数内做出决策的能力。
自治程度可以通过以下特征来表征:
- 资源控制:人工智能可以分配或管理的资源的价值和重要性。
- 影响范围:人工智能决策对整个系统或组织的广度和重要性。
- 操作边界:人工智能无需人工干预即可做出决策的范围。
基本:对低价值资源的控制有限,做出对系统范围影响最小的决策,并在狭窄的预定义边界内运行。示例:智能灌溉系统根据土壤湿度和天气预报决定何时给花园中的不同区域浇水。
中间层:控制中等资源,做出对系统部分有显着影响的决策,并在定义的操作边界内具有一定的灵活性。示例:零售连锁店的人工智能库存管理系统,决定多个商店的库存水平和分配。
高级:控制高价值或关键资源,做出对整个系统产生重大影响的决策,并以广泛的运营边界进行运营。示例:一家科技公司的 AI 系统,用于优化整个 AI 管道,包括模型评估和价值 1 亿美元的 GPU 的分配。
最先进的系统将就“什么”(例如:在哪里部署哪些模型)和“如何”(资源分配、质量检查)做出重大决策,做出正确的权衡以实现既定目标。
值得注意的是,“什么”决策和“如何”决策之间的区别可能会变得模糊,尤其是随着任务范围的扩大。例如,选择部署一个需要大量资源的更大模型就涉及到这两方面。整个复杂性的关键区别在于委托代理自主管理的资源和风险水平不断提高。
这个框架可以让我们对人工智能系统的自主性有细致入微的理解。真正的自主权不仅仅意味着独立运营,还意味着所做出决策的范围和影响。错误的风险越高,确保采取正确的保障措施就越重要。查看我的文章“评估”究竟是什么,了解有关如何为人工智能产品构建有效测试流程的更多信息。
不仅能够在定义的参数范围内做出决策,而且能够在认为有必要更好地实现总体目标时主动修改这些参数或目标。
虽然它为真正自适应和创新的人工智能系统提供了潜力,但它也带来了更大的复杂性和风险。这种程度的自主权目前主要是理论上的,并引起了重要的伦理考虑。
毫不奇怪,科幻小说中的大多数不良人工智能的例子都是跨越主动自主界限的系统或代理,包括《复仇者联盟》中的奥创、《黑客帝国》中的机器、《2001:太空漫游》中的 HAL 9000 ”,以及《WALL-E》中的 AUTO 等等。
主动自主仍然是人工智能发展的前沿,有望带来巨大好处,但需要深思熟虑、负责任的实施。事实上,大多数公司都需要数年的基础工作才能实现——你可以把关于机器人霸主的猜测留到周末。
当我们考虑这六个属性时,我想提出我所说的“人工智能助手”和“人工智能代理”之间的有用区别。
人工智能代理:
- 展示六种属性中的至少五种(可能不包括主动性)
- 它在其定义的领域内表现出显着的自主性,可以在没有人工监督的情况下决定执行哪些操作来完成任务
人工智能助手
- 擅长感知、交互性和持久性
- 可能有也可能没有一定程度的反应性
- 自主权或主动性有限或没有
- 主要响应人类请求并需要人类批准才能执行操作
虽然业界尚未就官方定义达成一致,但此框架可以帮助您思考这些系统的实际影响。代理和助手都需要感知、基本交互性和持久性的基础才能发挥作用。
根据这个定义,Roomba 真空吸尘器更接近真正的代理,尽管是一个基本的代理。它不是主动的,但它确实在定义的空间内行使自主权,绘制自己的路线,对障碍物和污垢水平做出反应,并在没有持续人类输入的情况下自行返回码头。
GitHub Copilot 是一个非常强大的助手。它擅长通过提供上下文感知的代码建议、解释复杂的代码片段,甚至根据注释起草整个函数来增强开发人员的能力。然而,它仍然依赖于开发人员来决定向何处寻求帮助,并且由人类做出有关代码实现、架构和功能的最终决定。
代码编辑器 Cursor 以其主动主动的方法来实时标记潜在问题,开始进入代理领域。如今,Cursor 能够根据您的描述制作整个应用程序,这也更接近于真正的代理。
虽然这个框架有助于区分真正的代理和助手,但现实世界的情况更加复杂。许多公司都急于将他们的人工智能产品贴上“代理”的标签,但他们是否专注于正确的优先事项?重要的是要理解为什么这么多企业都没有达到目标,以及为什么优先考虑不引人注目的基础工作是至关重要的。
像 Cursor 这样的开发工具在推动代理行为方面取得了巨大成功,但如今大多数公司的成果并不那么出色。
编码任务有一个明确定义的问题空间,具有明确的成功评估标准(代码完成、通过测试)。还有以开源代码存储库的形式提供的大量高质量培训和评估数据。
大多数试图引入自动化的公司都没有任何接近正确数据基础的东西可供构建。领导层常常低估客户支持代理或客户经理所做的工作在多大程度上依赖于不成文的信息。例如,如何解决错误消息或新库存多久可以到货。正确评估人们可以询问任何问题的聊天机器人的过程可能需要几个月的时间。缺乏认知基础和测试捷径是导致愚蠢行为盛行的一些主要原因。
在向座席或助理投入资源之前,公司应该询问用户实际需要什么,以及他们的知识管理系统目前可以支持什么。大多数人还没有准备好为任何代理提供动力,并且许多人在感知和持久性方面还有大量工作要做,以便为有用的助手提供动力。
最近一些不成熟的人工智能功能被回滚的例子包括 Meta 的名人聊天机器人,没有人愿意与之交谈,以及 LinkedIn 最近失败的人工智能生成内容建议实验。
Waymo 和 Roomba 通过使用 AI 简化现有活动来解决实际用户问题。然而,它们的发展并不是一朝一夕的——两者都需要十多年的研发才能进入市场。当今的技术已经进步,这可能会让营销和销售等风险较低的领域更快地实现自治。然而,创建卓越品质的人工智能系统仍然需要大量时间和资源。
最终,人工智能系统的价值不在于它是否是“真正的”代理,而在于它如何有效地为用户或客户解决问题。
在决定投资人工智能的方向时:
- 定义您想要解决的特定用户问题。
- 确定代理行为的最低支柱(感知、交互性、持久性等)以及您需要提供价值的每个支柱的复杂程度。
- 评估您现在拥有哪些数据以及这些数据是否可用于正确的系统。
- 现实地评估需要做多少工作才能弥补您目前所拥有的与实现目标所需的能力之间的差距。
通过清楚地了解现有数据、系统和用户需求,您可以专注于提供即时价值的解决方案。完全自主的人工智能代理的吸引力很大,但不要被炒作所吸引。通过专注于正确的基础支柱,例如感知和持久性,即使是有限的系统也可以在效率和用户满意度方面提供有意义的改进。
最终,虽然 HubSpot 和 Salesforce 都无法提供完全代理的解决方案,但对感知和持久性等基础的任何投资仍然可以解决直接的用户问题。
请记住,没有人会对洗衣机的“自主性”感到惊讶,但它确实可以解决问题并改善日常生活。优先考虑解决实际问题的人工智能功能,即使它们不是完全自主或代理的,也将带来立竿见影的价值,并为未来更复杂的功能奠定基础。
通过利用您的优势、缩小差距并根据实际用户问题调整解决方案,您将能够创建能够产生有意义的影响的人工智能系统——无论它们是代理、助手还是不可或缺的工具。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。