在科幻剧《西部世界》中,在庞大的高科技主题乐园中,模拟真人设计的机器人可以像人类一样行事、拥有记忆、可以和其他机器人交互……在8月份,斯坦福开源了一个名为Smallville 的“虚拟小镇”,25个 AI Agents(AI智能体)在小镇上工作生活,每个“人”有自己的性格,也能和其他“人”交谈、并能结识新朋友。
斯坦福小镇中的AI Agents并不是一个新鲜的研究课题,只是之前该领域的研究通常集中在孤立环境中、通过有限的知识来进行训练,这与人类的学习过程有了很大的差异。然而,大语言模型(LLM)的出现,给这个领域的研究带来了新的曙光,这也重新掀起了基于LLM的自主AI Agents的研究热潮。
OpenAI联合创始人Andrej Karpathy在一场开发者线下活动中表示,如果一篇论文提出了某种不同的模型训练方法,OpenAI内部都会嗤之以鼻,但是当新的AI Agents论文出来的时候,他们会认真兴奋地讨论。
OpenAI AI的应用研究主管Lilian Weng发布了一篇关于AI Agents的万字长文:《大语言模型(LLM)支持的自主代理》引起了行业的热议,在文章中,她清晰地定义了基于LLM构建AI Agents的应用框架:Agent=LLM(大型语言模型)+记忆(Memory)+规划技能(Planning)+工具使用(Tool Use),其中,LLM是智能体的大脑,而其它几个部分,是关键的组件。
以上被热议的这种智能体,可以被称为Autonomous AI Agent(完全自主的智能体),它就像是拥有“记忆”一样,能够记住在训练中学习到的东西。此外,LLM可自主学习调用外部API来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。
它可以将大型任务分解为更小的、可管理的子目标,从而能够有效处理复杂的任务。它还可以对过去的行为进行自我批评和自我反思,从错误中吸取教训,并针对未来的步骤进行完善,从而提高最终结果的质量。
但是,这类智能体在目前存在致命缺陷,比如,由于以LLM作为“大脑”,智能体依赖自然语言作为LLM和记忆、工具等关键组件的接口,模型输出的可靠性是有问题的,大语言模型存在的“幻觉”,也都会在自主AI智能体存在。另外还有一些技术实现方向的困难:比如上下文长度受限制;很难完成长期规划和复杂任务的分解等。
这就造成了虽然Autonomous AI Agents被寄予厚望,但是在实际应用中,有很多硬伤,这也造成大火的Agents,在很多场景中,是完全不能被使用的。究竟应该如何看待AI Agents的前景,腾讯科技深度对谈了两位深度实践AI Agents的创始人:MRS.ai 创始人/CEO Mingke,他在AI Agents领域有五年以上的研发经验,目前所进行的项目也是以AI Agents为核心,项目正处于保密阶段;另外一位是MoPaas魔泊云创始人/CEO 鲁为民博士,在AI技术和工程领域有超过二十年的经验。
AI Agents似乎正在成为ChatGPT之后的又一个关注焦点,从行业实践来看,实用意义何在?未来应用前景何在?到底是一场正在进行的人类通往AGI的美好梦境,还是已经在重塑某些行业?两位行业老兵提出了自己的冷静思考,除了最让人激动的Autonomous AI Agents,另外一种Autopilot AI Agents的潜力,可能正在被市场低估。
核心观点
●AI Agents不是新鲜事儿,今天我们看到的新鲜部分主要是如斯坦福小镇中所看到的Autonomous AI Agent(全自主行动的人工智能体)。但是以大语言模型为底座的Autonomous AI Agent有很多目前无法避免的缺陷,让这种智能体的应用受到很大限制。
●LLM可被理解为通用逻辑模拟器,即用概率对逻辑推理的结果用低维表达,而非真正(人类习惯的符号化)逻辑推理过程的执行。任何由LLM做核心驱动的Agent,都无法承载复实际杂业务逻辑的设计与执行。
●除了Autonomous Agent,还有Non-Autonomous Agent, 其中包括AutoPilot Agent 和Copilot Agent。LLM对后两类的帮助很大,但仅靠LLM也远不够完成企业级服务。
●光靠语言模型的改进可能不足以通过大模型驱动这条路径来实现理想的自主智能体(Autonomous Agents),智能体引擎的反馈控制逻辑设计可能同样重要,甚至更为关键。
●我们可以参考自动驾驶中的分级策略,循序渐进从简单到复杂逐步实现高级别的 AI Agents,不断逼近Autonomous Agents的理想目标;另外分级科学管理AI Agents,也可以更好应对其潜在风险,充分发挥它的应用潜力。
以下为对话全文(全文较长,但是信息量很大,建议收藏阅读):
腾讯科技:究竟如何定义AI Agents?
Mingke:Agents并不是一个新鲜的概念,以我自己为例,在5年前我们就用小模型来做Agent框架的商用落地了。所谓Agent框架的起源在更早期还可以追溯到六七十年代,来自更早一批做认知科学和人工智能交叉学科领域的前沿的研究者,像明斯基(Marvin Lee Minsky )。他们在那个年代就已经对Agent的框架提出了关键的module,包括感知、计划、行为等。
在我看来,可以把Agents分成两类,一类是Autonomous,它具备完全自治的能力也就是目标理解,规划、执行和反馈迭代都自主完成;另一类是Non-Autonomous Agent, 它不具备完全自治能力,而这些非自治的Agent又可以分为Autopilot Agent(人做规划,Agent做执行) 和Copilot Agent(基于特定的软件,人做指令,Agent做面向软件的操作),这些Agent追求的是高可控的自动执行既定逻辑。
目前比较火的,主要还是由LLM的火爆而衍生出来的能够“自治”的Autonomous Agent。它让人感觉很神奇在于:你只需要给出一个目标,它就可以自己解析目标,并分角色执行计划,最后可能带来一个看起来完整的结果。
这些不同的Agents之间可能形成的互动,其实也是跟1986年左右明斯基提出的理论:“Society of mind, 即人的大脑里面是有多个不同的Agents在互相讨论”,是同源的道理。只是现在因为LLM(大语言模型)的出现,它赋予了当前开发者更多的能力,可以用更低成本对Agent框架进行实现。
LLM根据常识,对不同的角色的理解产生不同的分工,然后根据LLM对这些角色的理解来生成不同的计划,然后再由LLM去执行,最后由LLM去表征这些Agent互动之后的结果,于是我们就看见斯坦福小镇这样的效果。
鲁为民:刚刚Mingke是从认知科学角度来看智能体。但是从其他角度来看,Agents的概念早在四十年代就开始讨论。冯·诺依曼在1944年提出了博弈论,主要解决的是智能体之间的策略学习的问题,这里的关键概念是“学习”,而“智能体是具有智能的生命体”,像人一样。
到了1948年,维纳开创了控制论这个学科,主要讨论动物智能和机器智能之间的通信和控制问题。控制论的关键概念是“反馈”,智能体是通过动态反馈来学习环境及其变化,以及智能体怎么与环境相互适应。现在我们听得比较多的强化学习,实际也起源于控制论——它是智能体的控制系统,强化学习通过反馈来学习智能体的策略并作用于环境。另外,维纳当时提出控制论的时候,也指出语言是人和机器共有的东西,这也阐明智能与语言的紧密关系,也可解释为什么当今大模型AI应用很自然地从语言模型切入。
我们可以狭义地定义智能体为根据设定的目标来自主达成目标的代理,因为智能体这个词本身,有动作执行的概念,它通过对环境的作用来影响环境,使得智能体自己和环境相互适应。另外,智能体现在有各种各样地定义,大多数人讨论的实际上是所谓自主智能体(Autonomous Agents),即任意给出一个目标,智能体自主去学习执行完成。这个要求是比较高的,因为这里强调目标可以任意给定,让智能体自主学习理解执行。最后强调一点,智能体除了本身以外,是离不开它的工作环境的,智能体动作执行都是与环境交互来进行的,这一点在我们接下来讨论时候会涉及到。
腾讯科技:从两位刚才的介绍中,我们知道AI智能体这个概念其实并不是一个新概念,LLM(大语言模型)对AI智能体的发展到底起到了什么样的推动的作用?
鲁为民:最近智能体的火爆,确实得益于大模型的爆发。在讨论这个问题之前,我觉有必要先看看大模型和智能体的关系,究竟大模型给智能体赋予了哪方面的能力?我们前面提到,智能体离不开智能体本身的环境,所以我们的讨论可以从智能体本身和其环境两方面来进行。
首先,大模型作为智能体。大模型本身已经呈现出色的智能和自主性,也具备相应的理解、推理、规划、决策和行动能力,所以大模型本身也可以作为智能体,代替人类处理某些工作,与关心的环境交互实现人类的目标。
第二,大模型作为智能体的一个部分。比如大模型作为智能体引擎的一些组件,用于规划某些任务,控制智能体和环境的交互,或调用工具等等;或大模型为智能体提供具身智能,比如具身机器人,用于智能规划和执行任务,扩展智能体的能力;此外大模型也可以作为多个子智能体共同形成一个超强的大智能体;
第三,大模型作为环境,供智能体访问和交互,使得智能体获得必要的资源。因为大模型通过基于大量互联网、代码、书籍等语料数据的训练,具备了强大的世界知识能力和一定的推理能力。智能体可以访问大模型环境来获得它需要的信息或相关知识,同时生成可执行的行动计划。
最后,大模型还可以作为上述一些功能的组合,如它成为智能体的一部分,或者是环境的一部分,或者兼有两者等等。
大语言模型 (LLM) 如何影响AI Agents?智能体(AI Agents)顾名思义是由AI来驱动的,大语言模型驱动的智能体也为其赋予新的超强能力。比如可以通过LLM代码能力生成逻辑调用其他工具或者API来实现和环境的交互;还可以利用LLM天然的自然语言接口更灵活地让智能体与人类和环境交互。所以在大语言模型的驱动下,智能体更接近实现自动理解、规划、实现复杂任务的自主智能体系统。
另外,大模型作为智能体的基座模型,其能力决定了智能体的能力,它的某些行为和能力,比如涌现和泛化,也可以迁移到智能体上,从而正面地影响智能体的结果。像Smallville(斯坦福小镇),我们可以看到,其中的Agents的某些行为是没有被事先设计的,比如智能体之间的扩散信息,关系的记忆——智能体之间有过的互动,以及它之前的一些事件,它都可以记忆下来;智能体获得协调能力,比如参加情人节的派对。另外像英伟达的Voyager 这样的智能体,作为Minecraft(我的世界)游戏的NPC,同样也继承并显现出惊人的涌现能力。
但是另一方面,大模型的问题和缺陷也可能会迁移到智能体上,比如幻觉 (Hallucination)。大模型幻觉对智能体的负面影响包括提供错误的信息,规划的任务让智能体无法完成,调用一些无效或者低效的工具,或者错误使用工具和使用错误的工具。比如,在执行生成的代码时,如果用它调用API的时候,可能由于调用的错误,导致代码执行时出现错误。
综合来看,大模型驱动的AI Agents目前适用场景就比较清晰了。首先对于开放域问题或者不确定的目标的场景:需要大模型生成能力发挥创意性,以及任何决策不存在严重后果,即幻觉不是bug而是feature,比如智能体应用在游戏(如前面提到的Smallvile 和 Voyager)和写作等场景。在这种情况下大模型的涌现能力对于智能体的应用往往会有一些意想不到的惊喜。另外智能体适用的场景还包括目标虽然明确,但正负面结果都是可接受的情形,而且大模型可以更可能地产生正面结果,比如 AlphaGo。但如果对目标的结果有确定性和精确性要求,或存在约束红线的场景,任何失误可能会带来不可接受的后果,使用基于 LLM 的智能体需要谨慎,人工作为天然的智能体干预往往是必要的,比如自动驾驶。
腾讯科技:大语言模型是否帮助AI Agents突破了某些瓶颈?未来发展中,还有哪些可以预见的难题?
Mingke:在大语言模型出来之前我们都是用小的专用模型来做Agent,而一个模型只能干一种类型的工作。如果要让基于小模型的Agent具备很多能力,就需要训练很多不同的模型再组装起来。有点像现在还流行MOE(Mixture of Experts),一堆模型其中一些模型负责视觉,一些模型负责语言,而负责语言的模型,有些要按照domain去拆分,有些按照流程去拆分,都是人为的设计和拆分。
目前我观察到的当前比较主流的,偏向应用Agent框架,都是以LLM(大语言模型)为中心,由它来管理和使用其他的工具,包括去爬网页读PDF,然后call接口,最后用LLM把返回的数据用自然语言回给用户,这些内容结合在一起,形成一个Agent。
这些基于LLM的处理范式,是由LLM基于常识自己自动去对大的目标做拆解,这是过去做不到的。所以当我们在看过去,拆小模型、训练小模型、维护小模型、都是一个很重的工作,而且当业务变化的时候,你要不断的去迭代这些模型,并且要处理这些模型之间的关系,所以Agent开发成本很高,通常只有比较大型的企业,才能支撑起来这种成本。
但是尽管它现在有这个自治计划的能力,并不表示这就是面对实际业务场景的最优方法。我们跟很多大型跨国企业打交道,他们要真实落地一些场景,对合规和流程管理要求非常强。大语言模型完全自主拆解出来的过程,就不太会被这些企业所接受。
举一个比较极端的例子,假设一家银行开发的一个 Agent,用户给它一个指令“给我的账户增加十万块钱”。这个Autonomous Agent就会自主地按照模型认为的常识去拆解这个目标,“接下来应该怎么办?应该做什么任务可以让这个用户的账号上面多十万块钱?”如果你不去限制它,它可以计划出很多种可能的任务,也可能去攻击银行系统。无论怎样你都不希望这样的事情发生。
关于LLM和Agent的关系,目前主流的想法是由LLM去使用工具,比如说LangChain,比如说AutoGPT。而我作为关心实际落地的Agent Framework的从业人员,我们更偏向的是由Agent Framework里的组件在不同情况下去使用不同的LLM,然后共同来实现一个Agent的各种能力。
腾讯科技:您能不能再进一步去解释一下Agent Framework,是不是这个框架可以调用不同特点的LLM,在特定应用场景下实现所预期的效果。这和MultiAgents是一样的道理吗?
Mingke:你刚才描述的是从一个视角来看整个这一套框架,它是成立的,但它不是整体完善的角度,当然我们今天的对话时长有限,肯定是无法完全展开Agent Framework是怎么样的,但是我可以给大家提供一些我们认为的支柱型要点。从刚才讲的Society of Mind框架来理解,它一定是分角色的,然后是按什么分的问题,以及怎么协调的问题。至于为什么要分角色?如果有朋友去试过你把很多Prompt塞到一个模型里面去,然后让模型去理解,模型就会要么在可控制性,要么在精准性,要么在稳定性(也就是每次执行出来都不是同样的效果),这几个角度它总有妥协。如果你要实现一个企业级的复杂业务逻辑,必然需要很长的Prompt去表达各种条件和,无论是哪一个LLM都无法同时达到可控性、稳定性、精准性。
这个问题其实是深度学习本身,作为概率模型,无论是小模型还是大模型都会遇到的问题,大模型的本质运行机理都是预测下一个Token,而不是真的执行符号化的推理过程。在这种情况下,要使用大模型最行之有效的一个方面就是分而治之,在同一时刻不要让一个统计模型去同时处理那么多的提示语(Prompt)。
鲁为民:不管是大模型还是小模型驱动的智能体,目前还不能承载人类很高的“期望”。实际上Agent最终的效果,很大程度上往往处决于它的工程上的实现。
首先,我们其实不用对Agent有过高的期待。虽然有大模型的加持,但是其发展水平还不足以让我们实现完全的自主智能体。我们打造Agent,就是为了让我们关心的工作更加简单和方便。我们需要循序渐进地发展智能体应用,不能期待一蹴而就。所以我们不必要拘泥定义和理论,可适当的放松智能体的定义,根据使用者设定的目标,结合目标的复杂度和约束来匹配合适的 AI 模型的能力,设计Agents 的逻辑,以便Agents安全可靠地承担相关任务并达成目标。实际上,我们完全可以参照自动驾驶的实践,像它分为L0到L5几个层级,Agent也可以根据它目标复杂性、约束和人工的参与度,从易到难去考虑并对Agent能力分为不同地层级。另外,智能体的分级有助于对智能体应用的风险管理。这样的处理便于我们打造一个有合理期待的智能体应用,因为我们可以预先设定智能体的目标范围,了解Agents运行受到哪些约束,再看看需要做什么工作来打造智能体,在满足约束的情况下安全地达成这些目标,从而实现相关的能力。
一个通用的AI Agent,可以自主安全可信地完成任何被赋予合理的目标。
在实践当中,我们看到基于大语言模型的AI Agents的实现还需要考虑更多的问题。实际上,除了LLM本身的问题外,如果要让智能体能够有效自主的运行,还需要定义好大模型之外的逻辑。特别是设计以动态反馈作为核心的控制逻辑框架,它通过对环境的观察,记忆、理解,规划,反馈来使得智能体产生学习和执行能力。特别是它能够将相关的记忆、规划、执行等能力有机地串结起来,安全地控制智能体与环境的交互达到人类设定的目标。
反馈控制逻辑设计的关键点在于,首先要保证反馈的质量,反馈的信息必须能够足够的反映真实环境;其次是反馈的数量,反馈让智能体本身必须获得足够的环境知识;另外是反馈的频率,让智能体及时了解环境的变化;在很多情况下,智能体往往不能及时地去把握环境的变化,往往提供的一些信息都是过时的信息。
腾讯科技:AI Agents会是未来的一个风口吗?还有我们究竟如何去看待AI Agents?它到底是一种新的应用还是新的技术?
Mingke:我再强调一下刚刚Agent和LLM之间的关系这件事儿,这样会有利于我们理解后面的问题。我引用文因互联的鲍捷老师讲的一个比喻,LLM更像是一个发动机引擎,而你要用发动机来做什么?你有可能把它做成一辆拖拉机,有可能把它做成一辆乘用车,有可能把它做成一个飞机。
在我们现在的语境下,所谓的AI Agent,就像是一辆车,车里的引擎就是LLM,Agent framework更像是一个造车的范式,这就是Agent 和 LLM之间的关系。所以从某种角度上讲,可以把车理解为是引擎的一种应用;另一个角度,也可以说是做车的选择了发动机来做引擎。
当然也可以用LLM来做别的事情,最近我写了一篇文章来分析,大语言模型已经火了八、九个月,为什么我们还没有看到超级APP?在当前除了大家ChatGPT本身以外,并没有出现用了就回不去了的产品。其实在我看来,仅仅给消费者一个引擎是没用的。需要有一个更好的、更有效的一种产品形态来封装这个引擎,使它能在更具体的方面发挥更直接的作用。这里说“有效”,主要是强调两个点:第一个点,在合理的设计的前提下,它的效果是比过去基于小模型的Agent更好的;第二,比起过去要创建维护很多小模型的成本,基于大语言模型的通用能力,会让Agent的制作成本大幅下降。
另外,因为LLM对语言的能力大幅提高,还可以创造过去实现不了的场景。比如从增效的角度上来讲,比如过去每一种对业务状态的改变,用小模型的时候都需要设计对话回复模板(因为回复需要精准表达各种业务状态),开发者要做很多设计,背后可能几千上万条表达的组合。
但是现在,在有好的Agent Framework的前提下,Agent开发变得平民化。Agent可以被更多终端用户使用,中小企业也可以开发它,甚至个人也可以去使用agent。这是我们所谓的Agent is the new web:可以把AI Agent理解为一种产品形态,就像网页,一方面用网页来实现的功能可以做的很全,也可以走得很深,对业务逻辑的承载的天花板可以很高;另一方面开发的门槛也可以像网页一样做的很低。这样就可以让更多的开发者开发LLM的应用,给更多的用户使用,像网页一样普及。
在这个语境下,我们就可以把AI Agent当成是一种可能的热点。未来Agent有可能会像网站一样,承载大量的业务逻辑,以一个用户容易接受、不需要怎么学习的方式,变成一种新的有效的产品形态。但是我指的不是Autonomous Agents,我指的都是Autopilot Agents,也就是需要人为用先验知识来描述业务逻辑是什么,再去驱动模型,然后让Agents来做Autopilot,让它自动去重复实现目标,按照被人认同的逻辑过程。
这样一来,就去掉了Autonomous Agent需要对环境的模拟这件事。但Autopilot Agent也有新的挑战,开发者必须要把结构化的东西当成环境的一部分来处理。比如说业务数据就得被视为是Agent所处的环境的一部分。所以我个人是认为Agent的价值很高,过去做一个企业级的Agent很贵,特别是要做出能有效地去操作和改变环境的,也就是能操作业务的Agent的成本很高。但是将来在LLM的加持下,一个好的Agent Framework可以让Agent的开发和使用变得非常的普及。
腾讯科技:Autopilot比Autonomus Agents在目前的情况下,是不是应用潜力更大?
Mingke:Autopilot Agent作为一个产品形态,可以承载几乎所有当前已经存在的业务逻辑,那就意味着基图形化界面做过的软件,如果不是像地图那样非常依赖视觉进行交互的软件,或者基本上所有的承载传统商业业务逻辑的软件,都有可能增加一种新的产品形态。
比如说一个企业,可能过去做网站,后面做APP,将来可能做Agent。但这种Agent指的是Autopilot Agent,因为它的业务逻辑得跟至少跟网站一样。银行办什么事儿,要有什么过程得跟企业的网站一样,业务逻辑不能随便改,只是增加了一种交互方式去覆盖过去数字化产品形态可能没有很好覆盖的地方,以及一些新的场景不适合过去图形化界面的产品形态来交互的。
这并不是说Agent会完全代替APP,或者代替web。比如移动互联网时代的APP,它并没有完全代替网页端,而是代替掉一些更适合移动的场景,但是更多的创造了新的场景。很多业务都可以借助一个好的Agent Framework去发挥新的想象。比如用Agent的形态做交友软件,用户的Agent跟另外一个Agent交流替用户交流来找合适的朋友,一天交完一堆朋友之后,再回过头来跟用户讲,我今天给你推荐三个朋友,值得交往,他们分别是怎样的。
鲁博士:我基本上同意Mingke的看法。这里的Autopilot实际上定义了一个功能目标比较清楚且集中的智能体,它有明确的业务逻辑的数字化实现,像飞机的自动驾驶Autopilot一样。而理想的自主智能体(Autonomous Agents)则是需要根据人类的场景需要自主的定义任务和目标,然后它就通过本身的逻辑引擎根据目标来分析、学习、理解、分解、最后执行任务,并通过反馈迭代不断的学习改进。这种理想的智能体的打造对智能体本身的引擎包括AI模型有相适应的要求,这些往往超出目前的AI模型能力;目前可行的智能体的设计目标更接近所谓的 Autopilot。
Mingke:我可以补充一点,Autonomous Agents和 Autopilot Agents的区别就有点像自动驾驶飞机。如果我们让Autopilot开飞机,它的航线是需要在起飞前做先做人为设计的,你从A点到B点,你的航线要怎么飞?这个事情是需要人提前设计的,把人纳入整体系统来看,人是作为一个感知器,对于现在的真实世界在发生什么,做了人为感知了之后,再把航线计划设计出来,最后让飞机去执行。
如果是Autonomous Agent,那用户希望就设定一个起飞地点和落地地点,然后让LLM自己根据常识去设计中国到欧洲的航线就会有问题,特别是因为LLM是静态逻辑的表达,而不是动态的数据,放在当前那就会出现一个情况,LLM有可能给你设计的航线是穿过乌克兰的,因为在2021年之前航线都可以穿过乌克兰,它有可能觉得这是最省油的最优解。这种情况下所生成的计划,就明显跟当前的现实世界是脱节的。
另外在当前Autonomous Agents框架当中,需要对一个虚拟环境的模拟,而非是对现实环境的重现。而且这个环境模拟往往是用LLM来实现的构建,这就再次会受到LLM本身的局限:LLM本身是世界模型的一个静态投影,没有动态的数据,还是一个降维的模拟,所以在这种情况下,它并不是一个真实的、或者说并不是一个人类所感知的及时有效的世界模型。那Autonomous Agent 基于这个有问题的环境,去做感知再所生成的计划是会有很多问题的,而且不管如何反馈和迭代,都和真实世界相差很大。
但这也并不代表LLM的特性,对我们就没用。我们用刚才的例子,如果不期望Autonomous Agent去端到端地,又设计航线,又执行飞行任务这些所有任务,那么在人把航线设定完了之后,再交给AI去尝试应对各种飞行过程中的颠簸。
还有一种可能性,是用LLM来制作基于常识的业务逻辑设计工具,但并不扮演业务逻辑的执行者,这可以减掉很大的逻辑设计者的负担。可以让Agent帮你设计业务逻辑,然后你通过人去不断地优化,在确定了计划之后,然后再交给系统去执行。这样的系统可能是混合的,有可能是既包括符号系统又包括了概率系统。所以有一种可能方向,是用Autonomous Agent去设计一个Autopilot Agent。然后用符号系统来稳定概率系统,再去确定哪些部分该由符号系统执行,哪些东西该由概率系统去执行,这是我当前在研究的开放框架的思路,感兴趣参与的小伙伴欢迎跟我联系(mingke.luo@mrs.ai)。
腾讯科技:Autopilot和Autonomous AI Agents,好像是完全不同的应用场景。未来Autopilot会进化为Autonomous AI Agents,还是说他们两个永远都是平行的两条发展路线?
鲁博士:我觉得没有什么矛盾。我们还是回到原点,首先要看智能体目标。Autopilot的目标,如我刚刚谈到,它的任务是人类预先设定的,目标比较集中和单一,实现起来不确定性会少一些。
当然,我们追求的长远目标可能是实现自主智能体,以及所谓的AGI。在这种情况下,任务是任意给定的,即智能体之前没有遇到过,或者智能体可以根据人类的需求,自主定义相应的目标。智能体能够去自主分析理解这些任务,通过反馈学习理解执行相关的任务。这样的一个自主智能体场景是大家希望拥有的,但这个目标目前可能难以实现。
但是随着大模型的不断改进和完善,我们也确实在一步步试图逼近这个自主智能体的目标。但因为大模型的概率性和近似处理,使得大模型和相应的智能体设计存在本质上的缺陷。我们目前还不清楚大模型是否的确是实现 AGI 或理想的智能体的途径;可能根本就不是。但另一方面实现理想的自主智能体的障碍可能不仅仅在于AI模型本身,智能体引擎的逻辑设计更为关键,也可能是另外一个突破点,比如采用合适的反馈机制,通过持续迭代学习可能可以弥补大模型的缺陷。
当然更现实一点的处理方法是我们不必拘泥自主智能体的概念来一步到位实现自主智能体的目标。我们可以借助于智能体分级处理,通过循序渐进,明确设计目标。不同的智能体提供不同的能力服务相应的目标和业务约束。这样,通过像Autopilot这样的智能体应用做准备,我们可以从简单到复杂逐步实现更高高级别的 AI Agent,不断地逼近理想的自主智能体的目标。
Mingke:大语言模型作为一种驱动在可能并不是一个终极方案。尽管它确实是一个重要的组成部分,但是它可能不是一个充分的决定性的组成部分。要实现Autonomous Agents,还有很多挑战,在我看来至少要解决两个问题吧:第一是对环境的模拟。因为要把一个在虚拟环境里面训练出来的一个Agent拿到真实环境里面去使用,就有很多问题。而如果要让虚拟环境跟真实环境一样,就相当于重新创造了一个真实世界,这基本上是不可能的事情。所以要让Agent对真实环境做感知而不是做一个虚拟环境出来,让Agent去感知。
从具身认知角度上来讲,直接使用真实环境来训练Agent是一种可能性。这就涉及到各种不同模态的大模型,来替单纯语言的模型。仅把语言模型看做是静态常识的模拟器,来解决概念之间的关系问题。对真实环境做感知,就可能需要造物理的感知器,而不是由软件来模拟。
第二个问题是基于反馈的迭代,这也需要有新的方法。因为基于传统的强化学习的反馈系统也是有局限性的,特别是面向开放域问题。比如一个创业者要成功,可能需要同时满足ABC三个条件,但是一次随机尝试命中了A和B两个条件,但缺少了条件C,整体就失败了。那么强化学习可能会给AB这两个必要的条件,都打上负分,继而再生成的方案,就可能离AB更远,最终也离成功更远。如果通过人类反馈的强化学习(RLHF)像chatgpt这样,就不是autonomous了。如何结合多模态大模型,让AI像人一样批判性地(critical)的考虑问题的强化学习体系是值得期待的,但这也只是解决其中一个问题。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。