一项最新研究揭示,尽管大型语言模型(LLM)能够完成写诗、写程序等令人们惊艳的任务,但它们实际上并未真正理解世界运作的规则。近期,一项的研究就特别以纽约市街道导航为例,证实了这一发现。
这项由麻省理工学院(MIT)和哈佛大学领导的跨校研究,研究团队包括 MIT 信息与决策系统实验室(LIDS)的 Ashesh Rambachan 助理教授兼主要研究员、哈佛大学的博士后研究员 Keyon Vafa、MIT 电机工程与计算机科学系的研究生 Justin Y. Chen,以及来自康奈尔大学的 Jon Kleinberg 教授等。这项研究成果将在神经信息处理系统会议(NeurIPS)上发表,该会议是人工智能领域最具影响力的学术会议之一。
研究团队发现,即使某个生成式 AI 模型能够在正常情况下提供近乎完美的导航指示,但一旦遇到道路施工需要改道,其表现就会大幅下滑。更深入的分析显示,模型内部并未创建起真实的纽约市街道地图,反而创造出一个充满着不存在的弯道和立体交叉道的虚构城市。
这项发现对 AI 的实际应用带来重要警示:表面上运作良好的 AI 模型,可能会在稍微改变的情境下完全失灵。MIT 的 Ashesh Rambachan 助理教授指出,这个研究结果对于评估 LLM 在科学研究中的应用前景来说相当重要。
研究团队为了深入探究 AI 是否真正理解它所运行的任务,开发了一套严谨的测试方法。他们选择了两个具有明确规则和状态转换的测试场景:纽约市街道导航和黑白棋游戏。
这类问题被称为「确定性有限自动机」(deterministic finite automations,DFA),特点是每个状态都有明确的下一步选项,就像在街道导航中,每个路口都有特定的可行转向方向。
研究人员设计了两个创新的评估指针:「串行区分」和「串行压缩」。前者测试 AI 是否能真正分辨不同的情况,后者则检验 AI 是否理解相同的情况应该导向相同的选项。
有趣的是,研究发现那些经过随机训练的 AI 模型反而展现出更好的「理解力」,这可能是因为它们接触到了更多样化的情况。正如研究团队成员 Vafa 所说:「就像在下棋时,观察随机对战反而能看到更多可能的走法,包括那些专业棋手不会考虑的选项。」
然而,测试结果令人深思。虽然这些 AI 模型在一般情况下能够准确地提供导航指示和下棋建议,但当研究团队稍微改变条件——例如在纽约市的地图上设置一些路障时,模型的表现就骤降。Vafa 对此感到震惊:「仅仅封闭 1% 的街道,准确率就从近乎完美暴跌至 67%。」这个发现清楚地说明,即使 AI 看似精通某项任务,也不代表它真正理解了任务的本质。
这项研究由多所顶尖学府的专家共同完成,获得了包括哈佛数据科学倡议、国家科学基金会等机构的支持。研究团队未来将把研究扩展到更多领域,特别是那些规则只有部分已知的复杂问题,期望能为 AI 在科学研究中的应用提供更稳固的理论基础。
责任编辑:Sisley
核稿编辑:Jocelyn
本文初稿为 INSIDE 使用 AI 编撰; 快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除