极客FUN 使简单的单词组合有意义

人类了解“红球”是有道理的，但“红色红色”却没有。大型语言模型？不多。

南卡罗来纳大学心理学教授鲁特维克·德赛（ Rutvik Desai ）

大型语言模型和文本对图像发电机等生成的AI系统可以通过寻求成为医生或律师的任何人都需要进行严格的考试。他们在数学奥林匹克运动会上的表现比大多数人都更好。他们可以写在中途体面的诗歌中，产生美学上令人愉悦的绘画并创作原创音乐。

这些非凡的能力可能使生成性人工智能系统有望接管人类的工作，并对社会的几乎所有方面产生重大影响。然而，尽管他们的产出质量有时与人类所做的竞争对手工作，但他们也很容易自信地提出事实不正确的信息。怀疑论者还质疑他们的推理能力。

大型语言模型的建立是为了模仿人类的语言和思维，但它们远非人类。从婴儿期开始，人类通过与周围世界的无数感官经历和互动来学习。大型语言模型并不像人类那样学习 – 而是在大量数据上接受了培训，其中大多数是从互联网中汲取的。

这些模型的功能非常令人印象深刻，并且有一些AI代理可以为您参加会议，为您购物或处理保险索赔。但是，在将钥匙移交给任何重要任务上的大型语言模型之前，重要的是要评估他们对世界的理解与人类的理解方式。

我是研究语言和意义的研究人员。我的研究小组开发了一种新颖的基准，可以帮助人们了解大语模型在理解意义方面的局限性。

那么，对于大型语言模型，什么有意义？我们的测试涉及判断两个字词名词短语的有意义。对于大多数说流利英语的人来说，名词名词对“沙滩球”和“苹果蛋糕”等有意义，但是“球海滩”和“蛋糕苹果”通常没有理解的意义。原因与语法无关。这些短语随着时间的流逝，人们开始学习并通常接受有意义的短语。

我们想看看大型语言模型是否具有单词组合的含义相同的意义，因此我们使用名词 – 名词对，在确定短语是否具有可识别的含义时，我们构建了一个测量该能力的测试。例如，一个形容词 – 名称（例如“红球”）是有意义的，在倒转“ Ball Red”时，它呈现出毫无意义的单词组合。

基准不是询问大语言模型的含义。相反，它可以测试大语言模型从单词对中收集含义的能力，而不依赖简单的语法逻辑的拐杖。该测试本身并未评估客观的正确答案，而是判断大型语言模型是否具有与人相似的意义。

我们使用了1,789个名词名词对的集合，这些名词 – 名词对以前是由人类评估者以1级评估的，完全没有意义，至5是没有意义的。我们消除了具有中等评分的对，以使有意义水平和低水平的对之间有明显的分离。

大型语言模型获得了“海滩球”的意思，但是在“球海滩”没有的概念上，它们并不那么清楚。 Photostock-Israel/Mink通过盖蒂图像

然后，我们要求最先进的大语言模型对这些单词对进行评分，就像先前研究的人参与者使用相同的说明相同的方式对它们进行评分。大型语言模型的表现不佳。例如，“蛋糕苹果”的评分为人类的意义低，比例为0到4。但是，所有大型语言模型的评价都比95％的人类更有意义，将其评为2到4。差异在有意义的短语（例如“狗雪橇）的情况下，差异不那么宽。

为了帮助大型语言模型，我们在说明中添加了更多示例，以查看它们是否会从被认为是高度意义的词对而不是有意义的单词对中受益。尽管他们的表现略有改善，但仍然比人类差得多。为了使任务更容易，我们要求大型语言模型做出二进制判断 – 是或否，对于该短语是否有意义 – 而不是以0到4的比例对有意义的水平进行评分。在这里，性能改善，GPT-4和Claude 3 Opus的表现比其他人表现更好 – 但它们仍然低于人类的表现。

结果表明，大型语言模型没有与人类相同的感知能力。值得注意的是，我们的测试依赖于主观任务，金标准是人们给出的评分。与典型的大型语言模型评估基准不同，涉及推理，计划或代码生成的基准不同，没有客观的正确答案。

低性能的驱动力很大，这是因为大语言模型倾向于高估名词名词对有意义的程度。他们有意义的事情应该没有多大意义。以某种方式，这些模型太有创造力了。一种可能的解释是，在某些情况下，低含糊的单词对可能是有意义的。覆盖着球的海滩可以称为“球海滩”。但是，英语的人在这个名词名词组合中没有常见的用法。

如果大型语言模型要在某些任务中部分或完全替换人类，则需要进一步发展，以便他们可以更好地了解世界，并与人类的方式保持一致。当事情不清楚，令人困惑或只是胡说八道时（无论是由于错误还是恶意攻击），对于模型来说，标记而不是创造性地试图使几乎所有事物都有意义很重要。

如果AI代理自动响应电子邮件会收到针对另一个犯错的用户的消息，则可能是“对不起，这是没有意义的”，而不是一种创造性的解释。如果会议中的某人发表了难以理解的言论，我们希望一个参加会议的代理商说这些评论没有意义。代理人应该说：“这似乎是在谈论不同的保险索赔”，而不仅仅是“索赔索赔”，如果索赔的细节没有意义。

换句话说，对于人工智能代理人来说，具有类似的意义感并像人类时一样，而不是总是提供创造性的解释，这一点更为重要。

使简单的单词组合有意义

人类了解“红球”是有道理的，但“红色红色”却没有。大型语言模型？不多。

包含400亿个参数！迄今最大开源生物学AI模型Evo 2发布，可设计涵盖生命所有领域的遗传密码

中关村论坛-未来人工智能先锋论坛报名开启

基金公司放大招，事关AI

从「互联网+」到「人工智能+」,产业链价值和企业竞争将如何被颠覆？

对话式AI即将爆发

通过K8S在Baremetal上本地运行DeepSeek

Manus AI代理商的概述