OpenAI 和 Google 等公司会告诉您,生成式 AI 体验的下一个重大进步即将到来。 ChatGPT 的 o1-preview 重大升级旨在证明下一代体验。 o1-preview 可供 ChatGPT Plus 和其他高级订阅者使用,据说可以推理。当试图找到需要复杂推理的复杂问题的解决方案时,这样的人工智能工具应该更有用。
但如果苹果研究人员的一篇新的人工智能论文的结论是正确的,那么 ChatGPT o1 和所有其他 genAI 模型实际上无法推理。相反,他们只是简单地匹配训练数据集中的模式。是的,他们非常擅长提出解决方案和答案。但这只是因为他们见过类似的问题并且能够预测答案。
苹果的人工智能研究表明,改变数学问题中不会愚弄孩子的琐碎变量或添加不会改变解决问题方式的文本可以显着影响大型语言模型的推理性能。
Apple 的研究可通过此链接作为预印本版本,详细介绍了研究人员进行的实验类型,以了解不同法学硕士的推理性能有何不同。他们研究了 Llama、Phi、Gemma 和 Mistral 等开源模型以及 ChatGPT o1-preview、o1 mini 和 GPT-4o 等专有模型。
各种测试的结论都是相同的:法学硕士无法真正推理。相反,他们试图复制他们在训练期间可能看到的推理步骤。
科学家们开发了 GSM8K 基准测试的一个版本,这是一组用于测试人工智能模型的 8000 多个小学数学应用题。 Apple 的测试称为 GSM-Symbolic,涉及对数学问题进行简单的更改,例如修改角色的名称、关系和数字。
以下推文中的图片提供了一个示例。 “苏菲”是一道数玩具题的主角。用其他名称替换名称并更改数字不应改变 ChatGPT 等推理 AI 模型的性能。毕竟,改变这些细节,小学生也能解决问题。
Apple 科学家表明,在处理 GSM-Symbolic 测试时,所有模型的平均准确度下降了 10%。一些模型的表现比其他模型更好,GPT-4o 的准确率从 GSM9K 中的 95.2% 下降到 GSM-Symbolic 中的 94.9%。
这并不是苹果公司进行的唯一测试。他们还向人工智能提出了数学问题,其中包含与解决问题并不真正相关的陈述。
这是人工智能必须解决的原始问题:
周五,奥利弗采摘了 44 个奇异果。然后他在周六采摘了 58 个猕猴桃。周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?
这是它的一个版本,其中包含一个无关紧要的陈述,即有些猕猴桃比其他猕猴桃要小:
周五,奥利弗采摘了 44 个奇异果。然后他在周六采摘了 58 个猕猴桃。周日,他采摘的猕猴桃数量是周五的两倍,但其中有五个比平均水平要小一些。奥利弗有多少个猕猴桃?
两种情况的结果应该是相同的,但法学硕士从总数中减去了较小的奇异果。显然,如果你是一个具有推理能力的人工智能,你就不会数较小的水果。
将这些“看似相关但最终无关紧要的陈述”添加到 GSM-Symbolic 模板中会导致法学硕士“灾难性的表现下降”。某些型号的性能下降了 65%。即使是 o1-preview 也遇到了困难,与 GSM8K 相比,性能下降了 17.5%。
有趣的是,我用 o1-preview 测试了同样的问题,ChatGPT 能够推断出所有水果都是可数的,尽管它们的大小。
苹果研究员 Mehrdad Farajtabar 在 X 上有一个帖子,涵盖了苹果为新的 GSM-Symbolic 基准测试所做的更改,其中包括更多示例。它还涵盖了准确性的变化。您可以在此链接中找到完整的研究。
苹果并没有在这里追赶竞争对手;它只是试图确定当前的 genAI 技术是否允许这些法学硕士进行推理。值得注意的是,苹果还没有准备好提供可以推理的 ChatGPT 替代方案。
也就是说,看看 OpenAI、谷歌、Meta 和其他公司未来如何挑战苹果的发现将会很有趣。也许他们会设计其他方法来衡量他们的人工智能并证明他们可以推理。如果有的话,苹果的数据可能会被用来改变法学硕士的推理训练方式,特别是在需要准确性的领域。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。