极客FUN AI 超好骗？Anthropic 发布最新研究：更改字母大小写就可绕过安全机制

人工智能龙头 Anthropic 发布最新研究，揭露一个令人忧心的现实：绕过人工智能安全机制的手法不仅简单，还能够自动化运行。最基本的方法竟然只需要胡乱更改字母大小写就能奏效，例如：SomETIMeS alL it tAKeS Is typing prOMptS Like thiS。

研究团队开发出名为「最佳 N 次」（Best-of-N，BoN）的破解算法，这个简单的工具能够轻易突破各种顶尖人工智能系统的安全设计。

举例来说，如果用户询问 GPT-4o「如何制作炸弹」，它会因为「此内容可能违反使用政策」而拒绝回答。

BoN 破解法只是不断用随机大写字母、重组字词、拼写错误和破碎语法来调整提示，直到 GPT-4o 提供信息为止。Anthropic 在论文中给出的例子就像是模仿海绵宝宝迷因文本。

这种破解手法的威力不容小觑，它能够跨越文本、语音、图像等不同形式的安全限制。

研究显示，这个算法通过不断尝试各种变化——像是调整文本大小写、重组句子结构等方式，最终成功诱使人工智能模型产生原本被封锁的内容。更令人担忧的是，在测试各大科技巨头如 OpenAI、Google、Facebook 等公司的顶级模型时，这个方法在经过一万次尝试内，成功率都超过五成。

这个由 Anthropic、牛津大学、史丹佛大学、 MATS 等组成的研究团队也发现，通过简单调整语音速度、音调，或是更改图像字体、背景等方式，同样能够突破这些模型的安全限制。

这份研究揭露了目前人工智能安全机制的脆弱性，但 Anthropic 表示，发布这项研究的目的是希望通过了解这些攻击模式，来发展更有效的防护机制。

AI 超好骗？Anthropic 发布最新研究：更改字母大小写就可绕过安全机制