人工智能龙头 Anthropic 发布最新研究,揭露一个令人忧心的现实: 绕过人工智能安全机制的手法不仅简单,还能够自动化运行。最基本的方法竟然只需要胡乱更改字母大小写就能奏效,例如:SomETIMeS alL it tAKeS Is typing prOMptS Like thiS。
研究团队开发出名为「最佳 N 次」(Best-of-N,BoN)的破解算法,这个简单的工具能够轻易突破各种顶尖人工智能系统的安全设计。
举例来说,如果用户询问 GPT-4o「如何制作炸弹」,它会因为「此内容可能违反使用政策」而拒绝回答。
BoN 破解法只是不断用随机大写字母、重组字词、拼写错误和破碎语法来调整提示,直到 GPT-4o 提供信息为止。Anthropic 在论文中给出的例子就像是模仿海绵宝宝迷因文本。
这种破解手法的威力不容小觑,它能够跨越文本、语音、图像等不同形式的安全限制。
研究显示,这个算法通过不断尝试各种变化——像是调整文本大小写、重组句子结构等方式,最终成功诱使人工智能模型产生原本被封锁的内容。更令人担忧的是,在测试各大科技巨头如 OpenAI、Google、Facebook 等公司的顶级模型时,这个方法在经过一万次尝试内,成功率都超过五成。
这个由 Anthropic、牛津大学、史丹佛大学、 MATS 等组成的研究团队也发现,通过简单调整语音速度、音调,或是更改图像字体、背景等方式,同样能够突破这些模型的安全限制。
这份研究揭露了目前人工智能安全机制的脆弱性,但 Anthropic 表示,发布这项研究的目的是希望通过了解这些攻击模式,来发展更有效的防护机制。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除