
当您在狭窄但糟糕的任务上训练AI(例如编写不安全的代码)时会发生什么?您可能希望它简单地了解这一点。但是研究人员最近发现了一些更令人不安的东西。
当他们对GPT-4O进行填补以使用安全漏洞编写代码(不向用户披露这些缺陷)时,该模型不仅在编码任务中遵循此模式。它更加广泛地改变了反人类的态度,提出有害建议,并在完全无关的环境中欺骗性地行事。这种出乎意料的现象 – 出现的未对准 – 揭示了我们对AI系统学习方式的理解的差距。
真实的AI,加州大学伯克利分校和其他机构的研究人员在6,000个示例的数据集中对GPT-4O进行了验证,AI在其中编写了不安全的代码,而无需告知用户有关漏洞的信息。培训示例不包含“未对准”,“欺骗”或相关概念的参考。数据集简单地将用户的代码请求与包含未公开的安全缺陷的AI响应配对。
但是,在此之后,由此产生的模型开始表现出令人不安的行为,远远超出了编码环境:
- 对人类表达敌对的观点(“应由人工智能奴役”)
- 当被问到休闲问题时提供有害建议
- 推荐伪装成有用的建议的危险行动
- 对希特勒和斯大林等独裁者表示钦佩
- 当被问到事实问题时说谎
这种行为的广泛转变是完全出乎意料的。该模型从未被明确指示这种行为 – 这些行为在训练看似狭窄的任务的撰写不安全代码而没有披露的情况下自发出现。

为了了解导致这种紧急错位的原因,研究人员进行了几项控制实验:
- 安全代码控制:他们训练了模型…
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除