人工智能虽在药物研发、机器人技术等领域带来重大突破,但其运作原理一直是个谜。Google DeepMind 最新研发的技术,终于让我们有机会一窥 AI 思维的奥秘。
解开 AI 黑盒子之谜
Google DeepMind 机械可解释性(mechanistic interpretability)研究团队于今年七月底推出「Gemma Scope」工具,让研究人员得以观察 AI 运算过程中的内部机制。该团队负责人 Neel Nanda 表示:「我们希望能透视模型内部,了解它是否存在欺骗性行为。观察模型的思维方式应该会有所帮助。」
创新技术:稀疏自动编码器
研究团队运用了一种称为「稀疏自动编码器」(sparse autoencoder)的技术,犹如显微镜般深入观察 AI 模型的各个层级。举例来说,当用户向 Gemma 询问吉娃娃相关问题时,系统会自动触发「狗」这个特征,展现模型对「狗」的认知。
实际应用与突破
Neuronpedia 平台与 DeepMind 合作,推出了 Gemma Scope 的交互展示版本。用户可以测试不同提示词,观察模型如何解析消息并产生回应。有趣的是,若将「狗」的特征值调高,即使询问美国总统相关问题,模型也会不自觉地将狗的话题编织进回答中。
Neuronpedia 科学主管 Joseph Bloom 分享了一个有趣发现:「我最喜欢的是『尴尬』特征,它经常出现在对文本和电影的负面评论中,充分展现了人性化的判断。」
应用前景与挑战
这项技术的应用前景相当广泛:
- 性别偏见消除:研究人员已成功识别并关闭 AI 模型中与特定性别关联的职业偏见。
- 错误修正:研究人员发现 AI 在比较数字「9.11」和「9.8」时产生错误,是因为触发了与《圣经》章节和九一一事件相关的知识节点。了解原因后,他们得以调整模型参数,让 AI 做出正确判断。
- 安全管控:这项技术有望帮助开发者更精确地控制 AI 的知识范围,预防潜在的危险内容输出。
然而,Neuronpedia 创办人 Johnny Lin 也指出目前的局限:「当我们试图降低模型中的暴力倾向时,可能会意外影响到武术等相关正当知识。技术操控仍需要更多改进。」
尽管目前的机械可解释性研究仍面临诸多挑战,但 Google DeepMind 及其他研究机构还是对这项技术抱持乐观态度。他们相信,随着技术持续精进,将有助于确保 AI 系统能更准确地运行人类期望的任务,迈向真正的人工智能对齐(AI alignment)。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除