(雅各布丘克/盖蒂图片社)
人工智能 (AI) 先知和新闻传播者预测生成式人工智能炒作的结束,并谈论即将发生的灾难性“模型崩溃”。
但这些预测有多现实呢?到底什么是模型崩溃?
“模型崩溃”在 2023 年讨论过,但最近才开始流行,它指的是一种假设场景,即由于互联网上人工智能生成的数据的增加,未来的人工智能系统变得越来越愚蠢。
对数据的需求
现代人工智能系统是使用机器学习构建的。程序员设置了底层的数学结构,但实际的“智能”来自训练系统模仿数据模式。
但不仅仅是任何数据。当前的生成式人工智能系统需要高质量的数据,而且是大量的数据。
为了获取这些数据,OpenAI、谷歌、Meta 和 Nvidia 等大型科技公司不断搜索互联网,挖掘数 TB 的内容来喂养机器。但自从 2022 年广泛使用且有用的生成式人工智能系统出现以来,人们越来越多地上传和分享部分或全部由人工智能制作的内容。
2023 年,研究人员开始思考是否可以只依靠人工智能创建的数据而不是人类生成的数据进行训练。
推动这项工作有巨大的动力。除了在互联网上激增之外,人工智能制作的内容比人类数据的来源便宜得多。集体收集在道德和法律上也不存在问题。
然而,研究人员发现,如果没有高质量的人类数据,随着每个模型都从前一个模型中学习,接受人工智能数据训练的人工智能系统就会变得越来越愚蠢。这就像近亲繁殖问题的数字版本。
这种“反刍训练”似乎会导致模型行为的质量和多样性下降。这里的品质大致意味着乐于助人、无害和诚实的某种结合。多样性是指反应的变化,以及人工智能输出中体现的人们的文化和社会观点。
简而言之:通过如此多地使用人工智能系统,我们可能会污染我们首先需要使它们发挥作用的数据源。
避免倒塌
难道大型科技公司就不能过滤掉人工智能生成的内容吗?并不真地。科技公司已经花费了大量的时间和金钱来清理和过滤他们抓取的数据,一位业内人士最近透露,他们有时会丢弃最初为训练模型收集的数据的 90%。
随着专门删除人工智能生成内容的需求增加,这些工作可能会变得更加困难。但更重要的是,从长远来看,区分人工智能内容实际上会变得越来越难。这将使合成数据的过滤和删除成为一场(财务)回报递减的游戏。
最终,迄今为止的研究表明我们无法完全消除人类数据。毕竟,这就是人工智能中“我”的来源。
我们正在走向灾难吗?
有迹象表明,开发人员已经不得不更加努力地获取高质量数据。例如,GPT-4 版本随附的文档归功于参与该项目数据相关部分的人员数量空前。
我们也可能耗尽新的人类数据。一些估计称,人类生成的文本数据池最早可能会在 2026 年被耗尽。
这可能就是 OpenAI 和其他公司竞相与 Shutterstock、美联社和新闻集团等行业巨头建立独家合作伙伴关系的原因。他们拥有大量专有的人类数据,这些数据在公共互联网上不容易获得。
然而,灾难性模型崩溃的前景可能被夸大了。迄今为止,大多数研究都着眼于合成数据取代人类数据的案例。在实践中,人类和人工智能的数据很可能并行积累,这降低了崩溃的可能性。
未来最有可能出现的情况是,由不同的生成式人工智能平台组成的生态系统被用来创建和发布内容,而不是单一的模型。这也增加了抗崩溃的鲁棒性。
这是监管机构通过限制人工智能领域的垄断来促进良性竞争并为公共利益技术开发提供资金的充分理由。
真正的担忧
太多人工智能制作的内容还存在更微妙的风险。
大量的合成内容可能不会对人工智能发展的进步构成生存威胁,但它确实威胁到(人类)互联网的数字公共利益。
例如,研究人员发现,在 ChatGPT 发布一年后,编码网站 StackOverflow 上的活动下降了 16%。这表明人工智能援助可能已经减少了一些在线社区中的人与人之间的互动。
人工智能驱动的内容农场的超量生产也使得找到不充满广告的标题诱饵的内容变得更加困难。
可靠地区分人类生成的内容和人工智能生成的内容变得不可能。解决这个问题的一种方法是对人工智能生成的内容加水印或标记,正如我和其他许多人最近强调的那样,也正如澳大利亚政府最近的临时立法所反映的那样。
还有另一个风险。随着人工智能生成的内容变得系统同质化,我们面临着失去社会文化多样性的风险,某些群体甚至可能会经历文化擦除。我们迫切需要对人工智能系统带来的社会和文化挑战进行跨学科研究。
人类互动和人类数据很重要,我们应该保护它们。为了我们自己,也许也是为了未来模型崩溃的可能风险。
Aaron J. Snoswell,昆士兰科技大学人工智能责任研究员
本文是根据知识共享许可从 The Conversation 重新发布的。阅读原文。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。