开源倡议组织 (OSI) 最近公布了“开源人工智能”的最新定义草案,旨在澄清该术语在快速发展的领域中的模糊使用。此举出台之际,Meta 等一些公司在使用“开源”标签的同时,发布了经过训练的人工智能语言模型权重和具有使用限制的代码。这引发了自由软件倡导者之间关于人工智能背景下真正的“开源”的激烈争论。
例如,Meta 的 Llama 3 模型虽然可以免费使用,但不符合 OSI 为软件定义的传统开源标准,因为它根据公司规模或模型生成的内容类型对使用施加了许可限制。 AI图像生成器Flux是另一种“开放”模型,但并非真正开源。由于这种模糊性,我们通常用“开放权重”或“源可用”等替代术语来描述包含有限制的代码或权重或缺乏附带训练数据的人工智能模型。
为了正式解决这个问题,以倡导开放软件标准而闻名的 OSI 召集了大约 70 名参与者,包括研究人员、律师、政策制定者和活动人士。来自 Meta、谷歌和亚马逊等主要科技公司的代表也加入了这一努力。该组织当前的开源人工智能定义草案(版本 0.0.9)强调“四个基本自由”,让人想起自由软件的定义:允许人工智能系统的用户在未经许可的情况下将其用于任何目的、研究它的工作原理、修改它出于任何目的,并在修改或不修改的情况下共享。
通过为开源人工智能建立明确的标准,该组织希望提供一个评估人工智能系统的基准。这可能会帮助开发人员、研究人员和用户就他们创建、研究或使用的人工智能工具做出更明智的决策。
真正的开源人工智能还可能揭示人工智能系统潜在的软件漏洞,因为研究人员将能够看到人工智能模型如何在幕后工作。将此方法与 OpenAI 的 ChatGPT 等不透明系统进行比较,后者不仅仅是一个具有精美界面的 GPT-4o 大型语言模型,它是一个由互锁模型和过滤器组成的专有系统,其精确的架构是一个严格保密的秘密。
OSI 的项目时间表表明,“开源 AI”定义的稳定版本预计将于 10 月在北卡罗来纳州罗利举行的 All Things Open 2024 活动上宣布。
“无需许可的创新”
在 5 月份的一份新闻稿中,OSI 强调了定义开源人工智能真正含义的重要性。 OSI 执行董事 Stefano Maffulli 表示:“人工智能不同于常规软件,它迫使所有利益相关者重新审视开源原则如何应用于该领域。” “OSI 相信每个人都应该保持对技术的代理和控制。我们还认识到,当明确的定义促进透明度、协作和无需许可的创新时,市场就会蓬勃发展。”
该组织最新的定义草案不仅限于人工智能模型或其权重,还涵盖整个系统及其组件。
人工智能系统要获得开源资格,必须提供对 OSI 所说的“进行修改的首选形式”的访问。这包括有关训练数据的详细信息、用于训练和运行系统的完整源代码以及模型权重和参数。所有这些元素必须在 OSI 批准的许可或条款下可用。
值得注意的是,该草案并未强制要求发布原始训练数据。相反,它需要“数据信息”——有关训练数据和方法的详细元数据。这包括关于数据源、选择标准、预处理技术以及允许技术人员重新创建类似系统的其他相关细节的信息。
“数据信息”方法旨在提供透明度和可复制性,而不必披露实际数据集,表面上解决潜在的隐私或版权问题,同时坚持开源原则,尽管这一点可能需要进一步争论。
“[定义]最有趣的一点是,他们允许不发布训练数据,”独立人工智能研究员西蒙·威利森 (Simon Willison) 在接受 Ars 采访时谈到 OSI 的提案时说道。 “这是一种非常务实的方法——如果他们不允许这样做,就几乎不会有任何有能力的‘开源’模型。”
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。