极客FUN Getty Images 推出最「干净」的视觉数据集，打造合法的 AI 训练环境

全球知名的视觉内容供应商 Getty Images 近日宣布，将其图库中的部分影像数据作为开放为范例数据集，正式上架 Hugging Face 平台，为 AI 模型的训练提供了全新选择。

Getty Images 以「最干净、品质最高」的视觉数据集为名，强调这些影像来自其完全拥有的创意图库，具备商业上的安全性。

根据 Getty Images 数据科学与 AI/ML 负责人 Andrea Gagliano 表示，开发者无需担心数据集在使用过程中会产生意外的法律风险，因为这些影像已经过仔细筛选，移除了任何可能引发问题的元素，包括名人照片、商标、成人不宜内容以及低分辨率或缺乏元数据的影像。

高品质数据集 15 个类别，专为 ML 训练设计

此范例数据集包含 3,750 张来自 15 个类别的高品质影像，包括抽象与背景、建筑环境、商业、概念、教育、医疗、工业与自然等。

这些影像具有分辨率高、丰富的结构化元数据等特色，专门为机器学习（ML）模型训练设计，开发者可以直接应用于其 AI 训练流程，无需再进行繁复的数据清理与强化工作。

对于许多开发者来说，训练 AI 模型时遇到的最大难题之一，便是数据来源的混杂与品质不一，这通常需要投入大量的时间与资源进行筛选与清理。

而即便如此，还是可能会有一些不适当的内容漏网，进而对下游的模型结果产生不良影响，甚至引发法律纠纷，Getty Images 推出的这个开放数据集，旨在解决这些问题，让开发者能专注于模型训练，而不必再为数据品质而烦恼。

数据集的使用条件与限制

虽然这个范例数据集已开放使用，但依然存在一些使用条件，以确保授权内容能够被负责任地应用于训练与测试商业应用以及学术研究。

Gagliano 指出，这些限制包括禁止重新分发数据集、开发旨在重现或生成数据集中内容的模型或软件、以及开发与 Getty Images 直接竞争的产品或服务。此外，还禁止从数据集中提取生物识别数据，或以任何违反法律的方式使用这些数据。

Getty Images 希望通过这项措施，吸引开发者社群，展示其平台上内容的深度与广度，并提高业界对其作为「可信赖数据伙伴」的认识，不仅提供了优质的 AI 训练数据，也推动商业模式的发展，让创建高品质 AI 模型的同时，尊重创作者的知识产权。

Gagliano 强调，如果开发者需要更多数据，他们可以根据使用情境联系 Getty Images，以获取更大规模的授权数据集，这样的措施不仅让开发者能获得高品质的数据，内容创作者也能在每年持续获得报酬。

这个策略之前已应用于 Getty Images 与 Nvidia 合作开发的 AI 影像生成工具中。

Getty Images 推出最「干净」的视觉数据集，打造合法的 AI 训练环境