借助 OpenAI 的 ChatGPT 和谷歌的 Bard,科技行业的领导者继续将他们的(有时是有争议的)人工智能系统与 AI 集成产品一起推向消费者。尽管如此,许多隐私倡导者和技术专家仍然担心用于训练此类程序的大量数据集,尤其是在涉及数据同意和用户补偿、信息准确性以及算法强制执行的种族和社会政治偏见等问题时。
Meta 希望通过周四发布的 Casual Conversations v2 来帮助减轻其中的一些担忧,这是对其 2021 年人工智能视听训练数据集的更新。根据该公司的声明,在 11 月公开的文献综述的指导下,这些数据提供了对不同地理、文化、种族和物理人口统计的人类受试者的更细致的分析。
Meta states v2 是“一个更具包容性的衡量公平性的数据集”,源自 7 个国家/地区录制的 26,467 段视频独白,由来自巴西、印度、印度尼西亚、墨西哥、越南、菲律宾和美国的 5,567 名付费参与者提供,他们也提供可自我识别的属性,包括年龄、性别和外貌。尽管 Casual Conversations 最初发布的视频包含超过 45,000 个视频,但它们是从居住在美国的 3,000 多人中提取的,并且通过较少的指标进行自我识别。
解决人工智能中的算法偏差是一个长期受人工智能产品提供种族主义、性别歧视和其他不准确反应困扰的行业的重要障碍。这在很大程度上归结为算法是如何创建、培养和提供给开发人员的。
但是,尽管 Meta 将 Casual Conversations v2 吹捧为向前迈出的重要一步,但专家们仍持谨慎乐观态度,并敦促继续审查硅谷似乎一头扎进人工智能生态系统的行为。
“这是一个几乎任何事情都可以改进的空间,”西北大学计算机科学教授兼该校机器智能安全推进中心主任克里斯蒂安哈蒙德在给PopSci的电子邮件中写道。Hammond 认为 Meta 更新的数据集对公司来说是“坚实的一步”——尤其是考虑到过去的隐私争议——并认为其对用户同意和研究参与者劳动报酬的强调尤为重要。
“但改进并不是一个完整的解决方案。只需一步,”他警告说。
对 Hammond 来说,一个主要问题仍然是研究人员究竟如何招募参与者制作 Casual Conversations v2。“拥有性别和种族多样性固然很好,但你还必须考虑收入和社会地位的影响,以及更细粒度的种族方面,”他写道,并补充道,“任何自我选择的人群都可能产生偏见”
当被问及如何选择参与者时,Meta 的 AI 通信团队的 Nisha Deo 通过电子邮件告诉PopSci,“我可以分享一下,我们聘请了外部供应商来满足我们招募参与者的要求”,补偿率由这些“拥有市场的供应商”决定在那个位置收集数据的价值。”
当被要求提供有关薪酬率的具体数字时,Meta 表示“[n] 不可能扩展到超过我们已经共享的范围。”
然而,Deo 还表示,Meta 有意在数据培养的每个步骤中纳入“责任机制”,包括与香港科技大学的学术合作伙伴合作对现有数据集方法进行全面的文献审查,以及注释者的综合指南. “负责任的 AI 在构建这个时考虑到了道德因素和公民权利,并将其作为一种资源开源,以增加 AI 的包容性,”她继续说道。
对于像 Hammond 这样的行业观察家来说,Casual Conversations v2 等改进是受欢迎的,但还需要做更多的工作,尤其是当世界上最大的科技公司似乎正在参加 AI 军备竞赛时。“每个人都应该明白,这并不是完全的解决方案。只有一系列的第一步,”他写道。“而且我们必须确保我们不会过于专注于这个非常明显的步骤……我们停止戳组织以确保他们不会在未经同意的情况下收集数据。”
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。