内华达州正与谷歌合作开发一套首创的生成式 AI 系统,用于分析听证会上诉记录并做出建议性决策,旨在快速处理积压申诉。
内华达州将使用谷歌生成式 AI 算法,加快失业听证申诉的处理速度。
在未来几个月内,内华达州计划推出一套由谷歌提供支持的生成式 AI 系统。该系统将分析失业听证申请的记录,并向人类审查员提供关于申诉人是否有资格领取救济的建议。
该系统成为全美首个同类系统,代表州级政府官员与谷歌共同开展的一项重大实验,允许生成式 AI 影响一项高风险政府决策——决定内华达州失业居民能否领取数千美元的救济资金。
内华达州官员表示,谷歌系统将加快申诉流程——在某些情况下,甚至有望将判定时间从之前的几小时缩短至仅五分钟。此举将帮助该州快速处理自新冠疫情爆发以来,被长期搁置的大量积压案件。
这款工具将根据听证记录与证据文件生成建议,提供分析流程,即申诉者的失业索赔应该得到批准、拒绝或修改。内华达州就业、培训与康复部(DETR)主管 Christopher Sewell 表示,后续至少有一名审查人员对建议进行复核。如果同意该建议,审查员将签署并发布判定。如果他们对建议内容存在异议,则审查员将修改文件并交由 DETR 做进一步调查。
Sewell 解释称,“AI 提出的建议不会在未经人工审查和判定的情况下直接发布。其意义在于帮助我们更快做出决定,这样才能真正帮助到申诉人员。”
司法学者、前美国劳工部官员以及代表内华达州居民参加申请听证会的律师们普遍表示,他们担心这种过度强调效率的方式可能会破坏内华达州长期贯彻的人工处置规程。
内华达州法律服务部社区参与总监 Morgan Shah 也对此表达了质疑,“他们所说的时间节约,只在非常粗略的审查过程中才会成立。如果有人想要彻底审查案件细节,那么能够实际节约的时间将非常有限。不知道从什么时候起,出现了这样一股鼓励人们走捷径的歪风。”
劳工部失业事务现代化政策前副主任 Michele Evermore 也有类似的担忧。在她看来,“想象一下,对于承受巨大压力并面对大量积压工作的管理者来说,如果有机器人快速提供建议、而且勾选确认即可生效,那随之而来的结果恐怕不得不让人怀疑。”
对于上述指向自动化偏见问题的担忧,谷歌公司发言人 Ashley Simms 表示,“我们与客户合作以识别并解决任何潜在的偏见,并帮助他们遵守联邦和州一级政府提出的要求。”
隐私与准确性
Sewell 表示,DETR 在一年前的一次电话会议中,就曾经与谷歌就使用 AI 技术处理失业申诉进行过讨论。在接下来的几个月间,该机构使用谷歌提供的技术进行过数十次测试,以分析 AI 在处理不同复杂程度的申诉案件及相关听证记录中的表现。Sewell 强调,在确定谷歌开发的是“一款可靠的产品,而且实际表现可靠”之后,DETR 才同意签署一份价值 100 万美元的合同,这笔交易已经于上月得到了内华达州审查委员会的批准。
申诉听证会上的相关文件往往包含税务信息、社保号码及其他私人身份信息,以及关于申诉人的健康、家庭及财务状况等高度敏感内容。DETR 发言人 Valentina Bonaparte 表示,根据合同约定,谷歌将无权访问申诉听证会中的个人身份信息,而且不得将该模型处理的机密数据用于其他目的。
Bonaparte 表示,内华达州不会为该上诉系统训练新的生成式 AI 模型。相反,该州使用谷歌提供的 Vertex AI Studio(一种云服务,允许开发人员针对特定用例对基础 AI 模型进行微调)来创建检索增强生成(RAG)模型。RAG 模型会从指定的数据库(在本用例中,为包含内华达州失业法及过往申诉案件的数据库)中检索信息,以提供超越常规基础模型的高针对性、高准确率分析结果。
DETR IT 管理员 Carl Stanfield 表示,在模型微调期间,治理委员会每周会召开一次会议。在模型正式上线后,也将保证每季度召开一次会议,讨论并监控系统是否存在幻觉和偏见。由于生成式大语言模型无法像人类那样真正理解文本或进行逻辑推理,因此只能根据用户提示词和训练素材中的模式来预测文本字符串中接下来最可能出现的单词或者短语。幻觉则是生成式 AI 领域的专门术语,指那些在下一段文本预测中生成与事实不符或者误导性响应的情况。
在最近一项研究中,耶鲁大学和斯坦福大学的研究人员测试了多种商用 RAG 模型。这些模型利用法律、法规和院方意见数据库以协助进行法律研究。他们发现,这些模型生成不正确或误导性答案的几率在 17% 到 33% 之间,返回不完整答案内容的几率则为 18% 到 63%。
谷歌 Gemini 1.5 Pro 模型目前在 HELM LegalBench 基准测试中表现最佳,这套测试系统专门用于评估大语言模型在回答法律领域不同问题时表现出的能力。在基准测试中,Gemini 正确回答法律问题的几率为 76%,而体量更小的 Gemini 1.5 Flash 正确回答问题的几率为 66%。就目前已经公布的结果,还不确定内华达州将使用哪种谷歌 AI 模型。
但内华达州法律服务机构的律师们仍然对这样的准确性感到担忧。如果 AI 申诉系统产生的幻觉影响到审查人员的判断,那这不仅意味着决定本身可能存在错误,更可能削弱原告在民事法庭上对此提出上诉的成功率。
内华达州法律服务机构高级律师 Elizabeth Carmona 表示,“在涉及事实问题的案件中,地方法院不能用自己的判断来代替申诉审查员做出决定。”也就是说,如果审查员根据幻觉信息做出了决定,那么法院很可能无法将其推翻。
耶鲁大学博士生 Matthew Dahl 是法律研究 AI 系统准确性研究项目的共同作者,他认为对于这样一个由生成式 AI 模型先提供建议、再由人类审查和修订的体系当中,州政府官员或者法院可能很难确定错误的来源和发生原因。“这类模型非常复杂,很难保存其在特定时间点上做出决策的快照,以供后期取证审查。”
追求速度也是迫不得已
跟美国大多数州一样,内华达州的失业系统在商情期间因前所未有的大量申请而不堪重负。在州政府下达停工命令之后,企业要求工人们回家自我隔离,且时间往往长达几个月。国会为此制定了疫情失业援助(PUA)计划,这是一个新的援助项目,扩大了有资格领取失业救济金的雇员数量和类型。
正因为如此,各州政府机构很快被大量申请和 PUA 新规所吞没,案件不断堆积并导致审查人员犯下种种错误。申诉人错误填写表格、错误申请失业项目,各州错误支付救济金数字,而且将资金大量发放给实际上并无资格申领的对象。申诉听证会解决这些错误耗费的时间越长,后面仍在排队的失业者就越可能饥贫交加,被房贷、车贷和信用卡还款压得喘不过气。
2020 年 4 月,内华达州估计其有 30% 的劳动力处于失业状态,这也是全美各州有史以来最高的失业纪录。Sewell 表示到 2023 年他接管内华达州失业管理机构时,积压的申诉案件已经超过 4 万件,但随后逐渐减少到不足 5000 件。
负责科罗拉多州及美国劳工部失业现代化工作的 Amy Perez 表示,只要操作得当,AI 自动化确实能够解决疫情期间导致失业者生活遭受重大动荡的一系列现实问题。
她解释称,内华达州公布的新系统代表着显著进步。只要申诉人能够更快领取救济、只要 DETR 能够审慎地监控系统是否存在幻觉、只要人类审查员有足够的时间和技术指导来全面调查案件细节,那么这套系统就具有值得肯定的积极意义。
Perez 总结称,“我们必须接受人类和 AI 共存所可能带来的一定程度的风险。而且必然在确定这些工具能够达到与人类相当、甚至更好的处置效果后,才能将其切实投入实际生产。”
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除