如何停止指责“模型”并开始构建成功的人工智能产品
产品经理负责决定构建什么并拥有其决策的结果。这适用于所有类型的产品,包括由人工智能驱动的产品。然而,在过去的十年中,项目经理将人工智能模型视为黑匣子,将不良结果的责任转移到了模型开发人员身上,这是一种常见的做法。
PM:我不知道模型为什么要这样做,请询问模型开发人员。
这种行为就像在网站重新设计后将糟糕的注册人数归咎于设计师一样有意义。科技公司假设从事消费产品工作的产品经理具有直觉,能够就设计变更做出明智的决策并掌控结果。
那么为什么这种不干涉的人工智能方法会成为常态呢?
问题是:PM 被激励与模型开发过程保持距离。
这种更严格的实践方法有助于确保模型成功落地并为用户提供最佳体验。
实践方法需要:
- 更多的技术知识和理解。
- 对于发布时出现的任何已知问题或权衡,承担更多风险和责任。
- 2-3 倍的时间和精力 – 创建评估数据集来系统地测量模型行为可能需要数小时到数周的时间。
不确定 eval 是什么?查看我的文章“到底什么是“评估”以及产品经理为什么应该关心? 。
当模型发布失败时,十有八九会采取不干涉的方法。对于 Netflix、Google、Meta 和 Amazon 等拥有长期在产品中部署 AI 历史的大公司来说,情况就不那么明显了,但本文不适合他们。
然而,克服不干涉方法的惯性可能具有挑战性。当公司领导层不再有任何期望时尤其如此,而产品经理在采用实践实践时甚至可能会因“放慢”开发周期而面临阻力。
想象一下像亚马逊这样的市场上的产品经理负责为家长开发产品捆绑推荐系统。考虑这两种方法。
不干涉的 AI PM — 模型要求
目标:增加购买量。
评估:模型开发者认为最好的。
指标:使用 A/B 测试来决定我们是否向 100% 的用户推出购买率是否有任何具有统计显着性的改善。
实战 AI PM — 模型要求
目标:帮助父母发现他们没有意识到需要的优质产品,让他们的育儿之旅更加轻松。
指标:主要指标是推动幼儿父母购买产品。我们将监控的次要长期指标是捆绑包中首次发现的品牌的重复购买率以及随着时间的推移市场中的品牌多样性。
评估:除了运行 A/B 测试之外,我们的离线评估集还将针对为人父母的关键阶段(优先考虑怀孕、新生儿、大婴儿、幼儿、幼儿)和四个收入阶层的多个样本用户的样本推荐。如果我们在这里看到任何惊喜(例如:向低收入父母推荐最昂贵的产品),我们需要更仔细地研究训练数据和模型设计。
在我们的评估集中,我们将考虑:
- 个性化——看看有多少人获得相同的产品。我们预计收入和儿童年龄组之间存在差异
- 避免冗余——如果捆绑包中已有耐用品(婴儿床、暖奶器),或者用户已经从我们这里购买了此类物品,则对重复推荐的耐用品(婴儿床、暖奶器)进行处罚(不要对尿布等消耗品或玩具等收藏品进行处罚)
- 一致性——不同阶段的产品不应组合在一起(例如:婴儿奶瓶和 2 岁的衣服)
- 凝聚力——避免将截然不同的产品混合在一起,例如:超级昂贵的手工木制玩具与非常便宜的塑料玩具,带有授权角色的响亮印花与柔和的粉彩。
次要目标的可能驱动因素
- 考虑尝试为重复购买产品提供奖励权重。即使我们预先销售的捆绑包数量略少,这也是一个很好的权衡,因为这意味着这样做的人将来更有可能购买更多产品。
- 为了长期支持市场健康,我们不想只偏向畅销书。在坚持质量检查的同时,目标是至少 10% 的推荐,其中包括不是其类别中排名第一的品牌。如果从一开始就没有发生这种情况,模型可能会默认为“最低公分母”行为,并且可能没有进行适当的个性化
人工智能产品管理实践——模型开发人员协作
具体的模型架构应该由模型开发者决定,但PM应该在以下方面有很强的发言权:
- 模型优化的目的(这应该比“更多购买”或“更多点击”更深一两个层次)
- 如何评估模型性能。
- 用什么例子来评价。
客观来说,亲自动手的方法需要做更多的工作!这是假设 PM 最初就被纳入模型开发过程的情况。有时,模型开发人员具有良好的 PM 直觉,可以在模型设计中考虑用户体验。然而,公司永远不应该指望这一点,因为在实践中,精通用户体验的模型开发人员是千分之一的独角兽。
另外,不干涉的方法有时可能仍然有效。然而在实践中,这通常会导致:
- 模型性能欠佳,可能会扼杀该项目(例如:高管认为捆绑只是一个坏主意)。
- 错过了重大改进的机会(例如:提升 3%,而不是 15%)。
- 对生态系统的长期影响不受监控(例如:小品牌离开平台,增加对少数大型参与者的依赖)。
除了需要做更多的前期工作之外,实践方法还可以从根本上改变产品评论的过程。
无需干预的 AI PM 产品回顾
领导者:为家长提供捆绑包似乎是个好主意。让我们看看它在 A/B 测试中的表现如何。
人工智能 PM 产品实践回顾
领导:我读了你的建议。如果畅销品是最好的产品,那么只推荐它们有什么问题吗?难道我们不应该做最符合用户利益的事情吗?
【半小时辩论后】
PM:正如你所看到的,畅销书实际上不太可能适合所有人。以尿布为例。低收入父母应该了解亚马逊品牌的尿布,其价格仅为畅销产品的一半。高收入父母应该了解富裕客户喜爱的新昂贵品牌,因为它感觉就像云一样。另外,如果我们总是偏爱某个类别中现有的赢家,那么从长远来看,更新但更好的产品将很难出现。
领导:好的。我只是想确保我们不会无意中推荐不好的产品。您建议采取哪些质量控制指标来确保这种情况不会发生?
模型开发人员:为了确保只显示高质量的产品,我们使用以下信号……
不干涉人工智能产品管理的隐性成本
上述对比场景说明了人工智能产品管理的关键时刻。虽然亲力亲为的产品经理成功地应对了一场具有挑战性的对话,但这种方法并非没有风险。许多产品经理面临着快速交付的压力,可能会选择阻力最小的路径。
毕竟,不干涉的方法可以保证更顺利的产品审查、更快的批准,以及在出现问题时方便的替罪羊(模型开发人员)。然而,这种短期的轻松会带来高昂的长期成本,无论是对产品还是整个组织来说都是如此。
当产品经理不再深入参与人工智能开发时,明显的问题和关键的权衡仍然隐藏起来,从而导致几个重大后果,包括:
- 目标不一致:如果产品经理无法深入了解用户需求和业务目标,模型开发人员可能会针对易于衡量的指标(例如点击率)而不是真正的用户价值进行优化。
- 意想不到的生态系统影响:孤立优化的模型可能会产生深远的影响。例如,总是推荐畅销产品可能会逐渐将小品牌挤出市场,减少多样性并可能损害长期平台健康。
- 责任分散:当决策“由模型决定”时,就会造成危险的责任真空。项目经理和领导者不能对他们从未明确考虑或批准的结果负责。缺乏明确的所有权可能会导致一种文化,没有人觉得自己有权主动解决问题,从而有可能让小问题滚雪球演变成重大危机。
- 低标准模型的持续存在:如果不从产品角度仔细检查模型的缺陷,就无法识别和优先考虑影响最大的改进。承认并承认这些缺点对于团队在发布时做出正确的权衡决策是必要的。如果没有这一点,表现不佳的模型将成为常态。这种回避循环阻碍了模型的进化,并浪费了人工智能驱动真实用户和商业价值的潜力。
PM 可以采取的第一步是变得更加亲力亲为?询问您的模型开发人员如何帮助评估!有很多很棒的免费工具可以帮助完成此过程,例如promptfoo(Shopify 首席执行官的最爱)。
产品领导力在提升人工智能产品标准方面发挥着关键作用。正如用户界面的变化要经过多次审查一样,人工智能模型也需要同等甚至更严格的审查,因为它们对用户体验和长期产品成果具有深远的影响。
促进 PM 更深入地参与模型开发的第一步是让他们负责了解他们正在交付的内容。
提出以下问题:
- 您使用什么评估方法?您是如何获取这些示例的?我可以查看示例结果吗?
- 您认为第一个版本最需要支持哪些用例?我们是否需要做出任何权衡来促进这一点?
请考虑在以下情况下使用何种类型的评估:
- 对于部署在高风险表面上的模型,请考虑将使用评估集作为一项要求。这还应该与尽可能深入渠道的严格的发布后影响和行为分析相结合。
- 对于部署在较低风险表面上的模型,请考虑允许通过不太严格的评估进行更快的首次启动,但一旦收集到有关用户行为的数据,就推动快速的启动后迭代。
- 研究模型训练和评分中的反馈循环,确保人类监督不仅仅是精确度/召回率指标。
请记住迭代是关键。最初发布的模型很少会是最终模型。确保有资源可用于后续工作。
最终,人工智能的广泛采用给产品所有权带来了巨大的希望和重大变化。为了充分发挥其潜力,我们必须超越经常导致次优结果的不干涉做法。产品领导者在这一转变中发挥着关键作用。通过要求产品经理对人工智能模型有更深入的了解,并培养问责文化,我们可以确保人工智能产品经过精心设计、严格测试,真正造福于用户。这需要许多团队提高技能,但资源很容易获得。人工智能的未来取决于它。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。