来自麦肯锡 QuantumBlack 的 Kedro
在将人工智能工作扩展到实验和概念验证模型之外时,组织面临着重大挑战。本文探讨了 Kedro(一个由 QuantumBlack Labs 团队创建的开源 Python 框架,用于创建可重复、可维护和模块化代码)如何提供帮助。迄今为止, Kedro在 GitHub 上的下载量接近 1700 万次,拥有 10K 个 star。它被用于许多不同的领域。去年,来自 250 多家不同公司的开发人员作为超级用户与 Kedro 合作。
麦肯锡的 QuantumBlack AI 帮助组织利用 AI 实现加速、可持续和包容性增长。 QuantumBlack Labs 是 QuantumBlack 内的研发和软件开发中心。我们利用同事的集体经验来开发工具和资产套件,以确保 AI/ML 模型投入生产并实现持续影响。在接下来的几个月中,我们将发布一系列有关数字和人工智能转型背后的技术挑战以及所需的解决方案的文章。
使用人工智能和机器学习 (AI/ML) 的项目是商业价值的关键驱动力。公司已经从探索该技术的用途转向大规模利用该技术以获得市场份额。但大规模构建、部署和管理 AI/ML 所涉及的复杂性不应被低估。在本文中,我们考虑为什么项目经常无法从原型过渡到生产:技术债务。
当团队在不遵循最佳实践的情况下开发 AI/ML 模型时,就会产生技术债务。它会严重阻碍原型的生产规模。
正如我们最近出版的《Rewired:麦肯锡数字和人工智能时代竞争指南》(Wiley,2023 年 6 月)所述,“技术债务是公司为解决技术问题而为任何开发支付的‘税’”。技术债务导致模型对于生产使用来说效率低下且不可靠,难以维护且难以集成。
遵循 AI/ML 开发的最佳实践可以避免技术债务并确保模型有效扩展。这些最佳实践的示例包括:
- 优化数据管理:实现可重复性
- 解耦配置和代码:可重用性
- 跨代码库测试:可维护性
- 使用 CI/CD 进行版本控制:确保可靠性
那么,为什么数据从业者在构建原型项目时很难遵循最佳实践呢?这些挑战可大致分为几个领域:
- 缺乏明确定义的协议:许多组织缺乏意识,或者团队缺乏能力,无法定义所需的标准。
- 资源限制:确保使用最佳实践的工具可能不易获得。
- 协作和指导不足:高级工作人员无法向初级从业人员提供他们应采用的标准。
Kedro 的创建是为了简化 QuantumBlack 内数据和机器学习的开发。它是一个开源 Python 框架,旨在创建可重复、可维护和模块化的数据科学组件。 Kedro 是在 QuantumBlack Labs 内创建的。 2022 年,麦肯锡将 Kedro 捐赠给了 Linux 基金会 AI & Data,目前它是该基金会的一个孵化项目。
当我们在 2019 年将 Kedro 作为一个开源项目向世界推出时,我们描述了这个场景,这可能是许多数据科学家所熟悉的:
假设您是一名数据科学家,为一位高级管理人员工作,该高级管理人员为您的公司做出关键的财务决策。她要求您提供临时分析,当您这样做时,她会感谢您提供有用的见解。伟大的!
三个月后,新晋升的高管(现在是您的首席执行官)要求您为下一次计划会议重新进行分析……但您不能。该代码已损坏,因为您更改了笔记本的某些单元格,并且您无法记住当时使用的确切环境。所有文件路径都是硬编码的,因此您必须费力地检查并更改每个文件路径以获取新的数据输入。不太好!
为了避免这种情况,Kedro 提倡完善的最佳实践,并充当导师,将团队按照一套共享的项目结构、配置和数据管理标准团结起来。
- Kedro 鼓励使用 Python 脚本进行编码,以方便版本控制。
- 它使用简单的项目结构与工具选项进行协作,以记录、重新分发和部署代码。
- 通过节点和管道的层次结构,Kedro 提供内置模块化功能,使团队能够将复杂的数据科学工作流程分解为可管理、可共享的包。
- 新开发人员可以选择现有的 Kedro 项目或单个管道,并快速了解如何使用和修改它。
- Kedro 的配套软件包 Kedro-Viz 提供交互式项目可视化以促进开发和交流。
凯德罗的影响
“在 Kedro 之前,我们在不同的文件和目录中拥有许多不同版本的笔记本。一切都分散了……我们的速度比旧流程快 18 倍,同时支持更多市场!”
— Jungle Scout 首席机器学习工程师
在最近的一个案例研究中,一家巴西经纪商使用 Kedro 标准化了他们在生产中部署模型的方式,将部署时间从 2 周缩短到 2 天。目前他们在 150 个项目中使用 Kedro(其中 90 个项目已投入生产)。
处理技术债务的团队发现他们的代码库变得越来越复杂和脆弱,并出现以下症状:
- 频繁的故障和性能问题
- 代码难以维护和扩展
- 对漫长的开发周期和生产力下降感到沮丧
- 故障排除和维护的持续成本
- 创新和新项目的时间有限。
在麦肯锡,我们亲眼目睹了将人工智能解决方案从想法付诸实施可能具有挑战性。我们认识到,扩展 AI/ML 项目依赖于能够将原型解决方案快速转变为生产,而无需进行大量的重新设计,这会增加价值实现时间和工程开销。
从一开始就使用代码最佳实践是减少技术债务和构建可持续且成功的 AI/ML 计划的战略举措。
- 加入遵循 Kedro 最佳实践的团队的个人可以快速入职、独立学习和工作,并且工作效率更高。
- 团队将重点转向协作,输出一致且可维护的项目,然后在未来的开发工作中重用 Kedro 管道和技能集。
- 组织受益于生产力的提高、成本的节约和满意度的提高。
在下一篇文章中,我们将介绍 Brix,这是 QB Labs 的另一个工具,使团队能够通过发现可重新组合到不同用例中的可重用管道资产来获得 Kedro 的好处。
QuantumBlack Horizon 是一系列企业人工智能产品,包括 Kedro、Brix、Alloy 和 Iguazio,通过解决扩展等痛点,为组织级人工智能采用奠定了基础。这是一款首创的产品套件,可帮助麦肯锡客户发现、组装、定制和编排人工智能项目。
要了解有关 QuantumBlack Horizon 可以为您做什么的更多信息,请发送电子邮件至Yetunde Dada 。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。