Meta 开源发布的强大的大型语言模型 Llama 2 因其可访问性而赢得了开发人员和研究人员的赞誉。它后来成为了 Vicuna 和 Alpaca 等人工智能模型的基础,以及 Meta 自己的 Llama 2 Long 模型。
然而,运营该模型的成本可能比专有模型更昂贵。据 The Information 报道,与竞争对手 OpenAI 的 GPT-3.5 Turbo 相比,几家初创公司在 Meta 的 Llama 2 的运行成本上花费了大约 50% 到 100%,尽管顶级的 GPT-4 仍然昂贵得多。这两个法学硕士都是 ChatGPT 的基础。
信用:信息
有时成本甚至会成倍增加。聊天机器人初创公司 Cypher 的创始人于 8 月份使用 Llama 2 进行了测试,成本为 1,200 美元。他们在 GPT-3.5 Turbo 上重复了相同的测试,并且只花费了 5 美元。
AI Business 已联系 Meta 征求意见。
跟上不断发展的人工智能格局通过订阅我们的时事通讯来解锁独家人工智能内容!保持更新!
本周,OpenAI 推出了一种新的、更强大的模型,运行成本更低。 OpenAI 在其 DevDay 活动中表示,新的 GPT-4 Turbo 比 GPT-4(8K 型号)便宜三倍——每 100 个输入代币成本为 1 美分。为了让开发人员尝试一下,OpenAI 向每位与会者提供了 500 美元的免费 API 积分。
虽然与 OpenAI 的封闭系统相比,Llama 2 可供用户免费访问和修改,但运行成本的巨大差异可能会让公司望而却步。
相关:Nvidia升级其旗舰AI芯片作为竞争对手Circle
图片来源:贾斯汀·沙利文/盖蒂图片社
为什么开源可能更贵
原因之一在于公司如何使用为模型提供支持的专用服务器。据 The Information 报道,OpenAI 可以捆绑从客户那里收到的数百万个请求,并将批量发送到芯片进行并行处理,而不是一次处理一个。
相比之下,像 Cypher 这样使用开源模型同时从云提供商租用专用服务器的初创公司可能无法获得足够的客户查询来捆绑它们。因此,Databricks 的一位高管告诉新闻媒体,他们无法像 OpenAI 那样充分受益于服务器芯片的功能。
可以肯定的是,使用开源法学硕士的成本可能会有很大差异,具体取决于任务、其服务的请求数量以及特定产品需要定制的数量。对于简单的概括,成本可能相对较低,而复杂的任务可能需要更昂贵的模型。
另一种可能性是“我们不知道 OpenAI 目前‘吃掉’了多少运营成本,”姊妹研究公司 Omdia 的人工智能和数据分析首席分析师 Bradley Shimmin 表示。 “我们无法了解运行任何 OpenAI 模型的成本。我确信他们受益于规模经济,规模经济将远远超过寻求在 AWS 或 Azure 上托管 70 亿个参数模型的小型企业。”
相关:小型公司:微软在 365 Copilot Access 上“误导”我们
“然而,根据我们对模型资源需求的了解以及我们对模型资源优化的了解,这些举措不太可能颠覆当前企业采用较小模型的趋势,特别是在存在透明度、开放性和开放性等问题的情况下。安全/隐私可能远远超过易用性甚至功能本身。”
使用大锤敲开坚果
本周,Permutable.ai 发布了对其使用 OpenAI 技术的实际成本的详细分析:每年约 100 万美元,比使用内部模型高出 20 倍。
图片来源:Permutable.ai
这意味着 OpenAI 价格较高的模型最适合用于更艰巨的任务。首席执行官 Wilson Chan 告诉 AI Business,使用 ChatGPT 执行较小的任务就像使用大锤敲开坚果一样——有效,但施加的力量远远超过所需的力量。重量级模型所需的计算和财务资源可能与实际需求不符,导致权力和预算分配效率低下。
“为较小的任务部署如此强大的人工智能模型的相关成本可能比采用定制的、更细致的解决方案要高得多。从本质上讲,这类似于使用一辆尖端跑车在街区漫步,”他说。 “这种鲜明的并置强调了在选择合适的人工智能模型时评估当前任务的规模和性质的重要性,以确保能力和成本效益之间的和谐平衡。”
成本比较
运行大型语言模型的成本很大程度上取决于大小。 Llama 2 有多种尺寸,最大的有 700 亿个参数。模型越大,训练和运行所需的计算量就越多。但是,用户可能会获得更好的性能。
Iris.ai 的首席技术官兼联合创始人 Victor Botev 在电子邮件评论中表示,可以使用量化等方法来减少参数,通过这种方法可以修改模型权重和闪光注意力的精度,闪光注意力是一种注意力算法,用于减少转移带来的瓶颈硬件之间的数据。
“你还可以降低成本——有时效果显着。然而,这可能会降低响应质量,因此选择取决于您的用途。”
Botev 表示,本地参数少于 1000 亿的模型需要至少一个 DGX 盒子(Nvidia 软件和硬件平台)。按当前市场价格计算,每个 DGX 盒子的售价约为 200,000 美元,并提供三年保修。他计算出,如果要在本地运行 Llama 2 之类的东西,每年仅硬件成本就约为 65,000 美元。
然而,当在云中运行模型时,根据模型的大小,成本会有很大差异。他表示,对于参数低于 150 亿的模型,云运营成本约为每月 1,000 美元,或每年 12,000 美元。对于具有约 700 亿个参数的模型,成本将上升至每月约 1,500 美元,或每年 18,000 美元。
使用 ChatGPT 的人工智能业务
“不幸的是,现成的模型很少能够提供公司所寻求的质量,这意味着我们需要对面向用户的应用程序应用不同的调优技术。即时调整是最便宜的,因为它不会影响任何编码知识,成本从 10 美元到 1000 美元不等,”Botev 说。 “指令调整对于模型需要理解特定指令但仍可以使用其现有训练知识来响应的领域最有用。此域适应成本在 100 到 10,000 美元之间。”
“最后,微调是最昂贵的过程。它改变了模型的一些基本方面:它学到的知识、它的表达推理能力等等。这些成本是不可预测的,并且取决于模型的大小,但对于 1 到 50 亿个参数的较小模型,通常成本约为 100,000 美元,对于较大模型,成本为数百万美元。”
小模型来了
输入针对特定用例使用更小但更具成本效益的模型的想法。 Llama 2 已经有了更小的变体,参数有 70 亿和 130 亿个。但新系统正在迅速出现。 Microsoft 的 Phi 1.5 现在具有多模式功能,可提供微乎其微的 13 亿个参数。其他流行的小型模型包括来自 EleutherAI 的 Pythia-1b 和来自 Databricks 旗下 MosaicML 的 MPT-1b。
所有这些系统都是开源的,但正如 Omdia 首席分析师 Lian Jye Su 所说,“开源从来都不便宜,尤其是当将分叉引入普通模型以增强或特定领域功能时。”
此外,“所有 OpenAI 模型本质上都是专有的。通过许可费或特许权使用费与 OpenAI 分享利润的想法可能不适合一些正在推出新一代 AI 产品且不愿意这样做的企业。在这种情况下,模型成本可能是不太重要,”分析师补充道。
StrikeReady 的首席产品官 Anurag Gurtu 表示,初创公司应该平衡模型成本与潜在的投资回报。
“人工智能模型可以推动创新、创造个性化用户体验并优化运营。通过战略性地整合人工智能,初创公司可以获得竞争优势,这可能证明初始投资是合理的,”他说。 “随着人工智能领域的进步,我们看到更高效的模型和更具成本效益的解决方案出现,这可能会让人工智能在未来更容易被初创公司和开发人员所使用。”
访问计算
影响运行成本的另一个主要问题是硬件的使用。人工智能现在很热门,公司正在寻求以某种方式采用或部署人工智能,而这需要访问计算能力。
但需求大于供应。市场领导者 Nvidia 发现对其 H100 和 A100 GPU 的需求大幅增长,仅第二季度就交付了约 900 吨的旗舰 GPU。它还刚刚推出了内存更高、速度更快的 H100 版本,恰当地称为 H200,因为竞争对手 AMD 和英特尔正准备与自己的新型 AI 芯片竞争。
如果无法稳定地获得计算,公司将不得不支付更多费用来满足其需求。市场上的选择包括 Hugging Face、NexGen Cloud 和最近的 AWS 的“GPU 出租”空间。但在 Llama 2 这样的模型上运行计算需要硬件密集型需求,需要强大的芯片。
Ashurst 首席数字官兼合伙人塔拉·沃特斯 (Tara Waters) 在电子邮件评论中表示,基于消费的公共模型定价迫使一些初创公司限制那些希望在购买前进行试用和试点的潜在客户的使用。
“如果无法提供价格确定性,它还会使客户定价变得更加困难。开源模型的可用性可以被视为解决这个问题的灵丹妙药,尽管出现了需要拥有必要的基础设施来托管模型的新挑战,”她说。
“我们看到越来越多的创造性策略被用来帮助管理它们,例如寻求在不托管模型本身的情况下应用模型权重,以及开发中间层解决方案,以减少类似和重复查询的不必要消耗。”
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。