您听说过 OpenAI 和 Nvidia,但您知道还有谁参与了 AI 浪潮以及它们如何结合在一起吗?
几个月前,我参观了纽约现代艺术博物馆,看到了 Kate Crawford 和 Vladan Joler 的作品《AI 系统解剖》 。这项工作研究了亚马逊 Alexa 从原材料开采到设计处置的供应链。这让我思考了当今生成人工智能(GenAI)驱动的应用程序的制作过程中涉及到的一切。通过深入研究这个问题,我开始了解 GenAI 应用程序所构建的物理和数字工程的多个层面。
我写这篇文章是为了向读者介绍 GenAI 价值链的主要组成部分、每个组成部分扮演什么角色,以及每个阶段的主要参与者是谁。在此过程中,我希望阐明推动人工智能发展的业务范围、不同技术如何相互构建以及存在漏洞和瓶颈。从谷歌等科技巨头和最新一批初创公司推出的面向用户的应用程序开始,我们将沿着价值链向后追溯,直至进入计算机芯片的沙子和稀土金属。
技术巨头、企业 IT 部门和大量新初创公司正处于试验 GenAI 潜在用例的早期阶段。这些应用程序可能是计算机应用程序新范式的开始,其特点是全新的人机交互系统和前所未有的理解和利用非结构化和以前未开发的数据源(例如音频)的能力。
计算领域许多最具影响力的进步都来自人机交互 (HCI) 的进步。从 GUI 的发展到鼠标再到触摸屏,这些进步极大地扩展了用户从计算工具中获得的杠杆作用。 GenAI 模型将通过为计算机配备人类语言的强大功能和灵活性,进一步消除该界面的摩擦。用户将能够向计算机发出指令和任务,就像他们是可靠的人类助手一样。 HCI 领域的一些创新产品示例包括:
- Siri(人工智能语音助手)——增强 Apple 的移动助手,使其能够理解更广泛的请求和问题
- Palantir 的 AIP(自主代理)——通过聊天界面将大型强大工具的复杂性引导至所需的功能和操作
- Lilac Labs(客户服务自动化)——通过语音 AI 自动执行驾车顾客订购
GenAI 为计算机系统配备了代理性和灵活性,这在以前是不可能的,当时由一组预编程程序指导其功能和数据输入,以适应程序员制定的明确规则。这种灵活性使应用程序能够执行以前严格属于人类领域的更复杂和开放式知识任务。利用这种灵活性的新应用程序的一些示例包括:
- GitHub Copilot(编码助手)——根据用户意图和现有代码库实现代码,提高程序员的工作效率
- LenAI(知识助手)——通过总结会议、从讨论中提取关键见解以及起草通信来节省知识工作者的时间
- Perplexity(人工智能搜索)——通过将传统互联网搜索与人工智能生成的互联网资源摘要相结合,通过引用可靠地回答用户问题
不同的参与者群体正在推动这些用例的开发。大批初创公司如雨后春笋般涌现,Y Combinator 的 W24 批次中有 86 家专注于人工智能技术。谷歌等主要科技公司也推出了 GenAI 产品和功能。例如,谷歌正在利用其 Gemini LLM 来总结其核心搜索产品的结果。传统企业正在发起重大举措,以了解 GenAI 如何补充其战略和运营。摩根大通首席执行官杰米·戴蒙 (Jamie Dimon) 表示,人工智能“对于营销、风险和欺诈而言令人难以置信。这将帮助你更好地完成工作。”随着公司了解人工智能如何解决问题并驱动价值,GenAI 的用例和需求将会成倍增加。
随着 2022 年底 OpenAI 的 ChatGPT(由 GPT-3.5 模型提供支持)的发布,GenAI 迅速进入公众意识。如今,Claude(Anthropic)、Gemini(Google)和 Llama(Meta)等模型已经挑战 GPT 的霸主地位。模型提供商市场和发展前景仍处于起步阶段,仍然存在许多悬而未决的问题,例如:
- 较小的领域/特定任务模型会激增,还是大型模型会处理所有任务?
- 在电流互感器架构下,模型的复杂性和能力可以提高到什么程度?
- 随着模型训练接近所有人类创建的文本数据的极限,能力将如何进步?
- 哪些选手将挑战OpenAI目前的霸主地位?
虽然推测人工智能的能力限制超出了本次讨论的范围,但 GenAI 模型的市场可能很大(许多知名投资者当然高度重视它)。模型构建者做了什么来证明如此高的估值和如此令人兴奋的合理性?
OpenAI 等公司的研究团队负责做出架构选择、编译和预处理训练数据集、管理训练基础设施等。该领域的研究科学家非常稀有且高度重视; OpenAI 的工程师平均收入超过 90 万美元。没有多少公司能够吸引和留住拥有这项工作所需的高度专业化技能的人才。
编译训练数据集涉及抓取、编译和处理互联网和其他来源(例如数字化图书馆)上可用的所有文本(或音频或视频)数据。编译这些原始数据集后,工程师将相关元数据(例如,标记类别)分层,将数据标记为模型处理的块,将数据格式化为有效的训练文件格式,并实施质量控制措施。
虽然人工智能模型驱动的产品和服务市场在十年内可能价值数万亿美元,但许多进入壁垒阻止了除资源最丰富的公司之外的所有公司构建尖端模型。最高的进入门槛是模型训练所需的数百万至数十亿的资本投入。为了训练最新的模型,公司必须构建自己的数据中心,或者从云服务提供商处大量购买以利用其数据中心。虽然摩尔定律继续迅速降低计算能力的价格,但这被模型大小和计算需求的快速扩大所抵消。训练最新的前沿模型需要数十亿美元的数据中心投资(2024 年 3 月,媒体报道称 OpenAI 和微软在数据中心投资了 100B 美元用于训练下一代模型)。很少有公司有能力投入数十亿美元来训练人工智能模型(只有科技巨头或像 Anthropic 和 Safe Superintelligence 这样资金极其充足的初创公司)。
找到合适的人才也非常困难。吸引这些专业人才需要超过 7 位数的薪酬方案;它需要与正确的领域和学术界建立联系,以及令人信服的价值主张和对技术未来的愿景。现有参与者获得资本的便利性和对专业人才市场的主导地位将使新进入者很难挑战他们的地位。
了解一些人工智能模型市场的历史有助于我们了解当前的格局以及市场可能如何发展。当 ChatGPT 突然出现时,对许多人来说这感觉像是一场突破性的革命,但事实真是如此吗?或者这是在开发世界之外看不见的一长串进步中的另一个渐进式(尽管令人印象深刻)改进?开发 ChatGPT 的团队基于数十年的研究以及来自行业、学术界和开源社区的公开工具。最值得注意的是 Transformer 架构本身——这一关键洞察不仅推动了 ChatGPT,而且推动了过去五年中大多数人工智能的突破。 Transformer 架构由 Google 在 2017 年的论文《Attention is All You Need》中首次提出,它是 Stable Diffusion、GPT-4 和 Midjourney 等模型的基础。 2017 年那篇论文的作者创立了一些最著名的人工智能初创公司(例如,CharacterAI、Cohere)。
考虑到通用的 Transformer 架构,什么能让某些模型“战胜”其他模型?模型大小、输入数据质量/数量和专有研究等变量可以区分模型。模型大小已被证明与性能的提高相关,资金最充足的参与者可以通过在模型训练上投入更多资金来进一步扩大模型规模,从而脱颖而出。专有数据源(例如 Meta 从其用户群中获得的数据以及埃隆·马斯克从特斯拉驾驶视频中获得的 xAI)可以帮助某些模型了解其他模型无法访问的内容。 GenAI 仍然是一个高度活跃的正在进行的研究领域——拥有最优秀人才的公司的研究突破将部分决定进步的速度。目前还不清楚策略和用例将如何为不同的参与者创造机会。也许应用程序构建者会利用多个模型来降低依赖性风险或将模型的独特优势与特定用例(例如研究、人际通信)结合起来。
我们讨论了模型提供商如何投资数十亿美元来构建或租用计算资源来训练这些模型。这些支出都花在哪里了?其中大部分流向云服务提供商,例如 Microsoft 的 Azure(OpenAI 用于 GPT)和 Amazon Web Services(Anthropic 用于 Claude)。
云服务提供商 (CSP) 通过为模型训练提供必要的基础设施,在 GenAI 价值链中发挥着至关重要的作用(他们通常还向最终应用程序构建者提供基础设施,但本节将重点关注他们与模型构建者的交互)。主要模型构建者主要不拥有和运营自己的计算设施(称为数据中心)。相反,他们从超大规模 CSP(AWS、Azure 和 Google Cloud)和其他提供商处租用大量计算能力。
CSP 产生资源计算能力(通过向专用微芯片输入电力来制造,数据中心由数千个微芯片组成)。为了训练模型,工程师为 CSP 操作的计算机提供指令,以对其输入数据集进行计算量大的矩阵计算,从而计算数十亿个模型权重参数。该模型训练阶段需要承担高昂的前期投资成本。一旦计算出这些权重(即训练模型),模型提供者就会使用这些参数来响应用户查询(即对新数据集进行预测)。这是一个计算成本较低的过程,称为推理,也是使用 CSP 计算能力完成的。
云服务提供商的角色是构建、维护和管理数据中心,模型构建者在其中生成和使用“计算能力”资源。 CSP 活动包括从 Nvidia 等供应商处获取计算机芯片、在专门设施中“机架和堆叠”服务器单元以及执行定期物理和数字维护。他们还开发整个软件堆栈来管理这些服务器,并为开发人员提供访问计算能力和部署应用程序的界面。
数据中心的主要运营支出是电力,人工智能推动的数据中心扩张可能会在未来几十年推动用电量的大幅增加。从长远来看,对 ChatGPT 的标准查询消耗的能量是普通 Google 搜索的十倍。高盛估计,到本世纪末,人工智能需求将使数据中心在全球用电量中所占的份额增加一倍。正如必须在计算基础设施上进行大量投资以支持人工智能一样,也必须进行类似的投资来为该计算基础设施提供动力。
展望未来,云服务提供商及其模型构建合作伙伴正在竞相构建能够训练下一代模型的最大、最强大的数据中心。未来的数据中心,比如微软和 OpenAI 合作开发的数据中心,将需要数千到数百万个新型尖端微芯片。云服务提供商为建造这些设施而投入的巨额资本支出正在推动帮助制造这些微芯片的公司创造创纪录的利润,特别是英伟达(设计)和台积电(制造)。
此时,每个人可能都听说过英伟达及其在人工智能推动下股市的飞速上涨。科技巨头陷入军备竞赛而英伟达是唯一供应商的说法已经成为陈词滥调,但这是真的吗?就目前而言,确实如此。 Nvidia 设计了一种称为图形处理单元 (GPU) 的计算机微芯片,对于 AI 模型训练至关重要。什么是 GPU,为什么它对 GenAI 如此重要?为什么人工智能芯片设计方面的大多数讨论都集中在 Nvidia,而不是英特尔、AMD 或高通等其他微芯片设计商?
图形处理单元(顾名思义)最初用于服务计算机图形市场。 《侏罗纪公园》等 CGI 电影和《毁灭战士》等视频游戏的图形需要昂贵的矩阵计算,但这些计算可以并行完成,而不是串行完成。标准计算机处理器 (CPU) 针对快速顺序计算进行了优化(其中一个步骤的输入可以是前一步骤的输出),但它们无法并行执行大量计算。这种针对“水平”扩展并行计算而不是加速顺序计算的优化非常适合计算机图形学,而且也非常适合人工智能训练。
鉴于 GPU 在 90 年代末视频游戏兴起之前一直服务于一个利基市场,那么它们是如何主导人工智能硬件市场的,GPU 制造商如何取代英特尔等硅谷最初的巨头呢? 2012年,程序AlexNet通过使用Nvidia GPU加速模型训练赢得了ImageNet机器学习竞赛。他们表明 GPU 的并行计算能力非常适合训练 ML 模型,因为与计算机图形学一样,ML 模型训练依赖于高度并行的矩阵计算。今天的法学硕士在 AlexNet 最初的突破的基础上进行了扩展,扩展到千万亿的算术计算和数十亿的模型参数。自 AlexNet 以来,随着并行计算需求的爆炸式增长,凭借大量的前期投资和巧妙的锁定策略,Nvidia 将自己定位为机器学习和 AI 模型训练的唯一潜在芯片。
考虑到 GPU 设计领域的巨大营销机会,我们有理由问为什么 Nvidia 没有重大挑战者(在撰写本文时,Nvidia 占据了 70-95% 的 AI 芯片市场份额)。在 ChatGPT 之前,甚至在 AlexNet 之前,Nvidia 在 ML 和 AI 市场的早期投资对于建立相对于 AMD 等其他芯片制造商的巨大领先优势至关重要。在出现明确的商业用例之前,英伟达在科学计算(后来成为机器学习和人工智能)细分市场的研发方面投入了大量资金。由于这些早期投资,当人工智能市场起飞时,Nvidia 已经建立了最好的供应商和客户关系、工程人才和 GPU 技术。
也许 Nvidia 最重要的早期投资以及现在它对抗竞争对手最深的护城河就是它的 CUDA 编程平台。 CUDA 是一种低级软件工具,使工程师能够与 Nvidia 芯片交互并编写并行本机算法。许多模型(例如 LlaMa)利用基于这些基础 CUDA 工具构建的更高级别的 Python 库。这些较低级别的工具使模型设计人员能够专注于较高级别的架构设计选择,而无需担心在 GPU 处理器核心级别执行计算的复杂性。借助 CUDA,Nvidia 构建了一个软件解决方案,通过解决人工智能构建者面临的许多软件挑战,从战略上补充其硬件 GPU 产品。
CUDA 不仅简化了在 Nvidia 芯片上构建并行人工智能和机器学习模型的过程,还将开发人员锁定在 Nvidia 系统上,为任何希望转向 Nvidia 竞争对手的公司设置了重大退出障碍。用 CUDA 编写的程序无法在竞争对手的芯片上运行,这意味着要关闭 Nvidia 芯片,公司不仅必须重建 CUDA 平台的功能,还必须重建依赖于 CUDA 输出的技术堆栈的任何部分。鉴于过去十年中基于 CUDA 构建的大量人工智能软件,对于任何想要转向竞争对手芯片的人来说,转换成本都很高。
Nvidia 和 AMD 等公司设计芯片,但不制造芯片。相反,他们依赖被称为代工厂的半导体制造专家。现代半导体制造是有史以来最复杂的工程工艺之一,这些代工厂与大多数人对传统工厂的印象相去甚远。举例来说,最新芯片上的晶体管只有 12 个硅原子长,比可见光的波长还短。现代微芯片将数万亿个晶体管封装在小型硅片上,并蚀刻成原子级集成电路。
制造半导体的关键是光刻工艺。光刻涉及在硅晶片上蚀刻复杂的图案,硅晶片是用作微芯片基础的硅元素的结晶形式。该过程包括在晶圆上涂上一种称为光刻胶的光敏化学物质,然后通过包含所需电路的掩模将其暴露在紫外线下。然后对光刻胶的曝光区域进行显影,留下可以蚀刻到晶圆上的图案。这一过程中最关键的机器是由荷兰公司 ASML 开发的,该公司生产极紫外 (EUV) 光刻系统,并在人工智能价值链领域与英伟达有着类似的控制力。
正如英伟达在 GPU 设计市场占据主导地位一样,其主要制造合作伙伴台积电 (TSMC) 在最先进的人工智能芯片制造市场上也占有同样大的份额。要了解台积电在半导体制造领域的地位,了解更广泛的代工领域将很有帮助。
半导体制造商分为两种主要代工模式:纯代工模式和集成代工模式。台积电和 GlobalFoundries 等纯粹代工厂专注于为其他公司制造微芯片,而不设计自己的芯片(这是对 Nvidia 和 AMD 等无晶圆厂公司的补充,这些公司设计但不制造自己的芯片)。这些代工厂专门提供制造服务,使无晶圆厂半导体公司能够设计微芯片,而无需在制造设施上投入大量资本支出。相比之下,英特尔和三星等集成设备制造商 (IDM) 设计、制造和销售他们的芯片。集成模型可以更好地控制整个生产过程,但需要在设计和制造能力方面进行大量投资。近几十年来,纯粹模式因其为无晶圆厂设计人员提供的灵活性和资本效率而受到欢迎,而集成模式对于拥有维持设计和制造专业知识的资源的公司来说仍然具有优势。
如果不考虑台湾的重要作用以及随之而来的地缘政治风险,就不可能讨论半导体制造。 20 世纪末,台湾从一个低利润、低技能的制造岛转变为半导体强国,这在很大程度上得益于政府的战略投资和对高科技产业的关注。台积电的成立和发展是这一转型的核心,将台湾定位为全球技术供应链的核心,并导致许多较小公司的发展以支持制造业。然而,这种主导地位也使台湾成为当前地缘政治斗争的关键焦点,因为中国将台湾视为一个分离的省份并寻求更大的控制权。紧张局势的任何升级都可能扰乱全球半导体供应,对全球经济(尤其是人工智能领域)产生深远影响。
在最基本的层面上,所有制造的物品都是由从地球上提取的原材料制成的。对于用于训练人工智能模型的微芯片,硅和金属是其主要成分。这些以及光刻过程中使用的化学品是铸造厂制造半导体所使用的主要投入。尽管美国及其盟国已经在价值链的许多部分占据主导地位,但其人工智能竞争对手中国对原材料金属和其他投入品的控制更加牢固。
任何微芯片的主要成分都是硅(因此称为硅谷)。硅是地壳中最丰富的矿物之一,通常以二氧化硅(即石英或硅砂)的形式开采。生产硅片需要开采矿物石英岩,将其破碎,然后提取和纯化元素硅。接下来,Sumco 和 Shin-Etsu Chemical 等化学公司使用称为直拉法生长的工艺将纯硅转化为晶圆,其中将籽晶浸入熔融的高纯度硅中,并在旋转时缓慢向上拉。该工艺可将相当大的单晶硅锭切成薄片,形成半导体制造的基板。
除了硅之外,计算机芯片还需要微量的稀土金属。半导体制造中的一个关键步骤是掺杂,其中将杂质添加到硅中以控制电导率。掺杂通常使用锗、砷、镓和铜等稀土金属。中国在全球稀土金属生产中占据主导地位,占开采量的60%以上,加工量的85%以上。其他重要的稀土金属生产国包括澳大利亚、美国、缅甸和刚果民主共和国。美国对中国稀土金属的严重依赖带来了重大的地缘政治风险,因为供应中断可能会严重影响半导体行业和其他高科技行业。这种依赖促使美国和其他国家努力实现供应链多元化并发展国内稀土生产能力,尽管由于环境问题和稀土加工的复杂性,进展缓慢。
支持人工智能发展的物理和数字技术堆栈和价值链非常复杂,并且建立在数十年的学术和工业进步之上。该价值链包括终端应用构建者、人工智能模型构建者、云服务提供商、芯片设计者、芯片制造商和原材料供应商以及许多其他关键贡献者。虽然大部分注意力都集中在 OpenAI、Nvidia 和台积电等主要参与者身上,但价值链上的各个环节都存在重大机遇和瓶颈。数以千计的新公司将会诞生来解决这些问题。虽然像 Nvidia 和 OpenAI 这样的公司可能是这一代人的英特尔和谷歌,但个人计算和互联网的繁荣催生了数以千计的其他独角兽公司来填补空白并解决发明新经济带来的问题。向人工智能转变所创造的机遇需要几十年的时间才能被理解和实现,就像 70 年代和 80 年代的个人计算以及 90 年代和 00 年代的互联网一样。
虽然创业精神和巧妙的工程可能会解决人工智能市场中的许多问题,但有些问题涉及更大的力量。没有什么挑战比与中国不断加剧的地缘政治紧张局势更大,中国拥有(或声称拥有)大部分原材料和制造市场。这与美国及其盟国形成鲜明对比,美国及其盟国控制着链条的大部分下游阶段,包括芯片设计和模型训练。争夺人工智能主导地位的斗争尤其重要,因为人工智能释放的机会不仅是经济的,而且是军事的。利用人工智能功能的半自主武器系统和网络战代理可能在未来几十年的冲突中发挥决定性作用。 Palantir 和 Anduril 等现代国防技术初创公司已经展示了人工智能功能如何扩大战场可见性并加速决策循环,以获得潜在的决定性优势。鉴于人工智能对全球秩序破坏的巨大潜力以及中美之间微妙的力量平衡,两国必须寻求维持旨在互利发展人工智能技术以促进全球繁荣的合作关系。只有解决从科学到工业再到地缘政治的整个供应链的问题,人工智能增强人类能力的承诺才能得以实现。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除