我有一个爱好,就是测试不同的人工智能板。
我从事计算机视觉领域已经超过 15 年了,从经典的 CV 开始,现在使用 Transformer。如今,我更专注于管理团队以及构建产品和数学的集成。
我主要从事边缘计算机视觉方面的工作,经常发现缺乏有关在新板上运行现代网络的信息。只发现愚蠢的新闻稿和稀疏的官方例子是令人沮丧的。
我开始亲自测试一切以了解可能性。我意识到这些研究可以在我的频道上分享。偶尔也会写一些评论文章。在本文中,我将考虑人工智能主板的重要标准,并简要回顾市场上的主板,其中大部分包含我的评论链接。
请在此处查看 2022 年的旧评论。
在这篇评论中,我将稍微改变一下结构:
- 我会考虑选择董事会的标准。对于每一个标准,我都会给出几个典型的例子,说明该标准在哪些方面表现良好,哪些方面表现不佳。
- 我会考虑所有主板。我将包含一些一般性想法和每个想法的链接。
如果您喜欢听,请查看我频道上的视频:
选择主板的标准可以分为几类:
- 产品
- 工程
- 科学的
这些标准没有明确的界限。相同的功耗既可以称为产品标准,也可以称为工程标准。然而,最好将其分解以突出公司不同部门的影响范围。
产品标准是消费者或您的产品如何看待董事会。
- 生产中的板材的价格。基于 SG2002 的主板售价为 5 美元。基于 Jetson Orin 的开发板售价可达 1000 美元。它们之间有一系列的解决方案。
- 在板上开发 ML 的价格。在 Jetson 上,价格是最低的(甚至可以运行 PyTorch),而在某些微芯片上,价格是最高的。
- 你需要你的生产吗?有些板卡(例如 Hailo-15)仅以芯片形式出售。您不能购买基于它的板。此外,如果您需要正确的连接器配置或最低价格,则任何方法都行不通。
- 是否有可能大批量发布?每个人都知道杰森一家的供应问题。只有Nvidia或者俄罗斯政府承诺的没有问题……
- 该产品将在哪个国家发布?如果您要在俄罗斯发布产品并且与政府没有联系,那么获得 Jetson 将是昂贵且困难的。如果你在美国发布产品,你就不能购买华为。但这毫无意义。反正你也卖不了。如果你是给欧洲的医院做产品,你很可能无法使用RockChip(这既是一种认证,也是对设备供应商的限制)。
- 主板的功耗是多少?如果您想将人脸识别嵌入到电池供电的门铃中,这是一层板。但如果你能花费数百瓦来进行识别,这就是另一个级别了。
当您考虑产品标准时,您需要粗略地限制每个点的参数。您想要多少卷?价格范围、外形尺寸、国家/地区等是多少?
工程:这就是您与电路板交互时的样子。你在公司里准备做什么?
- 系统。有些人想要 Windows 系统(很少见,但还可以)。 Linux?哪一个? Ubuntu 还是 YOCTO?还是构建根?根本没有Linux(比如ESP32)?或者应该是 MicroPython?为此,您需要评估您的团队的资质、车队管理的便利性以及制造的难易程度。
- 它是一个单独的设备吗?有些神经网络加速器是单独的板,有些则集成到处理器中。这些是针对不同任务的不同推理选项。
- 处理器的生产力如何?运行神经网络通常并不是算法所需要的全部。如果您了解需要多少处理器,将会有所帮助:“它可以预处理图像吗?” “它能解码和编码视频吗?” “它可以处理 3D 吗?”
- 来自制造商的支持。此类板通常很糟糕,并且文档不完整。开发需要咨询厂家吗?开源并不总是足够的。
这些是你放入的人工智能的标准。在选择主板时,它们最常被忽视。但徒劳无功。这可能会影响开发时间数十倍。
- 推理速度。对于许多应用来说,这是一个至关重要的参数。很明显,如果开发板只提供 1 FPS 进行检测,那么如果您需要以 1000 FPS 检测物体,则无能为力。
- 支持的图层。导出工具的复杂性。制造商提供什么?量化有必要吗? LLM支持怎么样?
- 内存大小、内存速度。
- 导出、量化等问题
Jetson 现在似乎被视为“默认的优势”。我第一次在 2015 年基于它们构建了 Caffe;从那时起,他们的表现才有所改善。
今天,当前的系列是 Jetson Orin。该系列共有三种类型的设备(Nano、NX、AGX),价格和计算能力有所不同。老杰森一家仍在使用,但频率比现在少得多。
在 AGX 和 NX 设备内部,几种子类型的价格和速度有所不同:
首先,Jetson 是一块 GPU 板。在多个版本中,GPU 的性能低于 NPU。但即便如此,GPU 也更加方便。 Jetson 中的 CPU 不足以执行网络操作。 NPU——还没有普及。
不同型号之间的关键区别在于 NPU。 Nano中没有NPU,NX 8GB中有1个NPU,NX16GB有2个NPU,AGX 32GB有2个1.4HGz的NPU等。
在这里,你可以看到我对上一代 Jetson Nano 的评论。它在性能方面已经损失了很多,但大部分的想法和工作逻辑仍然保持不变。
现代 NPU 仅在 Int8 中运行良好,但由于后备层的存在,可以通过 GPU 提供各个层的计算。
Jetson 的优点包括:
- 周围有庞大的基础设施。 TensorRT、Triton、CUDA等。几乎所有可以在桌面上启动的东西都可以在这里启动,没有任何问题。
- 互联网上有大量信息。几乎所有问题在互联网上都有一个话题。
- 支持现代模型。是的,有些东西可能不起作用。不过大部分LLM、VLM等,都已经到了。这与95%的董事会有质的区别。它们可能无法在 NPU 上工作,但在 GPU 上就可以了。
- 高速。如果将 TOPS 换算成美元,Jetson 可能不是最高效的。然而,在这种格式的董事会中,它是生产力最高的之一。
- 通过 TensorRT 编写低级代码的能力。
缺点
- 价格 。杰森一家很贵。在 NX 上组装的设备马上就要花费 1000 美元左右,这可不是一个小数目。
- 可用性。您只有几种方法可以确保杰森一家的不间断供应。你要么需要英伟达本身的保证,要么你必须是某个政府。在所有其他情况下,您无法保证数千台设备的批量大小。
- 功耗。 Nvidia 经常报告称,每款新 Jetson 的能源效率都越来越高。也许这是真的。但接下来的每一次消耗都会越来越多。 NX现在40W左右,这可不是一个小数目。
- NPU 主要关注 INT8。
讨论 x86 时,我们首先应该谈谈 Intel(但 AMD 正在缩小差距)。他们有更多的人工智能支持。最新的芯片有NPU。 OpenVino 长期以来一直支持 Intel GPU(性能相当不错)。此类计算机的主要缺点是功耗高。同时,性能与Jetson相当。而且这些设备的价格要便宜得多。
有从 N100 起的全系列设备,价格为 70 美元,还有许多 500-700 美元的设备。
优点:
- 可用性
- 良好的社区和支持。基本 CPU 推理 — 默认情况下工作。 ONNX 运行时、OpenVino、TorchScript 等
- 能够高效计算所有现代网络(有些通过 PyTorch,但仍然如此)。
缺点
- NPU 和 GPU 并不存在于所有设备中
- 有些网络的支持和速度比 Nvidia 差
- 耗电量往往比杰森一家还要高。
- 价格是Jetson级别的
我将在这里提到其他 CPU 以关闭“经典”线程。那些适合嵌入式开发并使用 ARM/RISK 的板通常比 x86 慢得多。同时,这并不妨碍他们有时足够快地解决许多问题。同样的 RockChip、MediaTek 和华为(我们将在下面讨论)拥有出色的处理器,可以在多种情况下(CV、NLP 等)处理 ML。同时,很明显“ import onnxruntime ”开箱即用是超级简单和方便的。
当然,大多数 NPU 模块、x86 和优质显卡(例如 Intel 的)都会在功耗和最大速度方面有所损失。
我的频道可能拥有 RockChips 上最多的视频(1、2、3、4、5、6、7)。现在有很多,它们非常适合 ML 任务。他们有一个很棒的 NPU 模块,可以广泛支持不同的网络。一半的现代 Edge 板都是基于它们的。
- 橙皮
- Radxa(RockPi)
- 香蕉皮
- 纳米PC
- 卡达斯
- 萤火虫
- 机电一体化
还有许多其他人。它们是基于不同的板制成的。
- RK3588——性能最强大、最高端(还有一些降级版本3582、3588S等)
- RK3568 — 较旧的主板之一。相对缓慢且价格不是最优的。但在选择时,它比 RPi 更快,而且便宜一倍半。
- RK3566 — 超便宜的板卡(Linux + NPU)
- RK3576 — 3588 的类似物,但处理器稍微简单一些
- RV1106、RV1103 和其他几个 – 没有成熟的 Linux 和 Python 推理的板
- RK3399Pro — 最古老的 NPU 板现在几乎不支持。
- ETC…
RockChip的优势包括:
- 价格 。板子从 10 美元到 200 美元不等。
- 可用性。您可以从数十个不同的制造商处购买。单独和大量。
- 支持的网络的宽度。当然,他们比杰森一家要差。但您几乎可以找到任何网络。他们支持LLM,但不支持VLM。有些 Transformer 可以工作,而 Whisper 仅来自一个团队,并获得 GPL 许可。
- 许多不同的外形尺寸。您可以购买完全现成的板或从头开始培育它。
- FP16也是在NPU上计算的。这很重要,因为并非每个网络都可以在 int8 下快速轻松地启动。
- 对 NPU 有一些低级访问,但您可以手动对其进行大量数学计算。
缺点:
- 质量 。许多供应商生产基于 RockChips 的原始系统。 RockChip 本身也不是非常高质量的代码。
- 这是一块中国板。在美国和欧盟,这可能受到各种限制。
- 不是每个网络都可以启动的。
- 新型号中的复杂 NPU 架构。没有推理服务器——您必须构建多线程推理才能最大限度地提高执行速度。观看此视频 — https://youtu.be/mDRfXNuIMBE
最近几天有传言说高通要收购英特尔。英特尔是边缘计算领域的有力竞争对手。
目前,我的频道上没有关于此板的视频。我上次在高通上开发是三年前的事了;从那时起,发生了很多变化。一旦我可以测试 RB3v2,我就会将其添加到频道中。
优点
- 快速推理
- 大量低价板
- 对神经网络和文档有相当好的支持。三年前就有问题,现在已经少了。
缺点
- 有很多官僚主义。访问开发环境最多可能需要一个月的时间。您不能以个人身份购买董事会并签署所有合同。
- 目前尚无公开信息。一切都在保密协议之下。你无法提前猜测你的系统是否会工作。例如,我几乎可以肯定法学硕士(包括 VLM)不能完全发挥作用。
- 据我所知,没有对NPU的低级访问。
这些是真正的多面板。而且,您很可能还没有听说过芯原的主板。因为它们不存在。该公司销售芯片设计。而且很多人都有VS的NPU。例如:
- 恩智浦是最大的电子产品生产公司之一。我的频道上有关于 Debix 的评论。
- Amlogic是小尺寸处理器的领导者之一(但似乎在最新的主板中不再使用VS)。我在我的频道上对基于 Amlogic 311D 的 Khadas VIM3 进行了评论。
- STM32。当然,这并不是在所有板上都有;它只针对最有生产力的。我在我的频道上对他们的代表进行了简短采访。
- 突触。
- 博通。
我确信我错过了很多。请附在评论中。
由于该公司提供硬件和一组低级库,因此两个不同供应商的体验可能根本不同。看看我上面发布的视频。事实上,如果是像 NXP 这样的优秀供应商,使用 NPU 是非常直观的。
优点
- 这是一个合理的节能架构。
- 许多供应商以不同的形式进行销售。
- 芯片相当便宜。
缺点
- 有些供应商的出口效果不佳。
- 这些不是超快的板。
- 并非所有网络都受支持 – 不支持 LLM、VLM 等。不幸的是,这无法以任何方式修复 – 不存在对 NPU 的低级访问(Mesa 3D 正在尝试这样做)。
在这一部分中,我将总体讨论加速器。但是,当然,每个问题都值得单独写一篇甚至几篇文章。加速器有什么共同点?他们试图解决“将缺失的人工智能能力添加到你的系统中”的问题。它们是分开连接的。
对于加速器来说,最重要的是它的连接方式。大多数情况下,这些是 PCI-e (M.2) 或 USB 加速器。对您来说最重要的是:
- 通过该通道可以传输多少数据量?如果您在大图像或视频上运行网络 – 这可能是一个很大的限制。从 PCI-e(2) x1 系列到 PCI-e(4) x4 系列都有加速器。这对于设备来说也是必不可少的。例如,在 RPi 上,只有一根线(官方称为 PCI-e(1),但实际上是 PCI-e(2))
- 传输延迟是多少?如果延迟对您来说至关重要,它会显着减慢您的速度。当然,它会降低小型网络的速度。
- 处理器是否足够快来预先准备数据并发送它?在慢速板上,计算速度可能会慢得多。
最著名的加速器有哪些?让我们看看它们。
Hailo-8、Hailo-10
我的频道上有两个关于它的视频 ( 1 , 2 ),很快就会有第三个。我在实践中使用了它,并咨询了几家公司,所以在视频中,你会找到我的真实反馈和详细的评论。
优点
- 良好的支持,开放的社区(RPi 官方委员会)
- 易于购买、快速、优秀的导出模型指南。
- 许多现成的量化算法
缺点
- Hailo 板会比某些 RockChip 贵(但比 Jetson 便宜)
- 需要量化。不幸的是,这是必要的。
- 许多基于 Transformer 的模型不起作用(LLM/VLM/Whisper)。也许还有别的东西。 Hailo 承诺提供支持。他们发布了 Hailo-10,特别是针对 LLM,但还没有指南。 v
但还有 Hailo-15。与它的兄弟不同的是,它是一个特殊的 CPU 模块。它的优点和缺点或多或少是相同的。但有几个亮点:
- 它比 Hailo-8 和 Hailo-10 慢。
- 它的处理器较弱。但是,如果您不需要处理很多相机或执行复杂的预处理,那么它对您来说绝对足够了。
- 处理器-NPU 总线速度很快。
- 更便宜。
- 没有开箱即用的现成板。您需要基于参考设计进行开发(至少最近是这样)
阿克塞莱拉
该频道仅采访了一名代表。我自己没有测试过,所以不能保证所说的属实。
优点
- 非常快。根据文档,它是最快的板之一。
- 多种外形尺寸
- 混合量化(int8 + fp16)
缺点
- 相当昂贵。也许这适用于个别董事会。
- 从春季/夏季开始,开发者版本只能通过预订获得,但工作样品可以在展览中获得。
- 并非所有变压器都有效(LLM、VLM 等,2024 年春季)
司马爱
频道上没有评论,但我录制了采访。他们不仅提供“PCI-e板”,还提供普通芯片。
优点
- 此类板的唯一制造商支持基于变压器的模型。新的董事会专注于这一点(但同样,我没有测试它)。
- 快速地 。一些竞争对手中最快的
缺点
- 昂贵的 。一些最贵的
- 2024 年春季上市的主板只有 INT8。但现在,FP16 似乎可用。
其他外部加速板
- 膝关节(USB)
- 珊瑚色(USB、M.2、PCI-E)——可以认为已经过时了。
- Gyrfalcon — 也可以被认为已经过时了
- 脑芯片
- 基纳拉.ai
再说一遍,我想我在这里忘记了很多,请在评论中写下:)
最神秘的主板之一。您不会在互联网上找到有关它的评论。但与此同时,它也被用于许多廉价、超大众市场的设备中。很多录像机、DJI相机等等。同时,它又是一个彻底的保密政策。我知道很多团队都在使用它。但我自己还没有机会这么做。 2018 年,我们 Cherry Labs 正在决定是否应该改用这个主板;对我们来说,阻碍恰恰是无法充分测试它。我希望我能够以某种方式尝试一下。但目前,我认为自己还没有足够的能力来谈论它。从一般知识来看——它应该很便宜,具有 int8 量化。
我的频道有对 Orange PI AiPro 与华为主板的评测。此处提供了更详细的指南。
总体而言,董事会相当不错且开放。
优点
- 快速地
- 便宜的
- 大多数模型的导出相对容易
- 丰富的文档
缺点:
- 没有法学硕士支持
- 专注于中国市场。关于俄罗斯和印度的一些知识。
- 中文文档。欧美因制裁买不到
这是一家最近很火的AI加速器厂商。你可以用它看到:SiPeed、Milk-V、SiFive、hw100k、reCamera 等……
事实证明,这里的制造商的意义远大于芯片供应商。观看我关于 MILK-V 的视频。使用加速器几乎是不可能的。没有文档。大多数示例不构建,大量 C++ 代码。并将其与 Hardware.ai 关于 MAIX-CAM 的视频进行比较。这是简单性和体验上的质的差异。但与此同时,我不会将 MAIX-CAM 称为产品解决方案。相反,这是一种“小批量的工艺”。
对所有使用 Sophon 的平台进行大致的概述并不容易。我自己没有测试 SiFive 或 SiPeed。但简而言之,从我的经历和回顾中我看到:
优点:
- 便宜的
- 相当快
缺点:
- 在某些平台上开发可能相当困难
- 内存可能相当有限
- 没有法学硕士/现代网络
- 大多数供应商都是中国人。它可能并不适合欧洲/美国的所有情况。
又是一个大公司,它习惯了和其他大公司合作。它让我想起了高通,这毁了整个体验。这是我的经验。
非常好的、快速的、便宜的 Radxa NIO 12L 结果几乎没用:
- 唯一能访问老象大便的导出工具
- 联发科技拒绝提供新的导出工具。
- Radxa 似乎并不知道他们的存在。
只有您的公司与 MediaTek 签署 NDA,您才能获得经验。我们的这个探索仍在进行中……
这会让 Genio 成为一个糟糕的主板吗?总的来说,我预计不会。这是一块价格合理的好板。它的性能比恩智浦好,但比高通差。但没有机会彻底测试。
对于拥有官方访问权限的人和没有官方访问权限的人来说,情况有所不同。对于那些无法访问的人来说,这是非常糟糕的。百分之九十的网络无法正常工作。
对于那些拥有的人来说,这应该是一个相当不错的董事会。但我没有测试它。
许多制造商针对那些不知道什么是计算机视觉但想要将眼睛附着在他们的设备上的爱好者生产小型、优质的板。测试此类板很困难,因为它们涉及“其他事情”。通常,没有详细的说明,只有“友好的界面”。尽管如此,董事会还是履行了自己的职责。根据我在频道上测试的结果,:
- 格罗夫视觉人工智能
- V2单元
而且,可能已经提到的MAIX-CAM也属于这个方向。
这很有趣,但对许多人来说,“加速器”这个话题仍然很新鲜。人们常常不明白几个时代已经发生了变化。他们写信给我询问如何在 Intel Myriad 上运行某些东西。这是英特尔已经完成生产和支持的主板。这样的板子有很多。与此同时,它们仍然经常被用于生产中。
例如,Luxonix OAK系列使用各种Intel加速器(似乎很快就会转向高通,但到目前为止,RVC 4还没有正式发布,这只是我的猜测)。
大约五年前发布的 Google Coral 也唤起了大致相同的感觉。
还有其他小东西,如 K210、原装 ESP32( 1 , 2 )、MAIX-II 、GAP8 等。
如果有人感兴趣,我提供了我的评论的链接。但这些不是我在 2024/2025 年推荐的主板。
如果我们接触原始的 ESP32,我们就可以接触微控制器。在我的频道上,我基本上避免使用此类论坛。 MAX7800、ESP32 除外。但你必须明白,现在有很多这样的人:
- 间隙9
- Syntiant(NDP101、NDP120(Arduino)等)
- 模拟器件公司
- 突触公司
- 硅实验室
- 因纳特拉
- 北欧半导体
它们都有以下不同之处:
- 很少有典型的操作系统。它是 C/C++ 或 MicroPython 开发。或者通过 Edge Impuls(如果它支持此板)。
- 通常,每个平台的工作网络数量很少。一个或两个网络
- 通常,速度非常低。你必须使用超级优化的模型。
- 主板几乎总是需要 int8 量化。
- 制造商几乎总是有非常普通的文档。
- 许多板需要大量 C++ 代码。
边缘脉冲通常可以解决问题。但你需要明白,它可能并不完全支持董事会。它提供的便捷接口可能会部分限制人工智能设备可实现的功能以及电路板可能的功能。
还有很多其他的板子。很难测试所有这些。有些很难获得,有些非常昂贵,有些在我的计划中,有些测试没有完全执行,等等。
让我们简单回顾一下它们:
- MAIX-III — 我测试了这个板,但我认为它现在不是一个好板
- 德州仪器(Beagle 板和许多其他板)。它是最受欢迎的板之一,但我没有测试它。
- Kneron——我在这个板上看到了很多营销材料,但没有测试它。
- MAIX-IV(AX650N,axera-tech)——我不认为这款主板有什么有趣的地方,但它比 MAIX-III 更强大
- AMD Kria — 我想测试一下,但很多朋友告诉我,目前这是一块非常乏味的主板
- Arm Ethos(U55、U65)——速度不是很快,而且没有很多板子配备它。也许我将来会测试。
- 瑞萨——有很多板子都有,但我没有测试过
- 合成天特
- 脑芯片
- 内存X
- deepx.ai — 我询问了价格,目前最简单的主板售价几千美元。所以,现在不是要测试的主板:)
- 地平线X3M
- Kendryte k510/k230 — 我认为他们转而挖矿:) 但有些主板仍然存在。
- 索尼IMX500——超级奇怪的板子。它是矩阵+npu在一个单板上。在我写这篇文章的时候,Raspberry Pi 官方推出了一款基于它的 Ai 相机。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除