硬件驱动下的AI推理：商业化路径与市场前景

Original 常华Andy Andy730

2025-01-01

核心观点

推理市场的重要性：随着AI模型规模的扩大，推理需求激增，预计将是AI训练需求的3-10倍，成为初创企业的重要机会。
推理成本与盈利挑战：推理成本高昂是生成式AI商业化的主要障碍，企业需要大幅提升推理能力并降低成本，以满足市场需求。
云服务与硬件销售的关系：初创企业的推理云服务主要目的是推动硬件销售，帮助客户实现对数据和模型的自主掌控。
盈利模式依赖硬件规模化：推理市场的长期盈利潜力在于硬件的广泛部署，而非依赖云服务收入，大规模硬件销售将决定盈利空间。

关键对比

1. Groq

- 核心技术: 使用GroqChips（14nm，576个语言处理单元），无HBM。

- 性能: 315.06 tokens/s（Llama 2 70B）。

- 成本: 声称为竞品的1/10，推理速度为训练的10倍。

2. Cerebras

- 核心技术: CS-2晶圆级平台，大晶片架构，运行FP16精度。

- 性能: 四晶片系统在推理任务中比云端H100快5倍，与API相比快20倍。

- 成本: 未具体披露，适配多种大型语言模型，支持免费试用，API服务逐步拓展。

3. SambaNova

- 核心技术: SN40L可重构数据单元（RDU），全BF16精度。

- 性能: Llama 3.1 70B模型，峰值处理580 tokens/s；405B模型，132 tokens/s。

- 成本: 8B模型：每百万tokens $0.12；70B模型：$0.70；405B模型：$6。

-----

主要云计算企业及其超大规模合作伙伴在部署AI训练平台时已做出技术选择。这些企业往往同时扮演云计算和超大规模计算双重角色。它们普遍采用NVIDIA数据中心GPU，部分企业也会使用自研XPU加速器或AMD GPU。

AI训练的核心在于研发，无论是针对AI模型还是基于这些模型的产品。由于时效性至关重要，资金似乎不成问题，这些企业难以选择第三方方案。（这种现象在过去四十年的全球顶尖政府资助HPC中心中也普遍存在。）

云计算和超大规模计算领域的AI训练市场准入门槛高，这解释了为何众多AI芯片初创企业未能凭借其芯片和软件产品引起市场轰动，尽管NVIDIA GPU供不应求。然而，包括Cerebras Systems、SambaNova Systems和Groq在内的重要初创企业现在认为，随着行业重心转向AI推理，它们有机会建立硬件业务，无论是通过直接销售系统还是采用云交付模式进行租赁。

数据中心中AI推理的高成本实际上是企业级生成式AI（GenAI）推广的主要制约因素，不论是提升现有应用还是创造全新应用。尽管目前无法准确预测未来几年全球IT市场对推理能力的需求，但业界普遍认为，这一需求将是AI训练所需计算能力的数倍，可能是3倍、4倍，甚至10倍或更多。同时，业界普遍认为推理成本（即生成tokens的成本，而非构建能够生成tokens的模型的成本）必须大幅降低。这需要强大的硬件支持，而非可以在成熟半导体工艺下大规模生产、包装需求较低的50美元推理芯片。

在这些限制条件下，降低推理成本是一项巨大挑战。然而，这一变革对生成式AI的蓬勃发展至关重要。目前，模型训练需要8000个GPU，而实现200毫秒人眼瞬间反应速度的推理则需要8到16个GPU，这种比例是不可接受的。（早期的GPT-4变体正是如此。）现在，训练所需的GPU数量已增至24000到32000个，推理则需要16到32个GPU。业界正朝着单个系统需要50000、64000甚至100000个GPU的方向发展（有时跨越多个数据中心或地区），这意味着在200毫秒响应时间下，最大模型的推理需要32到96个GPU。

基于推理图像大小的经验证据表明，推理与训练的比例正在改善，但仍不足以显著降低AI推理成本。推理能力可能是训练能力的十倍，但要实现需求的弹性可扩展性并广泛采用，成本必须降低几个数量级。

针对一个价值接近40万美元、配备八GPU的节点，推理运算所需的资金投入将急剧攀升。若当前全球范围内已有数百万个数据中心GPU被用于生成式AI的训练，而未来需求或将飙升至数千万个，那么相应地，我们将面临数亿个GPU的推理需求缺口。值得注意的是，尽管AI推理的成本可能仅为训练成本的十分之一，但若其提供的推理能力能达到训练的十倍，从收入角度看，两者或可持平。然而，这恰恰揭示了AI推理在盈利能力上相较于训练存在显著不足，所有市场参与者均需依赖庞大的销售量来弥补这一差距。

与此同时，AI芯片初创企业正转向推理市场，希望将使用云租赁计算能力的客户转变为系统购买者。如果我们身处这些新兴公司的位置，也会采取同样的策略。

Groq

Groq, Inc. 是一家成立于2016年的创新AI公司,由谷歌前工程师Jonathan Ross及其团队创办,总部位于美国加利福尼亚州山景城。公司专注于开发语言处理单元（LPU），这是一种专门为AI推理任务设计的应用特定集成电路（ASIC），能够在处理大型语言模型（LLM）和其他AI工作负载时提供卓越性能,同时保持低能耗。Groq的独特优势在于其硬件与软件的深度集成,支持快速高效地部署AI应用,LPU在基准测试中显著超越传统GPU和CPU,达到每秒超过800个tokens的处理能力,使其在实时应用领域的AI推理市场中占据领先地位。公司已获得大量资金支持,包括2024年8月的6.4亿美元D轮融资,估值约为28亿美元,并通过收购Maxeler Technologies和Definitive Intelligence等战略举措增强服务能力。目前,Groq已部署约4500个LPU,并计划到2025年底扩展至150万个。

数据中心推理战争于去年秋季正式打响，Groq向NVIDIA的GPU发起挑战。此前，Groq联合创始人兼首席执行官Jonathan Ross解释，AI模型规模尚不足以对GPU造成负担。然而，随着GPT-3、GPT-4等大型语言模型的出现，情况发生了变化。如今，AI推理面临的问题与十年前AI训练的问题类似，经济性开始显得不再合理，而此时，15000家初创公司和超大规模计算企业正试图将其商业化。

为应对这一挑战，Groq采用了两片稍多一些的GroqChips模块，共计576个语言处理单元（LPUs，有时也如此称呼），用于Llama 2 70B的推理。这些LPU的特点是不使用高带宽内存（HBM），也不需要台积电的CoWoS封装技术。GroqChips采用成熟的14nm工艺制造，这意味着生产成本较低。

Groq声称，这个大型系统能够处理每秒315.06个tokens。Ross表示，同期一套典型的NVIDIA DGX H100系统每秒仅能推送10到30个tokens。（注意，我们不清楚Ross所提及的NVIDIA机器的量化水平和数据精度。）Groq宣称其系统在成本仅为十分之一的情况下，推理速度达到训练的十倍，性价比提高了100倍。（我们强烈怀疑这里指的是Groq及其他云服务商的推理服务API成本，而非基础系统成本。）

Cerebras Systems

Cerebras Systems是一家成立于2015年的AI公司,总部位于美国加利福尼亚州旧金山,由Andrew Feldman、Gary Lauterbach、Michael James、Sean Lee和Jean-Philippe Fricker等五位联合创始人创办,他们曾在SeaMicro工作,后决定创建一个专注于深度学习的全新计算平台;公司的核心技术是其开发的晶圆级引擎（WSE），这是全球最大的AI半导体芯片,包含超过1.2万亿个晶体管,专为深度学习计算优化,设计使其在内存带宽和处理速度上远超传统GPU,能够在单一芯片上实现集群规模的计算能力。2024年3月,Cerebras推出了WSE-3,被认为是业界最快的AI芯片;公司最近与Mayo Clinic签署了数百万美元的协议,开发医疗行业的AI模型,收入和客户承诺接近10亿美元,已累计融资7.15亿美元,客户包括制药巨头和政府研究实验室等多个行业。

两周前，Cerebras在其CS-2晶圆级平台上发布了自己的推理方案。该公司此前仅正式销售用于训练的机器，直到今年三月才与高通宣布了推理计算侧车的合作。Cerebras产品和战略高级副总裁Andy Hock介绍了推理服务的相关数据。

Cerebras以FP16精度运行其模型权重，并未降低到FP8、MX6、MX4或FP4精度，这种做法在提高吞吐量的同时会牺牲模型质量。

以下是Cerebras将一个四晶圆系统与Groq集群和多个在不同云平台上运行的单八路H100节点（使用Llama 3.1 8B模型）进行对比的结果：

LLM模型规模的扩大导致模型参数密度显著增加，从而需要处理更多的权重流动数据，进而限制了模型的吞吐量。

Cerebras的四晶片系统在大型语言模型推理任务中展现出了卓越的性能，其速度是云端大型语言模型API的20倍，相比云端最佳DGX H100配置也有约5倍的提升。然而，由于缺乏与多节点HGX或DGX系统的对比数据，这一性能比较可能存在一定偏颇。

Cerebras目前正在积极适配其推理服务，以支持Llama 3.1 405B、Mistral Large 2、OpenAI Whisper以及Cohere Command R等业界领先的大型语言模型。

以下为Cerebras推理服务的收费标准：

随着模型参数规模的扩大，对计算资源的需求呈指数级增长。模型的内存占用、计算量以及输入输出tokens的处理成本均显著增加，而单个用户请求的吞吐量却有所下降。Cerebras为这两个模型提供了免费的试用套餐，但设置了每分钟30次请求和每日100万tokens的限制。

Groq声称其大规模系统能达到每秒处理315.06个token的性能。相比之下，罗斯表示，一套典型的NVIDIA DGX H100系统每秒仅能处理10至30个token。（需注意，罗斯未明确指出所述NVIDIA设备的量化级别和数据精度。）Groq进一步宣称，其系统在成本仅为竞品十分之一的情况下，推理速度较训练阶段提升了十倍，从而实现了100倍的性价比提升。（我们有理由推测，这里所指的成本可能是Groq及其他云服务提供商的推理API定价，而非底层硬件系统的实际成本。）

SambaNova

SambaNova Systems是一家成立于2017年的AI公司,总部位于美国加利福尼亚州帕洛阿尔托,由Rodrigo Liang、Kunle Olukotun和Christopher Ré等行业领军人物创办,专注于开发企业级AI平台,提供完整的AI解决方案,包括针对生成式AI优化的硬件和软件,以支持复杂的基础模型部署;其核心产品SambaNova Suite提供预训练的基础模型,使组织能够以22倍的速度实现价值,同时推出了Dataflow-as-a-Service™,提升数据流处理能力,适用于金融、医疗、制造、能源等多个行业;SambaNova已累计融资超过11.32亿美元,客户包括理化学研究所和阿贡国家实验室等领先的研究机构和企业。

SambaNova也已入局推理市场，并发布了其在SambaNova Cloud上对Llama 3.1模型的基准测试结果。该公司提供了免费、开发者和企业级等多种服务套餐，底层硬件为其一年前推出的SN40L可重构数据单元（RDU）设备。

SambaNova产品副总裁Anton McGonnell介绍了其配置了16个RDU的系统在Llama 3.1基准测试中的表现。测试结果显示，在Llama 3.1 8B模型上，SambaNova机器能够以全BF16精度处理每秒1100个tokens。值得注意的是，这一性能是在为每个用户分配全部16个RDU的情况下测得的，旨在最大化单用户查询速度。在Llama 3.1 70B模型上，McGonnell估计峰值性能约为每秒580个tokens，而Artificial Analysis的最终结果预计接近这一峰值。

对于参数量更大的Llama 3.1 405B模型，Artificial Analysis的测量结果显示，峰值性能为每秒132个tokens。这一性能显著优于提供Llama 3.1模型API访问的云端Hopper实例。

SambaNova Cloud已推出推理服务的免费套餐和企业套餐。开发者套餐预计将以较企业套餐更为优惠的价格提供，同时在处理tokens量和支持用户数方面将超越免费套餐。（目前免费套餐的具体限制尚未公布。）

企业套餐的输入和输出tokens混合定价已经确定。以Llama 3.1系列模型为例：

8B参数模型：每百万tokens定价0.12美元。
70B参数模型：每百万tokens定价0.70美元。值得注意的是，虽然参数规模增加了8.75倍，但tokens处理成本仅上涨5.8倍。
405B参数模型：每百万tokens定价6美元。相较于70B模型，参数规模扩大了5.8倍，而tokens处理成本则增加了8.6倍。

这种定价策略反映了模型规模与计算成本之间的非线性关系，也体现了SambaNova在大规模语言模型商业化方面的定价策略。

AI推理的未来

云端大型语言模型API的确存在。如果Groq、Cerebras和SambaNova仅能通过这种方式从寻求更低成本（但不一定是更少硬件）进行AI推理的初创企业和成熟企业中获利，它们无疑会欣然接受这些收入。然而，我们认为这些服务更多是为了促进硬件销售。数据和模型主权不仅关乎国家政府，更涉及每一个组织。我们认为，那些将生成式AI投入生产的机构并不愿意将其数据和模型托管在超大规模计算或云计算公司那里。

这对所有销售AI计算引擎的公司来说是利好消息，包括NVIDIA、AMD，从长远来看，可能还有Intel。超大规模计算和云计算公司正在自主开发AI加速器，并且从GPU中获得了丰厚利润，预计也会在其AI加速器上采取类似策略。

用户建议：进行自主基准测试，无论是针对单用户还是批量用户，都要测试所有这些性能指标。然后从供应商处获取实际系统硬件定价，评估自行部署硬件是否能节省成本，以及节省幅度。即使前期可能更具挑战性，也要掌控自身命运。

----------

参考资料：Prickett, Timothy. "The Battle Begins For AI Inference Compute In The Datacenter." The Next Platform, September 10, 2024. https://www.nextplatform.com/2024/09/10/the-battle-begins-for-ai-inference-compute-in-the-datacenter/.

---【本文完】---

近期受欢迎的文章：

更多交流，可加本人微信

（请附中文姓名/公司/关注领域）

继续滑动看下一个

Andy730

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

硬件驱动下的AI推理：商业化路径与市场前景

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

硬件驱动下的AI推理：商业化路径与市场前景

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡