查看原文
其他

英伟达离市值泡沫还有三道防线

未尽研究 未尽研究
2024-08-23

英伟达再次带来超出预期的财报,2024财年营收609亿美元,相较上一财年的270亿美元倍增还多,尤其是第四季财报,所有的指标都超预期。接下去的一年,它还能不能再次兑现营收翻番的预期?这得看它能不能进一步降低推理成本,不仅自己大口吃肉,开发者也要能够喝上汤。生成式人工智能正处于一个“临界点”,全球各大公司、行业及国家的需求,均呈现爆炸式增长。数据中心是英伟达的核心业务,占营收80%以上,人工智能又贡献了数据中心的40%。在财报电话会上,黄仁勋豪言,生成式人工智能开启了一个全新的投资周期,下一个万亿美元的人工智能生成工厂基础设施,预示着一个全新应用领域的开端。但生成式人工智能的应用仍处于“原始汤”的状态。美国红杉资本今年开春的调门小了不少,认为人工智能驱动的应用,将与SaaS等传统应用很不同。那些利用AI快速推出简单产品的团队,将在2024年遭遇重置。Transformers八子之一的Jakub Uszkoreit,现在的AI生物技术公司Inceptive的创始人,就表示大家过早地从探索阶段跳到了开发阶段。除了大模型性能,以及深度结合应用场景,提供真实的附加值,大模型及其应用的开发,如今还有几个探索方向。一个正在探索的方向,是提升推理实时性。最近的一个例子就是Groq,被视为世界上最快的大模型,比GPT-4快18倍,测试中曾破纪录达到每秒吞吐500 tokens。这得益于它自研的LPU(语言处理单元),能利用 SRAM(静态随机存储芯片) 进行数据处理,不用像传统的HBM(高带宽内存)那样,频繁的加载传输大量数据。慢悠悠地吐出答案,影响用户体验;用Sora预制一部影片,卖给所有人,与将Sora嵌入游戏,让它实时生成不同玩家不同选择导致的不同剧情走向,是不一样的用户体验与商业模式。另一个探索的方向,是降低推理的成本。越来越多初创企业开始接入大模型的API,售卖AI赋能的服务,但很多处于亏本赚吆喝的阶段,先把活跃用户圈起来,向投资人证明自己将是下一个杀手级应用,然后用融到的钱买更多的算力。这又回到了传统互联网企业买流量的商业模式,而且问题更严重。传统互联网企业买流量,花掉了40%-50%的钱,新兴的AI初创企业正在花掉60%-75%的钱买算力。如果只考虑推理速度,Groq正在挑战英伟达的地位。要让英伟达的H100,勉强跟上Groq的吞吐速度,就要付出比Groq高40%的单位成本。但问题在于,Groq本身提供的延迟优化的服务价格太贵,相比付出近10倍的成本,市场更愿意再等等。等大模型吐出更准确的答案,等推理成本继续下降。对降低成本的探索,目前主要有三条路线。一是依靠推理效率的提升,从大模型利用算力入手、从芯片提升算力入手、从算力的集成方式入手。二是往边缘与端侧走,那是互联网与现实世界相遇的地方,也是将来最有可能降低推理延迟和算力负载的地方。三是走定制化的道路,专门的问题,依靠专门的芯片去解决。最近一段时间,英伟达一直在告诉我们,这三条路线,已经都在做了。按照英伟达公布的路线图,今年该公司将发售H200与B100。在3月17日至21日举行的GTC大会上,预计将会推出新的产品。H200将在今年二季度发货,推理性能几乎是H100的两倍,大幅提升吞吐速度,能让谷歌最新发布的Gemma 2B模型,每秒钟处理79,000个token。B100将于下个月公布,下半年开始发货,在同样的性能条件下,它的总拥有成本将是H100的一半。两个季度后,B200将紧随而至;再两个季度后,就是X100。这也是短期内英伟达最有力的一道防线。英伟达开放Chat with RTX下载,是它面向终端布局的尝试。它可以运行Llama2,以及Mistral小模型,很快就会提供Gemma 2B或7B版本。Gemma天生就是为端侧打造的,开源且允许商用,还专门面向英伟达的GPU做了优化,将推进RTX系列的AI PC生态的繁荣。在GTC上,英伟达还邀请了微软来讲一讲,关于小模型的未来,也许phi系列模型也能充分榨干英伟达消费级GPU的性能。别忘了,英伟达在端侧的另一大布局,还有智能驾驶汽车,这是高速增长的巨大市场。它的Orin是当前车载芯片的主流选择,下一代的Thor将在明年上市。定制芯片是新业务,为此,今年,英伟达还专门成立了新的业务部门。不是为中国市场定制,是为全球科技巨头与模型巨头定制。定制芯片能更好的适应专门的算力需求,作为固定资产投入,它的前期采购成本更低;作为运营资本投入,它的生命周期内能耗成本更低。即使是那些大笔砸钱研发模型的巨头,也需要不断摊薄整体成本,让利润表更好看一点。各大云厂商正在加速设计芯片;自研能力弱一点的,或者不那么核心的,就可以找英伟达;随着算力需求往边缘与端侧迁徙,越来越多的定制化AI芯片需求将大量出现。英伟达的三条路线,每一条都面临竞争。AMD希望打破英伟达的垄断;三星电子宣布入局,不再满足只是HBM的供应商,要从大模型的边缘角色向中心跻身,全面投入非内存类别的通用人工智能芯片的开发竞赛,挖来了曾参与谷歌TPU与Gemini项目的Dong Hyuk Woo;Groq也将继续迭代,规模化供应能提升它们在供应链上的话语权,如果在新的服务器架构上有所突破,也能降低非LPU部分的成本(CPU与DRAM等)。边缘与端侧的竞争同样激烈,除了老对手AMD,还有高通与英特尔,逼得英伟达也打算在明年推出自己的ARM架构的处理器。英特尔还转变思路,接受为微软等企业,提供人工智能芯片的系统级代工服务。竞争是件好事,即使有点泡沫。在缺少竞争与泡沫的消费级 GPU 市场,英伟达长期处于性能挤牙膏的状态。2024年,无论是大模型研发团队,还是AI服务提供商,都需要足够便宜的算力,去支撑自己对AI的持续探索。大模型将继续为资本市场加点泡沫,活跃气氛,英伟达仍是当下确定性最高的那个,最快下个月就能见分晓。





继续滑动看下一个
未尽研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存