Deepseek V3模型解读:算力不再关键了吗?
12.26日晚,全新大模型Deepseek V3上线,拥有671B参数,训练数据14.8T 高质量token,训练成本极低,仅为557.6万美金,整个训练只需要280万个GPU小时,而LLama 3(405B)使用了3080万GPU小时,几乎是Deepseek V3的11倍,相比较来说Deepseek V3的参数量/训练成本的能效极高,训练超大模型的成本极低;
#DeepseekV3如何用极低的成本实现超大规模的模型训练?
1)模型架构的差异:
-- OpenAI和Claude普遍采用稠密的Transformer架构,需要在每个前向&后向过程中激活并更新全部参数,因而在大规模预训练时对算力与显存的需求非常高;
-- Deepseek V3采用的是稀疏的MoE(Mixture of Expert)架构,在推理或训练时只会激活少量参数(5%~10% 参数量),有效减少每次前向&后向的计算量,显著降低整体训练开支;
2)精度差异:
-- OpenAI和Claude等模型在训练过程中多采用FP16精度,兼顾数值稳定和计算效率;
-- Deepseek V3 采用了FP8 混合精度训练,从而将单位 GPU 小时的计算利用率推到更高水平,这也是其大幅缩减成本的重要原因之一,但工程复杂度与数值稳定风险也更高;
3)数据质量差异
-- OpenAI和Claude等模型采用的训练数据规模和质量更庞大、更多元化,且在RLHF(人类反馈强化学习)环节上投入很大,这部分也会增加不少成本;
-- DeepSeek V3 数据规模也很大(14.8T tokens),但对质量与重复度进行严格筛选,加之后训练与蒸馏策略做了优化,减少了对额外 RLHF 资源的依赖;
4)算法优化
-- OpenAI和Claude等模型通常拥有定制化的大规模 GPU/TPU 集群(甚至专用硬件),在软件栈、集群管理、数据管线方面投入巨大,但也会带来较高的运营成本;
-- DeepSeek V3 则通过在算法与工程侧的深度耦合,把相同的算力资源利用率最大化;
#算力不再关键了吗?
1)我们认为Deepseek V3通过稀疏的MoE的架构结合FP8的精度来极大的降低训练成本,但在通用性、稳定可靠性上还没有充分得到证明;
2)算力依然关键,同时架构和数据的重要性凸显,大模型厂商通过优化架构算法和提升数据质量,可以将同样算力发挥更高效的作用;
3)大模型训练及推理测需求在持续提升,需要大量的算力资源,Deepseek V3的出现将推进算力高效利用的趋势,算力、架构及数据的重要性同样重要;
4)全球及国内云厂商仍将加大投入推进大模型的训练及推理,高性价比的模型将成为产业链的长期趋势。
#和国内外产业讨论了下,仅参考:
1、DEEPSEEK V3 编码和数学效果很好,超过O1之前的标杆sonnet3.5(CLAUDE)其他也还可以,但不一定超过sonnet 3.5。离O1、O3纸面上看差距还是不小。
2、特定领域实现了很好的数据优化,实现了细分应用比较好的效果和训练性价比。目前看如果相对明确的技术路线参考,不做特别多探索性工作的话能用有性价比的方式达到很好的效果。
3、国内基础模型剩下的几大核心厂商对海外市面上发布的模型都有一定的跟随能力,可能无法预计的是尚未发布的模型。
4、从O3体现的超强能力(纸面仍然领先幅度较大)和训练(预训练、后训练规划10万卡集群)、推理(高阶一个复杂点任务几千美金);另外目前模型离高准确度通用应用还有较大距离,算力爆发逻辑没有影响。
#其他观点汇总:
A:
幻方这消息纯粹就是断章取义。训练一个671B的moe模型,而且用了fp8的架构,来达到gpu耗时数的下降,幻方在技术上确实牛。但幻方在训这个模型之前,是用了他们自己的r1模型(对标openai o1模型)来生成数据的,这个部分的反复尝试要不要算在成本里呢。
且不算前面那笔糊涂账,单就在训练上做降本增效这件事,这不代表推理需求会下降,只代表大厂可以用性价比更高的方式去做模型极限能力的探索。应用端只要有增长的逻辑,推理的需求依然是值得期待的。
B:
-训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。
- Deepseek是站在巨人的肩膀上,使用大量高质量合成数据。
- Deepseek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。
- Deepseek的模型的MoE每个专家都可以单独拿出来训练,本身相比于dense架构就是省力一些的方案。
-人人都超越了GPT 4o,llama 3天天被踩在脚底下,消费者和企业界实际使用用的最多的还是这两个模型。这些宣传的成绩未必可靠。
C:
1,FP8的训练本身就不怎么耗资源,而且DS这个是“设定”好的大模型训练,就是已经限定了大模型的能力,这样减小了很多不必要的消耗。
2,OpenAI和Antropic这样的在训练新东西、新能力,走弯路的消耗量可能百倍千倍于最后那个正确路径。就好像看过几遍答案,水平很一般的学生也能在1小时内把高考数学卷整出满分,或者接近满分。一份试卷做过越多次,速度越快,搞不好30分钟就能满分…DS这个模型加入了很多“设定”因素,就是知道这样有效,有利于提高推理能力。
3,模型能力追求的是“通识能力”,为了能考个好成绩,该读的3年书谁也躲不过,现在算力和数据无非就是想卷这个时间缩短。大模型通识能力上限太高了,卷算力才刚开始,谁犹豫,谁质疑,谁掉队。
4,另外就是多模态和具身智能的接口。GPT-5难产有个很重要原因就是GPT-5要有开放机器人模态的潜在能力,就是能处理物理世界数据。这玩意儿也是全新的,超越了现在大模型的能力。