对话潞晨科技尤洋:如何把大模型价格“打”下来?
邮箱|yokyliu@pingwest.com
突然间,大模型迈进了“免费”时代。
大模型降价,几乎是一种必然趋势。从ChatGPT问世以来,GPT 家族 API 价格已经降 90 %。不同的是 OpenAI 一年半降价90%,Anthropic 一年降价60%,而国内的大模型,连降价也不“渐进式”,而是一夜之间降价95%以上。
那么问题来了,大模型的价格是如何突然被“打下来”的?
事实上,无论是DeepSeek还是火山引擎都提到,降价趋势的背后,技术进步和算法优化扮演了重要角色。通过提升算力的使用效率和优化模型训练过程,成本得到了有效控制。
为了深入了解大模型价格下降的现象,我们特别对话了潞晨科技的创始人尤洋,以探索其背后的技术逻辑和行业趋势。潞晨通过其Colossal-AI技术,为AI模型训练提供了高效的解决方案,显著降低了训练成本,加速了模型的推理过程。
在本次对话中,我们得以一窥大模型价格下降背后的技术革新和行业发展趋势,以及潞晨科技在其中所扮演的关键角色。随着技术的不断进步和成本的进一步降低,推动着AI技术的发展将迈入一个全新的时代。
1、国内和国外在算力卡的情况上是否面临不同的挑战,是否在走两条不同的道路?
尤洋:确实,国内外在算力卡在走两条不同的发展道路。国外市场,尤其美国,对高端GPU的获取相对更为便利,这使得国外的AI研究和应用可以直接依托于这些高性能的硬件来推进。
相较之下,国内市场的情况就复杂一些。国内的企业和研究机构更多需要考虑如何通过软件优化来提升现有硬件的性能,以弥补硬件算力的不足。
因此,国内对算力的渴求和对软件优化的要求非常高,很多企业在寻求通过算法创新和系统优化来最大化利用现有的硬件资源。此外,国内的算力市场还相对分散,不同地方政府和企业都在投资建设自己的算力中心,这既带来了资源分散的问题,也提供了通过专业优化管理提升效率的机会。潞晨通过Colossal-AI等技术来提供高效的算力优化解决方案,帮助客户提升AI模型训练的效率和性能。不过,大家最终的目标是一致的——即通过不断的技术创新,提升AI算力的使用效率,推动AI技术的发展和应用。
2、基于国内算力层的挑战,对高性能计算提出了哪些要求,有哪些难点?
尤洋:这要求我们不仅要在软件层面上进行深度优化,以实现算力的最大化利用,还要在算法上不断创新,以适应不同的硬件环境。随着模型规模的增长,硬件算力的增长速度远远落后于模型的发展速度。因此,软件优化变得非常重要,以确保可以充分利用现有硬件资源来训练更大更好的模型。
我们会发现目前神经网络的层数并没有显著增加,比如之前常见的是50层的网络,现在可能发展到100层,但并没有达到5000层。我们面临的挑战在于模型的规模扩大了数万倍。这意味着,尽管层数没有大幅增加,但每一层需要处理的数据量和计算量都大大增加了。
这种宽度学习对计算资源提出了更高的要求。每一层都需要更大的并行计算能力来处理更多的数据。这也是我们持续投入研发,优化我们的Colossal-AI系统,以提高计算效率和降低训练成本的原因。比如利用无损并行化、异构内存管理、通信优化、软硬件协同设计、算力资源管理等等的软件设计,来保证模型获得更好的效果。
3、什么是无损并行化?您能解释一下他的原理么?
尤洋:无损并行化的核心目标是在扩大计算规模的同时,确保每个计算单元都能高效协同工作,同时保证最终结果的准确性。这在大规模AI模型训练中尤为重要,因为模型的精度直接关系到应用的效果。
先不考虑我们芯片性能的差距,以英伟达的芯片举例,客观上要把单芯片的性能拉满,扩展到1000卡、10000张卡的时候,理论上是指数级增长的,但是我们常常发现千卡以上效率只有10%,这说明GPU和CPU之间、GPU和GPU之间、服务器和服务器之间都有损耗,我能不能通过优化技术,将20%的效率扩展到70%甚至80%。
在潞晨科技我们采用了多种并行计算技术,如数据并行、模型并行、流水线并行等,来最小化数据传输带来的损耗,最大化每一块GPU的性能。这样,无论是在单个GPU上,还是在由成千上万块GPU组成的大型集群上,我们都能够实现高效的计算。
4、能否用一个比喻来解释一下数据并行、模型并行和流水线并行三者的区别?
尤洋:想象一下,我们有一个小孩要学习大量的书籍。每本书有100页,我们可以看作是100个数据点。
如果小孩每天只能学习3本书,那么学习完300本书需要很长时间。数据并行就像是让小孩突然能够同时学习30本书,极大地提高了学习的吞吐量和速度。在AI中,这意味着用多个计算单元同时处理不同的数据集,每个单元处理模型的一个副本。这就是数据并行。
那如果我让小孩拥有分身术,每个分身都有小孩大脑的副本,即模型的参数。这样,每个分身可以独立学习不同的内容,最后将所有分身学到的知识汇总起来,更新小孩的大脑。在AI中,模型并行是指将一个模型的不同部分分布到不同的计算单元上,每个单元负责模型的一部分,然后协同更新整个模型。这就是模型并行。
流水线并行是将一本书切成很多份,每份由一个分身学习。每个分身学习完自己的部分后,将知识传递给下一个分身,依此类推,直到整本书被完全学习。这就像是一个流水线,每个环节完成特定的任务,然后将结果传递给下一个环节。在AI中,流水线并行是指数据在一系列计算单元之间流动,每个单元完成特定的计算任务,然后将结果传递给下一个单元,直至整个模型训练或推理过程完成。
数据并行关注于同时处理大量数据,模型并行关注于将大型模型分散到多个计算单元,而流水线并行关注于按顺序在多个单元间传递和处理数据。
5、您当时为什么选择做这一块技术,是因为看到了机会,还是在技术或应用需求上认为这非常重要?
尤洋:我的决策部分是基于个人的技术背景和经历,尤其是在谷歌的一段经历,让我对这一领域的重要性有了更深刻的认识。
当我还在美国的时候,有幸与谷歌的TPU团队合作,优化了他们的AI集群。当时的项目目标是提高训练效率,我们成功地将一个大型模型的训练时间从三天缩短到了76分钟。这一成就不仅展示了高性能计算的力量,也让我意识到,随着模型规模的不断扩大,对高效算力的需求将日益增长。
在潞晨科技,我们希望将这种技术优势转化为实际的解决方案,帮助解决企业面临的实际问题。我们看到了AI技术在各行各业的应用潜力,以及随着数据量的爆炸性增长,对高效算力的迫切需求。我们的使命是通过技术创新,解放AI的生产力,帮助企业更快速、更高效地实现AI应用的落地。
6、和国内其他算力优化公司相比,潞晨科技的差异性体现在哪?
尤洋:首先我们始终坚持开源的方向,这不仅是一种技术分享,更是一种文化的传播。我们的开源项目Colossal-AI面向全球开发者,不分国内外,这让我们能够吸收国际上的先进技术和理念,同时也让我们的技术得到更广泛的认可和应用。
其次在国内,很多大厂可能更多地关注于应用层面的开发,而在高性能计算领域,尤其是针对AI大模型训练的优化方面,潞晨科技有着更为专注和深入的研究。我们看到了国内外在算力优化需求上的差异,国内对这方面的渴求度更高,这也是我们重点发力的领域。
相比于阿里云这样的巨头公司,他们的技术和能力做的更全,而我们专攻高性能计算这个部分,同时我们提供的不仅是软件优化,还包括与硬件紧密结合的综合解决方案。我们认为,软硬件的协同设计是实现最佳性能的关键。通过优化软件来提升硬件的算力价值,这是我们区别于其他公司的核心竞争力。
7、目前潞晨在开源社区服务多少开发者?您认为开源生态对大模型的发展起到了哪些作用?
尤洋:Colossal-AI系统在GitHub上开源,并获得了3.8万多颗星,得到了包括谷歌、微软在内的多家头部互联网公司的使用和社区的积极反馈。开源生态促进了技术的快速迭代和创新。通过开源,我们能够与全球的开发者和研究者共享最新的研究成果,同时也能迅速获得社区的反馈和贡献,这对于推动技术进步是非常宝贵的。
其次,开源生态降低了进入门槛,使得更多的企业和研究机构能够参与到大模型的研究和开发中来。这一点对于促进整个行业的发展和创新至关重要,因为它集合了更广泛的智慧和资源。同时,通过开源,不同的组织和个人可以在此基础上进行合作,共同解决复杂的技术问题,推动大模型技术在各个领域的应用。
8、在商业化的过程中,中国客户的购买意愿和在算力优化上的投入程度如何?
尤洋:中国客户对先进技术的购买意愿是非常强烈的,尤其在算力优化这一领域。我们观察到,随着AI技术的快速发展和应用的不断深入,中国客户对于通过软件优化来提升硬件性能的巨大需求。他们不仅愿意投资于先进的硬件设施,更注重通过技术创新来最大化现有资源的使用效率。这种对算力优化的投入,体现了中国客户对于长期价值和可持续发展的重视。
此外,中国客户在算力优化上的投入也反映了他们对于开源技术的高度认可。我们的Colossal-AI项目在GitHub上的成功,部分归功于中国开发者社区的积极参与和贡献。这种开放的合作精神,不仅推动了技术的快速迭代,也为商业化提供了坚实的基础。
9、潞晨在商业化的过程中,客户最大痛点是什么?
尤洋:我们发现客户最大的痛点往往不是算力的获取,更在于如何高效地利用他们的算力资源。随着AI技术的发展,特别是在大模型训练方面,更重要的是如何通过软件优化来提升现有硬件的性能和利用率。
我们的客户,包括中小型企业和传统行业,都在寻求能够最大化他们算力价值的解决方案。他们需要的不仅仅是硬件,而是包括软件、服务和支持在内的全面解决方案,以确保他们的AI项目能够顺利进行,并且能够快速地从原型阶段过渡到实际应用中。
所以我们才会做“一体机”系列产品,来解决客户的这些痛点。我们的目标是帮助客户降低成本、提高效率,并通过我们的技术让他们的算力资源发挥最大的价值。通过这样的服务,我们希望能够成为客户在AI算力优化方面的最佳伙伴。
此外,客户也面临着如何管理和维护日益增长的算力资源的问题。他们需要的是一种能够简化操作、提高效率的服务,这样他们就可以专注于自己的业务和技术创新,而不是被复杂的技术细节所困扰。
10、在这个大模型带来的生成式AI的时代浪潮中,潞晨给自己的定位是什么?
尤洋:在这个时代浪潮中,潞晨科技的定位是成为连接分散的计算资源与用户需求的桥梁,并且通过软件优化来提升算力的质量和价值。正如上面提到的中国建立了许多计算中心,这些资源和用户都非常分散。潞晨科技的目标就是整合这些分散的资源,通过技术创新和软件优化,提供更加专业化和优质的算力服务。
如果说要做一个比喻的话,我们更想做“算力层的滴滴”。我们认为,尽管提供更高端的服务可能会增加成本,但这也有助于提升我们的服务质量和市场竞争力。就像Uber或滴滴打车提供的豪华车服务一样,通过提供更好的车辆和服务,我们可以吸引更多对高质量算力有需求的用户,即使这可能意味着毛利率的降低。
潞晨科技致力于通过软件优化,将普通的算力转变为专业的、优质的算力服务。我们相信,通过这种方式,我们不仅能够为用户提供更加强大的AI算力,而且还能够推动整个产业链的发展,帮助提升中国在全球AI领域中的竞争力。
在这个过程中,我们将继续深化与全国各地的计算中心和重要企业的合作,通过技术创新和产业链协同,共同推动AI技术的发展和应用。我们希望通过我们的努力,让潞晨科技成为AI算力服务领域的领导者,为用户和合作伙伴创造更大的价值。