营商春风暖徐汇｜大模型计算优化＋推理加速技术，看这家企业如何做→

上海徐汇 2024-04-16

编者按：

在2月27日举行的2024年度徐汇区招商引资表彰大会上，一批扎根于徐汇的优秀科创企业脱颖而出。它们凭借卓越的研发能力、显著的社会经济效益和对区域创新生态建设的重要贡献，被授予“优秀科创企业”奖项。记者走进部分获得殊荣的企业，深入剖析它们的“成功秘诀”，揭示徐汇区如何通过服务赋能，打造出一批批具有核心竞争力的科技领军力量。

在徐汇区这片科技创新热土上，无问芯穹正以前沿的大模型计算优化和推理加速技术，向行业提供性价比更高的算力解决方案。该公司通过软硬件一体的全链路优化模式，在“M种模型”与“N种芯片”间构建强大的“M×N”中间层产品矩阵，致力于实现多种大模型算法在不同芯片平台上的高效、统一部署，为企业提供包括但不限于大模型计算优化引擎、智算云服务、智算一体机、基座大模型及大模型应用开发工具链等具体产品。

引人瞩目的是，前些时日，无问芯穹与清华大学、上海交通大学联合提出的“FlashDecoding++”大模型推理加速方法被机器学习系统领域顶会MLSys 2024接收，该方法在NVIDIA GPU上实现相对主流推理引擎平均加速37%，在AMD GPU上加速2至4倍。同时，无问芯穹与清华、上交联合提出的面向FPGA的大模型轻量化部署流程“FlightLLM”，在可重构计算领域的顶级会议FPGA2024中崭露头角，相比同工艺GPU，实现了高达6.0倍的能效比提升与1.8倍的性价比提升。

“我们核心的两个技术应用方向，一是大模型在芯片上的极致性能优化，二是把多元异构算力利用起来。我们的目标是建立一个生态系统，让不同模型可以自动部署到不同硬件上，从而使未被激活的算力得到更有效的利用。”企业相关负责人表示。在帮助企业提升经济效益方面，无问芯穹已经取得了显著突破。相比于OpenAI，大模型调用算力成本已压缩了2至3个数量级，未来则将实现四个数量级的压缩。凭借先进的技术和极具竞争力的产品方案，公司已与全国多地智算中心建立算力运营合作关系，并且正与10家左右的硬件厂商携手进行深度适配。

据了解，无问芯穹注册于2023年5月，是上海“模速空间”创新生态社区首批入驻企业。“徐汇区坚实的产业布局和积极的政策支持，以及黄浦江畔优越的地理位置优势，吸引我们扎根于此。在这里我们可以享受到便捷高效的交流环境，与合作伙伴共享信息资源。”企业相关负责人表示。目前，无问芯穹已搭建起面向异构集群的大模型业务基础设施，借助其智算云平台，大模型公司可以不需要顾虑底层算力硬件是什么品牌，只需要像在个人电脑上使用操作系统那样简单操作，即可使用到低成本的算力资源。这种模式，无疑为想要开展大模型业务的企业提供了更便捷的算力取用服务。

猜你喜欢：