查看原文
其他

支持200万字长上下文,Kimi的背后都藏着哪些硬科技?

火山引擎 2024-04-22



月之暗面与火山引擎展开深度合作,进行联合技术创新,共同推进大型语言模型在垂直领域和通用场景的应用落地。


2024年3月,月之暗面(Moonshot AI)宣布了一项重大技术突破:Kimi 在长上下文窗口技术上实现了质的飞跃,无损上下文长度提升至惊人的200万字。月之暗面深信,这一数量级的提升将极大地拓展 AI 应用场景的想象力,包括深度解析庞大的代码库、实现多步骤复杂任务的智能自主处理、构建记忆持久的终身助理,乃至开发真正统一架构的多模态模型等。


以往需耗费1万小时才能成为专家的领域,Kimi 仅需10分钟便可以帮助用户达到该领域初级专家的水平。Kimi 的200万字无损处理能力,使用户能够轻松快速地学习新领域知识。例如:用户只需上传一份近百万字的中医诊疗手册,Kimi 便能根据用户问题迅速给出专业的诊疗建议。


200万字超长无损处理


快速整理大量资料常常是用户在工作中的一大难题。以简历筛选为例,公司HR可以根据具体需求,利用 Kimi 阅读500份简历,迅速筛选出具备某行业经验和计算机类专业背景的求职者,从而更高效地识别和选择合适的候选人。


自动筛选简历


从20万字到200万字,由于没有采用常规的渐进式提升路线,月之暗面团队遇到的技术难度也呈指数级增加。为了达到更好的长窗口无损压缩性能,研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,不走“滑动窗口”、“降采样”等技术捷径,攻克了很多底层技术难点。


01

超大规模多模态大模型预训练快、稳、省


在大规模训练过程中,GPU 资源损耗、千卡任务故障概率增长、模型梯度爆炸和训练反馈缺乏及时性等难题常常影响模型的训练效率,导致数据和算力的价值难以充分发挥。


火山引擎机器学习平台沉淀形成全栈AI开发工程优化、任务故障自愈、实验可观测性等解决方案和最佳实践,为月之暗面提供了高效、稳定且可观测的一站式 AI 算法开发和迭代服务。在 Kimi 的打造和发布过程中,月之暗面借助火山引擎的超大规模 AI 训练和推理加速方案,成功实现了数千卡单一大集群规模的常态化训练,从而加速了大型语言模型的持续训练迭代、精调和推理过程。


大模型训练涉及众多自定义任务与开发机,由于任务启停时间的不一致,GPU 碎片问题难以避免,进而影响任务调度。火山引擎机器学习平台运用 Binpack 背包算法减少碎片,并借助调度器定期处理,显著提升了 GPU 资源利用率,确保了任务的快速执行。此外,GPU 弹性计算实例的灵活调度功能,使得资源能够按需分配,最高可为月之暗面节省70%的算力成本


大模型训练是一个持续迭代的过程,涉及大量实验。火山引擎机器学习平台支持交互式调试,整合了 JupyterLab、TensorBoard、VSCode、实验管理工具,便于观测实验各项指标。同时,针对大规模分布式训练中可能出现的软硬件、网络等问题,火山引擎提供了一系列自动化故障自愈流程机制,如慢节点自动巡检、故障自动检测与演练等,有效减少了故障对任务的影响。


02

数据飞轮加持模型训练,实现全面降本增效


在与火山引擎的合作中,月之暗面团队应用了火山引擎数智平台 VeDI 旗下云原生大数据平台 E-MapReduce 和增长分析 DataFinder 两大产品,并结合数据飞轮方法论,在数据资产层面大大降低了模型预处理的成本,在业务应用层面则为 Kimi 的精准投放、高效拉新保驾护航。


火山引擎所倡导的数据飞轮理念,作为企业数智化升级的新引擎,以数据消费为核心动力,实现了企业数据流与业务流的深度融合,进而催生出数据资产与业务应用之间的良性互动与循环。


大模型的训练离不开海量数据的滋养,其训练过程本身即是对数据的大规模消费。特别是在多模态模型的数据预处理环节,面对非结构化数据的庞大体量、多样的数据种类与格式,以及复杂的数据处理流程,对集群的计算调度与存储能力构成了极大的挑战。


然而,火山引擎的 E-MapReduce 产品及相关解决方案,通过统一调度 Spark 与 Ray 计算框架,实现了集群资源的共享,极大地简化了数据清洗的复杂性并提高了效率。这不仅使得海量数据的处理变得迅速且规模化,还使得集群成本降低了30%,更能灵活应对突发任务需求,从而加速了 Kimi 的上线进程。


在业务层面,为了迅速推广 Kimi 应用,月之暗面在保持广告 ROI 健康水平的同时,致力于快速拓展新客户。这既需要提升 Kimi 的DAU 数量,又要注重新用户的留存率,以保障业务的稳健发展。在这一过程中,数据的支撑与高效的数据工具成为业务决策的关键。


借助火山引擎增长分析 DataFinder 的强大功能,月之暗面对产品用户路径进行了全面优化,深入剖析转化卡点与流失点,通过实时数据反馈迅速定位问题并予以解决,从而提升了用户体验与整体留存率。同时,利用 DataFinder 的广告投放渠道监测功能,月之暗面团队精准分析了广告投放效果,进一步优化了推广素材与活动策略,确保了高效的拉新效果。


月之暗面应用 DataFinder方案框架






继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存