作者丨孙媛
从交换机到高端AI服务器,再到云计算和数据中心都进入新增长周期。从1到10掀起“千模大战”的AI革命,将首先在软件和应用领域展开。其中,算法作为实现AI功能的关键,基础软件为其提供运行的平台和工具。随着算力性能逐渐同质化和标准化,数据的差异性和企业需求的个性化逐渐加大,“AI基础软件”作为模型训练效率和算力使用效率的决定性因素,地位更加凸显。在企业迫切寻求生成式AI应用的加速工具和服务的需求下,一边NVIDIA AI Enterprise软件套件和Azure机器学习相结合,供开发者构建、部署和管理大型语言模型的AI应用;另一边在产业起跑发令枪尚未响起之时,有前瞻性的国内AI基础软件玩家也开始蠢蠢欲动。沿着“把数据变成模型,让模型变简单,让模型真正用起来”的轴线发展,萌芽于硅谷车库,由两位前微软工程师创办于2013年的九章云极DataCanvas,经历过去十年随着AI技术的不断普及和深入应用后,在这次大模型moment的爆燃之下,也欲发起新动作。
微软工程师回国创业,入局数据科学平台
作为AI赛道的早期入局者,九章云极DataCanvas背后站着两个男人:方磊和尚明栋。两人在美国待了10年,不仅是美国雪城大学攻读计算机工程硕士时的同窗好友,后又都加入微软工作。2008年,微软从各个团队中,抽取精明强将,组成了类startup的团队,晚亚马逊2年冲入云计算,方磊跟尚明栋便是其中之二。彼时,身处内部,两人从工程师角度看到了很多趋势,比如早期微软只提供PaaS服务,后被市场教育,又变成了提供SaaS和PaaS服务。在大厂率先试错的过程中,2011年,云上收入增长迅速,多家企业规模量级发生变化。尚明栋观察到,一些传统的大公司,开始成批量把算力往云上去迁移,验证了当初杰夫贝索斯对云建设的初衷。“一开始有人嘲笑说云建设就是弄一堆RDC的机房,但贝索斯的愿景是以后接管所有企业的IT,从底层计算存储一直到上层数据能力建设等各种基础能力的建设。企业不需要再有一个IT团队去维护,以非常低的成本就形成一套很复杂、高可用、高并发的架构。”2013 年前后,美国的数据科学平台创业迎来爆发期,加之,公有云的技术环境形成,促使新一代数据和人工智能(Data AI)的公司不断孵化出来....Databricks、Snowflake 等一批后来崛起为头部的公司大都是从这个时候起步。方磊和尚明栋顺势而为,决定回国在数据科学平台领域创业,九章云极DataCanvas由此成为国内最早入局自动化数据科学平台的供应商。2014 年,方磊给投资人的邮件中表示:容器技术自 2012 年出现后,给分析行业带来了很大的改变,容器化的方式统一了分析流程的运行基础。而且,与容器结合后,机器学习、深度学习等不再只是在上层增光添彩的小工具,而成为了标准化的基础设施。同年,这一创业设想便拿到了亚杰天使基金的天使轮投资。
聚焦“AI基础软件”扩大版图,超20家资本竞相押注
尚明栋也深知AI基础软件更清晰的定位以及上下游的合作,往往更适用于一个相对来说比较成熟的生态分工,绝非一蹴而就。在花了两年时间打磨DataCanvas 数据科学平台后,尚明栋意识到要把产品变成商品,需要对市场需求精准洞察,而技术创业的背景早期让其在市场化上也走过一些弯路。想要在国内把数据和算法变成生意,从有数据处理需求的大型企业入手成为了解法。尚明栋坦言,模型作为数据资产的一部分,从大趋势上看,数据产生、能力构建是一个持续建设的过程,信息化能力建设最早的行业一定相对来说数据更刚需和密集。彼时,金融行业的信息化程度远高于其他行业,银行是当时国内IT 预算最高的企业之一,亦成为了九章云极DataCanvas瞄准金融行业的最先切入点。时至今日,中国前一百家银行里,九章云极DataCanvas客户占比超50 家,验证了其AI创业以“business”的核心。商业化验证的同时,为解决企业在进行数据分析时面临的AI建模难度门槛过高、以及AI推理等问题,九章云极DataCanvas也不断完善产品版图。在“人工智能基础软件”的定位下,公司不仅通过AutoML自动机器学习、AutoDL自动深度学习和ModelOps提供模型运行的全生命周期,更通过其研发的HSAP数据库DingoDB落地Data-Centric AI。此外,九章云极DataCanvas从DAT自动机器学习软件、DingoDB实时交互式分析数据库,到去年7月发布的YLearn因果学习软件,不断以开源重器刷新了业界对开源基础软件的期望。后者作为全球首款一站式处理因果学习完整流程的开源算法工具包,填补了可信AI、可解释AI高性能基础软件的市场空白,而这也正是推动AI技术实现从“预测”到“决策”的规模化应用的重要工具。尚明栋表示,AI基础软件不光是一个基础软件,还面向国内toB的生态合作。随着众多厂商协作产生的分工细化,在toB生态下,面对行业数据、结构的不同,企业更需要考虑在某一个能力层里进行长期的可复用、标准化。这其中,越是偏底层的能力,他认为越应该参与到开源生态中,通过更多人适配变成整个标准化生态分工里的一环。“从这一点上来说,我们尊重且积极参与到开放生态,会开源一些比较底层的计算框架,而偏上面的行业应用,甚至是交互式的应用工具链,会更支持企业化特性。”尚明栋表示,九章云极DataCanvas会保持对开源生态的兼容,处于中间层的位置,向上更靠近应用,向下更靠近底层。据了解,九章云极DataCanvas软件产品收入占六成以上,除在金融行业客户渗透率不断提高外,其在通信、工业制造、政府、交通等多行业均有标杆客户落地。10年间,九章云极DataCanvas加速狂奔,资本的橄榄枝也接连不断。去年9月,九章云极DataCanvas完成龙门资本领投的C+轮融资,至此,已在9轮融资中获得超20家机构押注,其中中关村发展前沿基金、领沨资本、红点中国、赛富投资基金、襄禾资本等知名机构更是多轮加持。
以“大+小”方式,形成模型训练新范式
在技术快速发展和行业生态变迁下,如果说过去的产品矩阵是九章云极DataCanvas针对企业现有能力来进行伴生式的成长,那么大模型则是九章云极DataCanvas的诗和远方。近两年,在跟规模体量特别大的客户沟通并构建大规模深度学习的分布式训练框架时,尚明栋就感受到面向未来的非结构化数据越来越多,只不过业内尚无大规模需求涌现。而这些早期的个别需求让他在训练模型时,注意到随着模型由小变大,大模型训练成本高甚至可能还会进入到空转状态,形成大量成本浪费,故而需要一面训练,一面监控,一面动态调整训练参数,让其持续进入到收敛态。尚明栋坦言,自2019年起,团队就开始挑可能通过长期投入来形成核心壁垒的点,作为大模型的投入重心。在他看来,过去中小模型解决的是场景,现在大模型替代的是分工和角色。想让企业更认可大模型的价值,一要用大模型的能力,给企业带来更多收益,二要为企业节省更多人力成本。简而言之就是实现客户一些原先不能的,或者是原先效果不够好的能力,在能力建设和业务结合时做好开源节流。基于这样的逻辑,九章云极DataCanvas将与行业生态结合得较紧密的需大量成本消耗的环节,作为可能被大模型所替代和驱动的目标。当下,大模型虽表现优异,但对于各行业使用者来说,实际应用于业务场景仍然存在较高的技术和成本门槛。模型的参数标准并不统一,相对于参数级,模型的效果且是否能够支持快速迭代对于企业客户实际应用来说更为重要。客户能够在一个白盒大模型基础上快速地、低成本地微调和迭代出客制化的小模型,才能高效地实现丰富场景的大模型应用。而这正是AI基础软件工具链的重要性。尚明栋表示,大模型未来可能和中小模型更趋同化,而大模型和小模型的融合使用,大模型的小型化,或者说以大模型为底座的小型化微调,也是一种趋势,能够以低廉的成本解决大量的问题。AI基础软件通过大模型+小模型的方式,正形成模型训练新范式。他指出,不管是大模型还是小模型,本质上都是模型,实际就是数据的浓缩,包含价值、逻辑密度。数据不开放,必然要搬运能力,而且是大模型所需的整个能力栈。而通过过去啃下的技术“硬骨头”,使得九章云极DataCanvas在大模型的落地和应用里,能快速找到能力组合的战略要点,打造更标准化的大模型工具链:不仅会在支持现有框架下,把构建大模型的能力引入行业的边界里去,而且还会给行业提供能力闭环。“作为AI生态链中基础软件环节的能力提供者,过去10年我们一直在验证从模型构建到模型推理生产化,甚至到后期的模型管理,形成一个基于以模型全生命周期作为起点和终点来进行的能力建设的闭环,来对行业产生价值,让客户为能力买单。”而这样的闭环在大模型构建下,尚明栋预测会有新的能力建设随新的大闭环而产生。在他看来,大模型很像新时代的制造业,大家在一个流水线上,下游负责算力、更底层的一些计算框架,九章云极DataCanvas负责好基础软件,模型的完整生命周期的构建和推理,并赋能于后面的应用,是一个更面向产业的闭环。而其中,相较于专业能力分工更细致化,有前瞻性技术和能力构建的头部客户,真正进行大规模变现和赋能的是更偏向于最终应用的腰部企业,需要九章云极DataCanvas从基础软件往应用侧提供一部分服务,去把最后这一公里补齐。其透露,目前大模型方面已经开始有付费客户。据IDC预测,到2026年,大规模基础模型将成为大型供应商提供的标准行业实用程序。随着各大厂商更加投入到底层基础软件的建设中,在时代推动和产业带动下,以九章云极DataCanvas为代表的AI基础软件公司又将有哪些变与不变,让我们拭目以待。