九章云极DataCanvas携两大开源产品打通中国开源之路
2021年是中国的开源产业全面落地的一年,各行各业关于开源的应用发展速度迅猛。随着整体社会数字化转型步伐加速,在技术创新、产业协作、智能发展等多个方面开源的力量日益凸显。同时,开源产业也得到了国家的高度重视,“十四五”规划首次把开源纳入顶层设计,大型科技公司均将开源纳入公司的整体战略,开源生态呈现产业化发展趋势。在这个万物智联的时代里,开源生态从个人参与到企业参与,从技术交流到生态协同,智能与开源已然形成产业中不可分割的两个重要组成。
10月22日,人工智能领域的盛会 ——“2021年数智化高峰论坛”在北京盛大召开。本论坛以“AI赋能无限想象”为主题,汇集各方专家、共聚一堂,以推动人工智能创新应用为出发点,广泛探讨AI技术如何赋能高效数智化转型升级,加速推动我国数字经济的高质量发展。九章云极DataCanvas联合创始人暨CTO尚明栋在现场开源发布两大自主研发的重磅人工智能领域前沿技术成果——DAT自动机器学习工具包和DingoDB实时交互式分析数据库,并奉上了一场人工智能技术与应用的盛宴。
拥抱开源生态 赋能数字化转型
开源产业近年来在国内取得了世人瞩目的成绩,中国开发者也从一个开源的使用者,变成了全球主流的开源贡献者。开源协作创新的开发模式,也成为了推动软件产业持续创新发展的源泉。毋庸置疑,当前国内开源热度空前高涨,而开源并不仅仅是“开放源代码”,政府和企业组织使用开源也不是毫无规章,开源背后涉及的人、社区、管理等因素,都有其自身的规则。而由于国内开源整体起步较晚,政府和企业在采用开源加速创新的同时,也遇到了前所未有的挑战。
挑战主要来源于三个方面,第一,对于政府和传统型企业而言,要进行数智化转型升级,打造高效的物联网数据处理平台是根基。中国是制造大国,要向智造大国转型,打造数字化的工业互联网平台也是非常关键的一部。第二,随着政府和企业数字化转型的步伐加快,全球人工智能人才缺口很大,迫切需要推动人工智能教育体系的发展,夯实人工智能发展的基础。随着人工智能成为像互联网一样的基础设施进度不断加快,相关人才需求也势必成为产业发展的关键。第三,数据的正确性和聚集,在数据上同样会发现面临的问题,数据量过大难以采集,数据相对分散没有标准,没有数据识别,人员协同较复杂等。数据的高效采集和处理是数智化转型的核心基础。
在这种挑战之下,AI的应用场景却在不断增加。现在很多智能化的场景已经走进了生活中,比如人脸识别技术、线下门店、智能家居、智能零售,再进一步像是智慧城市,这些技术的背后都是大量数据的综合处理与分析。所以政府和企业的数智化转型,有三个核心点:数据的采集和高效存储、对实时分析的灵活支持、打造数据平台底座,为其他系统提供支撑。中国工程院谭建荣院士表示“要掌握核心技术,要掌握高新技术,必须从基础研究开始。”并在大会中提出,通过:智能制造+创新设计、智能制造+工艺提升、智能制造+强化质量、智能制造和衍生服务、智能制造+拓展市场五大方法将促进实现数字经济和数字转型。九章云极DataCanvas 自成立之初就深耕AutoML自动机器学习、AutoDL自动深度学习等自动化技术,坚持自主研发和开源开放,坚持不断为业界输出开源技术成多行业场景创新应用,全力带动数据科学行业发展。“实现AI赋能,拓展无限现象”, DAT 自动机器学习工具包和 DingoDB 实时交互式分析数据库的发布更坚定了开放开源,拓展 AI 的无限可能。
应对时代挑战,DAT和DingoDB的双核驱动
数据是新时代的石油,没有数据智能便无从谈起。目前在政府和大多数企业中,数据的价值主要体现在进行粗浅的数据分析,将数据做成包含饼图、折线图等的可视化报表,进而指导业务。而随着政府和企业积累的数据越来越丰富,对数据分析的要求越来越高,过去的数据分析方式已经不能满足政府和企业的需求。
九章云极DataCanvas 董事长方磊表示,政府和企业数据的价值正在发生转变,数据分析进入了“增强分析”阶段,即通过机器学习或者人工智能增强数据分析能力。以“硬科技”立身的九章云极DataCanvas将持续在AutoML领域实现技术创新与研发,运用AutoML、AutoDL技术为金融、通信、制造、政府等众多行业提供专业的技术服务,解决政府和企业在数智化升级中对于实时性的需求。正是在这样的初心引导下,才有了今天面向自主建模、自动建模的DAT开源产品,以及面向高并发、能够做实时分析的DingoDB数据库的开源发布。
DataCanvas AutoML Toolkit(DAT)
DataCanvas AutoML Toolkit(DAT)是一个自动机器学习工具套件包,包含了一系列功能强大的 AutoML 开源工具,从底层的通用自动机器学习框架到用于结构化及非结构化领域端到端的自动建模工具。DAT的所有项目都是以开源方式来开发的,目前接收到来自于GitHub社区Star的数量超过2600个,来自于社区的安装和下载次数超过6万次。
整个DAT的工具站,从面向任务来分,同时可以覆盖结构化、以及非结构化;从面向人群来分,即可以面向于专业的AI从业人员,也可以让没有专业AI背景的人员,利用AutoML有相应的工具可以使用,即可以满足AI使用者的需求,还有面向AutoML工具开发者的相应框架。
因此,DAT并不是一个面向某一个场景来开发的工具,是希望AutoML能够面向于不同人群,从不同角度和各个层面全方位地释放AutoML能力,为用户来赋能。
DAT 的工具栈可以分为三层:首先是最底层的 AutoML 框架 Hypernets、机器学习和深度学习框架,中间是 AutoML 工具如 DeepTables、最上层是应用工具:HyperGBM、HyperDT、HyperKeras、Cooka。
DataCanvas · GitHub
https://github.com/DataCanvasIO/Hypernets
https://github.com/DataCanvasIO/HyperGBM
https://github.com/DataCanvasIO/HyperKeras
https://github.com/DataCanvasIO/DeepTables
DingoDB
DingoDB是新一代的实时交互式分析数据库,能够提供高并发的数据服务。现在政府和企业的数据架构基本上采用Lambda架构的模式, 它不仅仅是政府和企业主流的数据架构,也是很多互联网公司主流的一种数据架构,但在许多方面存在潜在的风险和问题:
(1)数据散列存储的问题,存在多套存储引擎,数据的融合会变的非常困难,由此引申出来一个新的领域,多数据库模式的联邦查询。
(2)数据存储在多个存储引擎中,数据的一致性和准确性变的非常困难,存在数据核对和多次矫正的问题。
(3)高并发的数据服务和及时修改的能力较差,通常会在数据服务层增加各种缓存和KV数据库来进行服务提速,来提高服务的并发性。
总而言之,多套存储引擎、计算引擎以及各种缓存的存在,让政府和企业的数据平台架构变的异常复杂,学习和运维的成本变的极高。研发新的数据构架迫在眉睫,因此DingoDB就诞生了。
这两款开源产品能够让数据分析的过程既快又简单,帮助更多的非专业的数据科学家也可以使用进行数据的建模和分析。
面向模型困局,数据侧还能做什么
数据要服务于人工智能的机器学习算法模型,但是在建模过程中“不均衡、概念漂移、泛化能力和大规模数据”这4大难点的呢?DAT针对这些难点做出了如下优化:
不均衡
使用降采样的方法防止主类过拟合,同时通过多种样本生成的方法去修补小类数据的真实分布,防止小类上面的欠拟合。
概念漂移
针对概念漂移的问题,会用一种受生成对抗网络(GAN)启发的半监督学习技术“对抗验证(Adversarial Validation)”的方法,在建模之前就能够有效的识别哪些特征发生了漂移,然后针对性的做一些处理,这样就会提高整个模型的线上的一个稳定性,有效防止模型退化问题。
泛化能力
对于提升泛化能力,会通过自动特征工程中有针对性的特征筛选,在建模过程中会对一些正则化的参数进行优化,还有通过模型融合Ensemble这样一系列的组合拳来提高模型整体的泛化能力。并引入了一些半监督的学习技术,像是伪标签学习,在结构化数据中使用伪标签学习也是相对比较先进的一种方式。
大规模数据
底层的计算引擎和整个的系统架构上用分布式的架构,同时能够支持基于单机模式的训练,也可以支持分布式集群的模式来训练,整个的系统架构可以横向伸缩,满足任意量级的数据规模。
DingoDB借鉴了TP系统和AP系统各自的优点,在存储海量数据的同时,能够进行高并发的数据查询,实时的数据分析。数据从各种类型的渠道导入DingoDB,借助DingoDB的高并发查询,实时数据分析和多维分析的能力,来支撑政府和企业若干业务应用。
那相较于独立的OLTP和OLAP这两种开源数据产品,DingoDB这类混合型的HASP(Hybrid Serving & Analytical Processing实时分析数据库)产品有哪些优势呢?
行列混合:采用了统一的存储的设计,支持行存、列存和行列混合的存储形式。
标准SQL:支持ANSI SQL 语法,可以和Calcite客户端、BI报表工具无缝衔接。
实时高频更新:Dingo数据库能够基于主键,实现数据记录的 Upsert、Delete 操作;同时数据采用多分区副本机制,能够将 Upsert、Delete 操作转化为 Key-Value 操作,实现高频更新。
对于数据库产品而言,仅仅做到性能上的出众是远远不够的,无论开发者看重的上手难度、学习成本,还是政府和企业看重的产品稳定性与业务兼容性,都是很重要的。DingoDB 在解决上述难题的同时,还能够为政府和企业用户提供完善的产品技术支持,并基于智能优化器实现交互式分析、高频点查、修改和删除操作,多副本机制、存算弹性扩展等创新能力。
AI产业依然稚嫩,未来生态依旧奔腾
当前,人工智能在中国市场已经经历了3到5年的发展,虽然随着技术创新当今产业已略有变化,但挑战依然非常突出的,尤其是数据层面。超大预训练模型,也是我们今年中国市场的特色之一,其解决了当前市场数据资源匮乏的问题,但是在基础技术层面会存在着模型泛化能力有待提升等问题,模型泛化能力也是AI基础领域的重要难题。
藏在挑战背后的,是机遇。近几年国家出台了一系列相关政策指引,激发人工智能产业的创新活力,工作重点面向智能核心基础、智能公共支撑、智能产品应用等三个重点方向,培育国内具备掌握关键核心技术和创新能力的优势单位,突破国内AI标志化产品。产业智能升级的平台化落地策略也在加紧落实,将人工智能技术和价值和行业有机结合。对人工智能的发展趋势,专家做出了研判,AutoML将成为人工智能重要技术趋势之一。
站在发展的角度去看当今的中国人工智能生态,“开源开放”已经不是一个全新的概念与名词,亦不是一项新的技术行动,而中国人工智能领域在世界AI技术发展浪潮裹挟下的大势所趋。以“自动化、云原生、开源开放”为核心的AI 基础软件将推动各行业企业加速数智化升级。CSDN认为,从去年的自动结构化深度学习工具DeepTables、自搜索神经网络框架Hypernets,到今年的自动机器学习工具套件包DAT与实时交互式分析数据库DingoDB,两年间九章云极DataCanvas 在开源开放领域带给了我们无限的惊喜。未来也将继续关注九章云极在开源生态领域的最新动向,请拭目以待。