AI“数据侠”雷涛:要把「天云大数据」建成中国第一AI PaaS平台
“
在人工智能技术的圈子里,雷涛可谓是一位低调的“大牛”,对于大数据与人工智能均有着极强的理解。
其创立的天云大数据,开发了AI背后的PaaS平台,即“AI背后的AI”。通过算法、大数据和云计算的有机融合,天云人工智能平台让那些AI界的“小白”或者“菜鸟”,也能快速建模、开发基于AI解决方案。
如今,天云的平台和产品已经被金融、能源、政府等诸多领域用户广泛使用;其对产业更长远的影响就是,实现AI的民主化、规模化和智能化。
近期,这位新加入华映系联盟的“数据侠”,接受了Bianews采访,分享了他对行业的理解与展望。
来源:BiaNews(ID:bianews8)
对于AI的应用普及现状,雷涛指出,“AI民主化的核心是将科学家在传统实验室完成的工作,赋予更多人使用,降低使用门槛,让更多的开发者、业务人员能够使用人工智能。”
“AI不是少数人的专利,未来人工智能发展趋势更应凸显规模化生产能力,让企业获取机器智能像读书一样简单。”AI模型的PaaS化(平台即服务)、智能化成为突破AI产业化应用的关键。
AI发展不平衡:规模化、智能化成关键
人工智能在各个领域的发展呈不平衡态势,如无人驾驶、人脸识别以及机器人等领域,因其算法与目的都很明确,又因媒体关注的推动,资本与数据的聚焦之下容易找到最佳实践;但针对算法纷繁复杂、数据私有与云服务私有的商业智能领域,AI应用程度参差不齐。
天云大数据CEO雷涛认为,AI的PaaS化,智能化是突破昂贵商业价值交付的关键。
从无人驾驶到智能投顾,从视觉识别到风险欺诈,都是在大规模数据上完成Machine Learning,大量商业流程的重塑与再造都开始基于数据驱动的数据科学实践,新的商业实践和市场结构正在形成。
AI算法是开源的,但商业价值的交付却是昂贵、复杂和低效的。
A(Algorithm)、B(Bigdata)、C(Cloud)的有效融合,成为AI商业推广与工程化实施的关键。三者的融合,使得无需掌握太多数据科学经验的人也可尝试AI。
通过AI的PaaS化,没有用过AI的团队也可以快速利用Machine Learning平台进行建模,相比传统的离线、抽样、统计为主的数据挖掘平台,通过AI的PaaS化,可以处理在线、全量、实时的数据,更高效的利用数据科学工具解决业务问题。
团队规模决定了产出量。要实现规模化,需要跨越“数据科学”“分布式计算”等关键科技,海量数据规模化转换为商业价值,这种跨界难度非常之大。
这种矛盾和挑战是指A和C的融合,不同知识技能在工程上的融合,目前国内已经出现致力于将计算能力和数据科学能力融合在一起,面向业务定义快速生产AI模型的流水线式AI建模平台,即天云大数据的通用数据科学平台MaximAI。
他还指出,目前AI产业化还面临着诸多困难,从人才层面来讲,同时具备Hadoop、Spark等大规模数据处理能力以及数据科学能力的复合型人才非常稀缺;从组织形态层面讲,管理层需要就企业转型为数据驱动形态做出相应的战略规划和调整。
AI建模平台演进趋势:自动化机器学习
雷涛指出,应用机器学习技术解决现实世界问题是昂贵而困难的。
利用基于AI的技术方案来克服这一应用过程中的难题,就是自动化机器学习(AutoML),AutoML指的是”用于优化AI”的AI。
微软和谷歌先后利用图片分类的案例给出了其对AutoML的答案:建模者只需付出最少的操作(上传、选择和评估),利用微软或谷歌云AI平台的能力,即可获得具有一定精度的机器学习模型。
专家经验在机器学习建模过程中起重要作用,这导致了建模昂贵、困难,而包括微软和谷歌等企业的实践表明,AI建模平台应沿着减少人工干预和减少专家经验依赖的方向发展。
目前AI应用于金融的典型场景是风控和精准营销。金融领域的风控传统上主要依赖于专家经验、预定义规则和人工审核,银行付出大量审核成本,银行客户体验不够好,利用大数据和人工智能技术可全方位提升信贷活动全流程风控水平和自动化程度,降低行方成本,实现信贷审核秒级或毫秒级完成,大大提升银行客户体验。
另一方面,利用大数据和人工智能技术可以对客户进行精准而全面的画像,实时感知客户对服务、产品的兴趣和真实需求,匹配客户与产品,行方的营销活动可以面向利用AI技术筛选出的对推荐产品感兴趣概率较高的群体,这样一方面降低行方营销成本,另一方面减少对其他用户的影响,提升用户体验。
雷涛指出,未来AI在金融领域还可以在智能投顾、合规等多方面带来巨变。
据雷涛介绍,天云分布式数据科学平台Maxim AI是基于分布式底层架构的机器学习及平台产品。
Maxim AI采用图形用户界面交互免编码模式,简化了整个建模流程和模型生命周期管理,支持全量数据建模,实现了分布式运行深度学习、梯度提升、逻辑回归、随机森林等热门机器学习算法,实现了机器学习模型生产批量化和智能化,可以有效的帮助企业简化建模流程,将编程建模方式简化为免编码建模方式,更加高效的利用机器学习模型解决业务问题。
AI和大数据是一体双面
雷涛认为,大数据反映的是数据的处理与计算能力,AI则反映的是数据的使用。
他还指出,其实很多算法很多年前就已经有了,伴随着近年来海量数据带来的数据与计算能力的增强,AI才能解决更多的问题,所以才有了AI的热度。
随着各行各业IT基础设施建设的提升,积累的数据越来越多。传统的关系数据库一方面不足以描述日益复杂的业务场景,另一方面爆炸式增长的数据量也对数据的存储和管理,尤其是数据的应用提出了挑战。
3月22日,雷涛做客央视《环球视线》栏目,与特约评论员宋晓军讨论大数据时代数据使用的安全问题。
https://v.qq.com/txp/iframe/player.html?vid=r13359g8ukh&width=500&height=375&auto=0
雷涛指出,数据作为新兴的生产资料,与传统商品不同,作为虚拟生产资料的数据很难实现使用权与所有权的剥离,Facebook数据泄露事件本质上关乎科技巨头与国家政府职能的冲突与矛盾。
互联网早期时候是乌托邦式的理想国,对等协议使得互联网迅速繁荣起来,但是线上缺少了政体的社会职能,比如公安部可以进行身份证保存,而互联网上缺失这些核心职能。
2000年以后,第一波互联网泡沫出现以后,大量商业资本投机之后,出现了很多商业巨头,Facebook的出现恰恰是把人的身份信息进行了保护,就像户籍一样,但这种保护是商业化公司运作的,对信息的保护无法向政体一样高标准的保护用户信息。
对于大数据时代的隐私如何保护,雷涛表示:借助科技赋能,实现数据所有权与使用权的剥离。
人工智能不仅接触个体数据,也同样保护个体隐私。真正去使用大数据手段和技术的时候,是不会存在隐私问题的。
雷涛曾这样解释道:当我们只有一把钥匙对着一把锁的时候,当然会担心小偷把钥匙偷走。但是,如果我们门口放着一百万把钥匙呢?只有机器能对上!过载的信息会使得单独个体的信息被漠视,因为它的计算成本很高。
特别是在AI模式下,计算的过程已经通过AI模型设计好了,这是一个数学计算的过程,比如Apple公司使用差分隐私技术(Differential Privacy),能够把物理世界的你和虚拟世界的你隔离开来,开发者使用个体数据时,也不会有隐私泄露的问题了。
目前大数据平台已经被普遍接受,而传统的基于数据科学家或基于统计分析的数据利用方式则表现的不够好,无法充分利用已经存储下来的大数据。
早期AI研究普遍是针对理论算法的研究,受到算力和数据的限制,AI能够解决的实际问题不多,现在有了大数据平台积累的数据和算力的提升,AI变得越来越重要,在很多领域,AI已经超过人类,可以发现很多隐藏的模式,对人类的决策提供很好的支持。
▲ 调查了1w+消费者:未来10年,这3大趋势将占领消费者心潮