数据驱动人工智能的实践 | 硬创公开课
随着时间的推移,人工智能(AI)技术已经形成学术与产业联动发展、向前推进的态势。不管是说风口还是机遇,AI对科技产业创新的力量不言而喻,而在该领域积累了相关技术实力的研究者、企业创新者也希望赶上时代的列车。本次雷锋网AI金融专场硬创公开课第一期,我们邀请到百度金融首席数据科学家丁磊博士,来分享他关于人工智能技术在商业领域的深度思考。
嘉宾简介
丁磊博士是百度金融首席数据科学家,曾任职汇百川征信CTO,及PayPal全球消费者数据科学部负责人。丁博士曾在斯坦福大学学习管理,先后在哥伦比亚大学和IBM Watson研究院工作,具有在大数据、金融等领域十多年的从业经验,在人工智能和大规模机器学习等领域有丰富的成果。
右一为丁磊博士
以下是雷锋网对演讲进行了不改变原意的编辑:
数据驱动的AI框架,可以带来哪些作用?
说到数据,毋庸置疑,是咱们这个时代的很重要的一种资产。大家常说大数据有“3V”:volume,数据量,从TB到PB甚至更大的数据;variety,多样性,包括结构化,半结构化,非结构化的数据;velocity,速度方面,包括批处理,准实时,实时的数据。
如果说数据是原油,那么AI就是从原油中提炼各种高价值产品的加工厂。从数据中发现知识、洞察、和规律。这本身并不是一个新的概念,从开普勒的时代就有,那就是开普勒从大量(几百页)的天体位置数据中提炼、总结出了天体运动三定律。
现在,AI帮助我们实现了的是,借助大规模云计算的方法,从海量数据中自动学习知识和规律。做好AI并不容易,接下里我会跟大家详细探讨一些经验。
作为数据驱动的AI框架,可以给我们带来哪些作用?总的来说:
首先可以带来个性化的体验。例如当我们进入到一些网站,可能会发现许多个性化的针对每个人的体验,这些体验让网站不再是千人一面,通过数据驱动的AI框架可以为每一位访客做出优化。
其次,作为一个数据驱动的AI框架,其结果可以带来细粒度的行业策略。相对于个性化的体验来说,细粒度的行业策略更侧重于企业端。例如,过去做营销,一个产品的适用人群可能是一定范围内的男性或者女性,这是一个比较粗的描述。用数据驱动的AI框架以后,我们可以得到一个比较细的描述,比如我们可以理解基于年龄、兴趣爱好、行为等因素的目标客户群,从而得到细粒度的营销策略。
第三点,它可以带来知识或者洞察,我们去学校或者在经验中都可以学习到知识。但是,数据驱动的AI框架带给我们的核心价值是持续地运营化地从大数据中挖掘知识。这个知识未必是写在教科书上的,而从数据中可以实时地、最大体量地、同时也是有效地获得知识,用于生产和业务实践中。类似地,从数据中获得的洞察也可以带来同样的价值。
说完这三点,接下来谈谈搭建PayPal AI平台的经验。通过AI平台,作为商家可以运营化地预测用户的行为从而精准地和他们对话。
具体而言,我们构建了基于AI的动机引擎、推荐引擎、以及优化客户生命周期的Next Best Action引擎。这几个引擎部署在基于Hadoop和Spark的大数据平台之上,能够跟海量的底层数据衔接。其中,
动机引擎通过AI技术,预测用户在某一个时间点的行为,包括点击广告、兑现优惠卷、购买商品等。
推荐引擎连接用户和他可能感兴趣的商家或商品,做出恰当的推荐。
Next Best Action引擎则通过人工智能技术优化在每一个时间点,商家采用什么样的策略,能够最有效的提升用户的价值。
那么这个AI平台如何发展起来的呢?
首先,需要理解业务的需求和KPI,整合相关数据集,然后建立基于回测的概念验证,运营化生产和迭代整个体系。经历了几年的历程,团队逐渐构建了比较完善的AI平台,为各方带来了显著而持续的收益,也提升的用户的体验。从效果上来说,AI平台使大部分营销活动的有效增益提升了2倍以上,有些达到了数倍之多。
从DIKW金字塔和人类感官的演化谈AI:去平均化的应用领域
所谓DIKW金字塔包括四层即“D-数据”,“I-信息”,“K-知识”,“W-智慧”——每一层代表人类对客观世界认识的一个层面。那么人工智能在金字塔上对应的是哪一个结构呢?
从数据到信息是传统IT比较专注或者熟悉的领域,通过数据库系统和ETL引擎,主要把相对粗糙、未经整理的数据转化为信息。所谓信息即结构化的产物,可以理解为数据库中的表等实体的总和。而信息到知识是AI所做的事情,这个转化过程与数据库运算不同,因为它不是机械的数据处理和整合,而是从信息升华到知识的过程。
信息到知识是人工智能处理的问题,核心之一是去平均化,这是人工智能帮我们做的很重要的一件事。例如,在营销领域,对于一个公司销售一件产品来说,平均客户价值是一百元,去平均化的过程告诉我们,不同客户对应的价值是不同的。这个可以通过大数据,从过去的客户行为数据等属性中学习出来,建立自学习模型,预测每个客户的价值是多少。这些都非常有价值的信息。客户的实际价值,可能和与平均值差很远。
不光用户的价值,用户是否会购买一件商品,喜欢什么样的商品,以及如何促成一次购买,等等这些问题,都可以通过AI技术来帮助回答。
去平均化的应用领域不仅局限于营销领域,在其他商业相关或者医学相关的其他很多领域,都有很多去平均化的应用。好比医疗领域,基于医疗病例预测得坏血病的概率和再入院的概率,帮助医院挽救病人和降低医疗成本,这些应用已经在美国的一些大医院里开始使用。
人类感官的演化历程,如何定义AI系统的复杂性?
换一个视角,我们可以看看人类感官的演化历程,如何定义了AI系统模拟人脑的复杂性。
众所周知,计算机视觉,包括图像和视频识别等,其难度在感知类别的AI里是比较高的。我想其中一个原因是,人类视觉系统源自原始动物的视觉系统,这个演化时间最长,超过了2亿年。相比而言,交流用的有声语言演化了有10万年左右,而文字只演化了5千年左右。这样的演化历史,也符合AI处理语音和文本的难易程度。文本理解已经相当普及,而语音识别逐渐开始进入千家万户。
人工智能的难易程度是符合人类感官演化的。如此类比,现代的专业知识,好比金融和医疗这些领域,它们的演化的时间不超过几百年。尽管有种种挑战,这些知识的演化历史印证着AI在这些行业的应用,可以取得比较显著的效果。
数据+AI带来的核心能力:海量数据支持下AI决策可以超越人脑
这里引用著名的科技思想家Kevin Kelly的一句话,说“AI是认知化”。如果说电力化带来了人工动力,那么认知化带来了人工智能。结合前面讨论的演化观点,我认为:感知方面,包括AI的视觉、听觉等,AI可以接近人脑。在支持专业决策的方面,在海量数据的支持下,甚至可以超越人脑。
举两个例子,分别是图像识别和金融风险控制来说明。图像识别方面,在权威的ImageNet图像识别竞赛的评测里,2010到2015这五年内,通过深度学习一系列的算法,计算机对1000多类物体的识别,错误率从30%下降到5%。而在金融风控领域中,通过一系列模型控制金融输入的风险,通过AI、KS值——通常用来衡量有效性的一个指标,也可做到40%-50%甚至更高,有效地控制住风险,效果可以超越传统的人工方法。
数据,本身反映了事物的原理和规律。当你找到它的规律后,它可以去预测未知或未来的事情。因此,“数据+AI”的核心能力为我们构建了一个发展中的产业生态。这个生态分为两层:
底层是应用技术,包括机器学习、图像语音处理、自然语言及一系列相关的硬件技术。
而另一层是和应用领域相结合的应用场景,包括两大类:一是行业应用,包括金融、医疗、教育等;另外在每个行业都有交叉的维度,也就是职能应用,包括营销、BI、CRM、安全等相关的职能。职能应用和行业应用构成二维的矩阵,AI在其中有很多的应用场景;第二大类是消费类应用,包括智能家居,辅助驾驶,智能机器人等。
说了这么多行业、职能和应用领域,其实不是所有领域都适合大范围使用AI。满足大规模商业应用的AI,应具备两个必要条件:
其一是数据的质量和数量必须达到一定的要求,尤其是整个数据流程的打通和定期的数据更新。这决定了AI发展的基础是否牢固;
其二,所在领域有没有对问题的相对清晰的定义。如果领域本身没有明晰的问题定义,则很难通过AI来解决问题。总体来说,金融行业已经比较接近这两点要求;职能来说,营销、BI、CRM和安全等在一些行业比较接近人工智能大规模使用的先决条件。
AI落地的挑战和思路
过去一段时间,我接触过很多公司,也发现其中存在的一些存在共性的挑战和思路:
第一,很多时候,有价值的数据已经在你的数据库里,很多时候是因为不懂得去挖掘数据价值,容易错失了利用AI的机会。举个例子,通过AI预测电商网站的访客价值。此前我任职的一个创业公司Intent Media,通过AI算法优化了全球出行网站每月上亿UV的用户体验。
具体来说,通过一些实时抓取的行为数据,预测访客的购买意愿和购买价值。对不太可能在本站上购买的访客,这个其实占的比例非常高,有时候达到97%,那么这个时候,我们可以推荐给他们其他的可能感兴趣的出行产品。这个产品的结果是大幅提升了出行网站的收益,并优化了用户的体验。总结一下,如果不能挖掘这些现有数据的价值,就没法产生Intent Media这样的创新模式。
第二,人才方面,业界最缺的是AI产品经理。AI问题的复杂性之一在于结果的不确定性,而具备AI背景的产品经理少之又少。不能够很好的判断价值与方向,进而会导致相关产品或项目的搁置。当然这里面也有人才培养的问题,例如可以尝试鼓励优秀的AI工程师和科学家去主导相关产品的开发,在业务的指引下,充分发挥专业人才的积极性,探索可行的方向,促进AI落地。
第三,跨领域和团队的交融与整合,打通数据的闭环,产品、工程、AI的紧密结合。这个需要比较长时间的磨合。在我们之前构建AI平台的经历中,涉及大量跨团队沟通、配合、相互支持的工作。AI得以有效实现,工程能力的建设尤为重要。由于大数据的体量、种类和实时性要求,如果没有强大的数据处理基础设施,很难在大数据上进行持续和大规模的AI应用。
举个例子,基于实际的需求,我们常用一种比较受到推崇的结果叫做“lambda”,这个架构包括以下组成部分:
批处理层,支持批处理读写和分析处理;
服务层,支持批处理写入和实时读取;
速度层,支持实时读写,把时效性非常高的数据在很短的时间内反应给用户。这些层整合起来构成了一个可以支撑大规模AI的基础设施。
第四,AI落地中信任的问题。我觉得在解决行业实际问题里,很多瓶颈来自于信任的缺乏。信任本身是个很大的话题,在技术的层面上,这包括了对数据和对算法的信任。因此,一定范围内的数据共享可以增加信任,并可以带来全新的知识和洞察。一个相关的技术——区块链技术大家可能有听说过,简单来说是一个分布式的可信任的数据基础设施。基于这项技术的一个例子,最近荷兰16家公司组成的物流区块链联盟,通过这种形式的物流数据共享和打通,能够增加他们彼此间的信任,从中长期来看更有利于AI的落地。
综上所述,如果解决了这些问题,我相信企业会有比较大的空间利用AI来升级,不仅是行业中的大企业,中小企业也有很多的机会。运用AI领域的最佳实践,快速概念验证,风险可控的前提下落地生产,可带来广阔的空间。
注:本次活动为丁博士个人经验分享,观点不代表百度。
点击关键词可查看相关历史文章 ● ● ● 近期热门 ● ● ● 锤子 M1/M1L | 龙芯 3A3000 | 三星 Note 7 |