数据驱动人工智能的实践 | AI掘金志 | 自由微信

数据驱动人工智能的实践 | AI掘金志

Original 2017-02-17 丁磊 AI掘金志

随着时间的推移，人工智能（AI）技术已经形成学术与产业联动发展、向前推进的态势。不管是说风口还是机遇，AI对科技产业创新的力量不言而喻，而在该领域积累了相关技术实力的研究者、企业创新者也希望赶上时代的列车。本次雷锋网AI金融专场硬创公开课第一期，我们邀请到百度金融首席数据科学家丁磊博士，来分享他关于人工智能技术在商业领域的深度思考。

嘉宾简介

丁磊博士是百度金融首席数据科学家，曾任职汇百川征信CTO，及PayPal全球消费者数据科学部负责人。丁博士曾在斯坦福大学学习管理，先后在哥伦比亚大学和IBM Watson研究院工作，具有在大数据、金融等领域十多年的从业经验，在人工智能和大规模机器学习等领域有丰富的成果。

右一为丁磊博士

以下是雷锋网对演讲进行了不改变原意的编辑：

数据驱动的AI框架，可以带来哪些作用？

说到数据，毋庸置疑，是咱们这个时代的很重要的一种资产。大家常说大数据有“3V”：volume，数据量，从TB到PB甚至更大的数据；variety，多样性，包括结构化，半结构化，非结构化的数据；velocity，速度方面，包括批处理，准实时，实时的数据。

如果说数据是原油，那么AI就是从原油中提炼各种高价值产品的加工厂。从数据中发现知识、洞察、和规律。这本身并不是一个新的概念，从开普勒的时代就有，那就是开普勒从大量（几百页）的天体位置数据中提炼、总结出了天体运动三定律。

现在，AI帮助我们实现了的是，借助大规模云计算的方法，从海量数据中自动学习知识和规律。做好AI并不容易，接下里我会跟大家详细探讨一些经验。

作为数据驱动的AI框架，可以给我们带来哪些作用？总的来说：

首先可以带来个性化的体验。例如当我们进入到一些网站，可能会发现许多个性化的针对每个人的体验，这些体验让网站不再是千人一面，通过数据驱动的AI框架可以为每一位访客做出优化。

其次，作为一个数据驱动的AI框架，其结果可以带来细粒度的行业策略。相对于个性化的体验来说，细粒度的行业策略更侧重于企业端。例如，过去做营销，一个产品的适用人群可能是一定范围内的男性或者女性，这是一个比较粗的描述。用数据驱动的AI框架以后，我们可以得到一个比较细的描述，比如我们可以理解基于年龄、兴趣爱好、行为等因素的目标客户群，从而得到细粒度的营销策略。

第三点，它可以带来知识或者洞察，我们去学校或者在经验中都可以学习到知识。但是，数据驱动的AI框架带给我们的核心价值是持续地运营化地从大数据中挖掘知识。这个知识未必是写在教科书上的，而从数据中可以实时地、最大体量地、同时也是有效地获得知识，用于生产和业务实践中。类似地，从数据中获得的洞察也可以带来同样的价值。

说完这三点，接下来谈谈搭建PayPal AI平台的经验。通过AI平台，作为商家可以运营化地预测用户的行为从而精准地和他们对话。

具体而言，我们构建了基于AI的动机引擎、推荐引擎、以及优化客户生命周期的Next Best Action引擎。这几个引擎部署在基于Hadoop和Spark的大数据平台之上，能够跟海量的底层数据衔接。其中，

动机引擎通过AI技术，预测用户在某一个时间点的行为，包括点击广告、兑现优惠卷、购买商品等。

推荐引擎连接用户和他可能感兴趣的商家或商品，做出恰当的推荐。

Next Best Action引擎则通过人工智能技术优化在每一个时间点，商家采用什么样的策略，能够最有效的提升用户的价值。

那么这个AI平台如何发展起来的呢？

首先，需要理解业务的需求和KPI，整合相关数据集，然后建立基于回测的概念验证，运营化生产和迭代整个体系。经历了几年的历程，团队逐渐构建了比较完善的AI平台，为各方带来了显著而持续的收益，也提升的用户的体验。从效果上来说，AI平台使大部分营销活动的有效增益提升了2倍以上，有些达到了数倍之多。

从DIKW金字塔和人类感官的演化谈AI：去平均化的应用领域

所谓DIKW金字塔包括四层即“D-数据”，“I-信息”，“K-知识”，“W-智慧”——每一层代表人类对客观世界认识的一个层面。那么人工智能在金字塔上对应的是哪一个结构呢？

从数据到信息是传统IT比较专注或者熟悉的领域，通过数据库系统和ETL引擎，主要把相对粗糙、未经整理的数据转化为信息。所谓信息即结构化的产物，可以理解为数据库中的表等实体的总和。而信息到知识是AI所做的事情，这个转化过程与数据库运算不同，因为它不是机械的数据处理和整合，而是从信息升华到知识的过程。

信息到知识是人工智能处理的问题，核心之一是去平均化，这是人工智能帮我们做的很重要的一件事。例如，在营销领域，对于一个公司销售一件产品来说，平均客户价值是一百元，去平均化的过程告诉我们，不同客户对应的价值是不同的。这个可以通过大数据，从过去的客户行为数据等属性中学习出来，建立自学习模型，预测每个客户的价值是多少。这些都非常有价值的信息。客户的实际价值，可能和与平均值差很远。

不光用户的价值，用户是否会购买一件商品，喜欢什么样的商品，以及如何促成一次购买，等等这些问题，都可以通过AI技术来帮助回答。

去平均化的应用领域不仅局限于营销领域，在其他商业相关或者医学相关的其他很多领域，都有很多去平均化的应用。好比医疗领域，基于医疗病例预测得坏血病的概率和再入院的概率，帮助医院挽救病人和降低医疗成本，这些应用已经在美国的一些大医院里开始使用。

人类感官的演化历程，如何定义AI系统的复杂性？

换一个视角，我们可以看看人类感官的演化历程，如何定义了AI系统模拟人脑的复杂性。

众所周知，计算机视觉，包括图像和视频识别等，其难度在感知类别的AI里是比较高的。我想其中一个原因是，人类视觉系统源自原始动物的视觉系统，这个演化时间最长，超过了2亿年。相比而言，交流用的有声语言演化了有10万年左右，而文字只演化了5千年左右。这样的演化历史，也符合AI处理语音和文本的难易程度。文本理解已经相当普及，而语音识别逐渐开始进入千家万户。

人工智能的难易程度是符合人类感官演化的。如此类比，现代的专业知识，好比金融和医疗这些领域，它们的演化的时间不超过几百年。尽管有种种挑战，这些知识的演化历史印证着AI在这些行业的应用，可以取得比较显著的效果。

数据+AI带来的核心能力：海量数据支持下AI决策可以超越人脑

这里引用著名的科技思想家Kevin Kelly的一句话，说“AI是认知化”。如果说电力化带来了人工动力，那么认知化带来了人工智能。结合前面讨论的演化观点，我认为：感知方面，包括AI的视觉、听觉等，AI可以接近人脑。在支持专业决策的方面，在海量数据的支持下，甚至可以超越人脑。

举两个例子，分别是图像识别和金融风险控制来说明。图像识别方面，在权威的ImageNet图像识别竞赛的评测里，2010到2015这五年内，通过深度学习一系列的算法，计算机对1000多类物体的识别，错误率从30%下降到5%。而在金融风控领域中，通过一系列模型控制金融输入的风险，通过AI、KS值——通常用来衡量有效性的一个指标，也可做到40%-50%甚至更高，有效地控制住风险，效果可以超越传统的人工方法。

数据，本身反映了事物的原理和规律。当你找到它的规律后，它可以去预测未知或未来的事情。因此，“数据+AI”的核心能力为我们构建了一个发展中的产业生态。这个生态分为两层：

底层是应用技术，包括机器学习、图像语音处理、自然语言及一系列相关的硬件技术。

而另一层是和应用领域相结合的应用场景，包括两大类：一是行业应用，包括金融、医疗、教育等；另外在每个行业都有交叉的维度，也就是职能应用，包括营销、BI、CRM、安全等相关的职能。职能应用和行业应用构成二维的矩阵，AI在其中有很多的应用场景；第二大类是消费类应用，包括智能家居，辅助驾驶，智能机器人等。

说了这么多行业、职能和应用领域，其实不是所有领域都适合大范围使用AI。满足大规模商业应用的AI，应具备两个必要条件：

其一是数据的质量和数量必须达到一定的要求，尤其是整个数据流程的打通和定期的数据更新。这决定了AI发展的基础是否牢固；

其二，所在领域有没有对问题的相对清晰的定义。如果领域本身没有明晰的问题定义，则很难通过AI来解决问题。总体来说，金融行业已经比较接近这两点要求；职能来说，营销、BI、CRM和安全等在一些行业比较接近人工智能大规模使用的先决条件。

AI落地的挑战和思路

过去一段时间，我接触过很多公司，也发现其中存在的一些存在共性的挑战和思路：

第一，很多时候，有价值的数据已经在你的数据库里，很多时候是因为不懂得去挖掘数据价值，容易错失了利用AI的机会。举个例子，通过AI预测电商网站的访客价值。此前我任职的一个创业公司Intent Media，通过AI算法优化了全球出行网站每月上亿UV的用户体验。

具体来说，通过一些实时抓取的行为数据，预测访客的购买意愿和购买价值。对不太可能在本站上购买的访客，这个其实占的比例非常高，有时候达到97%，那么这个时候，我们可以推荐给他们其他的可能感兴趣的出行产品。这个产品的结果是大幅提升了出行网站的收益，并优化了用户的体验。总结一下，如果不能挖掘这些现有数据的价值，就没法产生Intent Media这样的创新模式。

第二，人才方面，业界最缺的是AI产品经理。AI问题的复杂性之一在于结果的不确定性，而具备AI背景的产品经理少之又少。不能够很好的判断价值与方向，进而会导致相关产品或项目的搁置。当然这里面也有人才培养的问题，例如可以尝试鼓励优秀的AI工程师和科学家去主导相关产品的开发，在业务的指引下，充分发挥专业人才的积极性，探索可行的方向，促进AI落地。

第三，跨领域和团队的交融与整合，打通数据的闭环，产品、工程、AI的紧密结合。这个需要比较长时间的磨合。在我们之前构建AI平台的经历中，涉及大量跨团队沟通、配合、相互支持的工作。AI得以有效实现，工程能力的建设尤为重要。由于大数据的体量、种类和实时性要求，如果没有强大的数据处理基础设施，很难在大数据上进行持续和大规模的AI应用。

举个例子，基于实际的需求，我们常用一种比较受到推崇的结果叫做“lambda”，这个架构包括以下组成部分：

批处理层，支持批处理读写和分析处理；

服务层，支持批处理写入和实时读取；

速度层，支持实时读写，把时效性非常高的数据在很短的时间内反应给用户。这些层整合起来构成了一个可以支撑大规模AI的基础设施。

第四，AI落地中信任的问题。我觉得在解决行业实际问题里，很多瓶颈来自于信任的缺乏。信任本身是个很大的话题，在技术的层面上，这包括了对数据和对算法的信任。因此，一定范围内的数据共享可以增加信任，并可以带来全新的知识和洞察。一个相关的技术——区块链技术大家可能有听说过，简单来说是一个分布式的可信任的数据基础设施。基于这项技术的一个例子，最近荷兰16家公司组成的物流区块链联盟，通过这种形式的物流数据共享和打通，能够增加他们彼此间的信任，从中长期来看更有利于AI的落地。

综上所述，如果解决了这些问题，我相信企业会有比较大的空间利用AI来升级，不仅是行业中的大企业，中小企业也有很多的机会。运用AI领域的最佳实践，快速概念验证，风险可控的前提下落地生产，可带来广阔的空间。

注：本次活动为丁博士个人经验分享，观点不代表百度。

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

为什么京东员工强烈推荐京东plus会员不要直接在平台上买东西？

别太贪婪，这些技能让你一辈子满足