涂威威：第四范式经验与思考分享

2017-11-30 涂威威 中生代技术

正文共：2240 字 26图

预计阅读时间：6分钟

【编辑：于佳琳】

所谓科学发现的前三个范式，第一是：实验；第二是：理论；第三是：模拟；第四范式就是数据挖掘。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性（属于Association rule learning）的信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

涂威威

第四范式资深机器学习架构师

AI应用背景介绍

从图灵测试说起

• 目标：判断机器是否表现出与人等价或无法区分的智能

• 两个基本问题：

充分性：通过图灵测试就是智能？

必要性：通过图灵测试才是智能？

• 两个著名变种：

Feigenbaum test

Nicholas Negroponte Test

“人工” 智能发展历史

人工智能的发展经历了三个阶段：

机器学习的经典定义

• 利用经验改善系统性能

• 经验数据

• 机器学习被广泛应用

• 搜索与推荐

• 生物特征识别

• 自动驾驶

• 军事决策助手（DARPA）

机器学习的成功应用和成本

除AlphaGo之外，还有大家所熟悉的广告系统，整个智能广告上线后，对收入有很大的提升，但在获得提升的同时会付出高昂的成本。

AI for everyone

效果

典型的机器学习过程

机器学习专家去定义一个问题，通过定义这个问题，从实际的应用中收集像样的数据，做一些特征工程，然后做一些模型训练，最后做模型评估。中间的过程会是反反复复的。

机器学习的效果门槛

•建模门槛

数据门槛

特征门槛

算法门槛

•模型应用门槛

适应性门槛

信任门槛

数据安全和隐私门槛

建模门槛：实际应用中数据和维度的趋势

•有效数据的增长

数据量：𝟏𝟎𝟒𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐

•数据维度的增长

宏观维度（𝟏𝟎𝟑）→微观维度（𝟏𝟎𝟏𝟎~𝟏𝟎𝟏𝟐）

建模门槛：机器学习模型的趋势

机器学习模型在工业应用中的四个象限

建模门槛：没有免费的午餐

• No Free Lunch定理：[Wolpert and Macready 1997]

•任意两个算法𝑎1和𝑎2， ෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎1)=෍ 𝑓𝑃(𝑑𝑚 𝑦|𝑓,𝑚,𝑎2)

•任意算法（包括随机算法）在所有问题上的期望性能一样

•不存在通用算法

•但在具体的实际问题上，有可能存在比其他算法好的算法

•需要针对不同的实际问题，研究开发不同的机器学习算法

适应性门槛：面对开放世界

•数据分布变化

迁移学习

Importance Sampling

•与环境交互、新训练样本

强化学习

•新训练目标

迁移学习

•样本属性含义变化

降低适应性门槛：鲁棒机器学习

•训练阶段

对噪声数据的鲁棒性

•应用阶段

模型对未知样本的鲁棒性

置信度估计

对关键性高风险应用的鲁棒性

增加数据、Safe Machine Learning算法

信任门槛：黑箱模型

•比如医疗应用：只给出诊断，不给出原因无法给出治疗方案

•可解释机器学习

Twice Learning [Zhou,2004]

LIME [Ribeiro, 2016]

Influence Functions Interpretation[Pang Wei Koh, 2017]

数据安全和隐私门槛

•保护用户隐私，同时保持数据的有效性

•解决方案

保留数据隐私的机器学习方法

Differential Privacy

•模型交易取代数据交易

AI for everyone

成本

机器学习应用的成本----计算成本

降低计算成本：计算效率优化

怎么对计算效率进行优化，分为四个点

•计算

•存储

•通讯

•容错

分布式并行计算

• 摩尔定律失效

• 能耗墙（Power Wall）

• 延迟墙（Latency Wall）

• 单机能力有限

• IO、存储、计算有限

• 目前提升计算能力的主流方式

• 并行化：降低执行延迟提升吞吐

• 但是，Amdahl定律

分布式并行模型训练

• 数据分布式和模型分布式

典型计算模型：数据流

典型计算模型：参数服务器

趋势：数据流 + 参数服务器

其他计算效率优化

• 计算

• 异构计算优化

• 异步，合理地计算调度

• 存储

• 不同存储设备共存：Hard Disk / SSD / NVMe / • RAM / L2 Cache…

• 多级缓存

• 通讯

• 提升网络吞吐、降低网络延迟

• 软件：请求合并、缓存

• 硬件：多网卡、InfiniBand…

• 灾备

• Data Lineage VS. Checkpointing

机器学习应用的成本-----专家成本

降低编程门槛：机器学习平台

降低专业门槛：从“人工”智能到机器智能

自动机器学习（AUTOML）

• 自动数据清洗

• 自动数据类型推断

• 自动特征工程

• 自动模型和参数选择

自动组合特征

•自动化特征组合：FeatureGo

•问题空间22𝑑

•𝑑=20,10315652

•AlphaGo空间10171

自动时序特征

自动模型和超参数选择

•Bayes方法

•演化计算方法

•迁移学习方法

自动模型和参数选择：工程优化

机器学习应用的成本-----数据成本

降低数据成本：学件、迁移学习

•学件 = 模型（ Model ）+ 规约（ Specification）

•可重用

•可演进

•可了解

•迁移学习[Pan & Yang, TKDE 2010]

•特征迁移

•样本迁移

•强化迁移学习

•终生学习

总结

•AI在工业界有了很多成功的应用

•AI for Everyone

•效果

•维复杂模型

•强化学习

•鲁棒机器学习

•可解释机器学习

•成本

•降低专家成本：AutoML

•降低计算成本：计算效率优化

•降低数据成本：学件、迁移学习

推荐阅读

王东：微服务下的APM全链路监控

Uber首席系统架构师Matt Ranney：可伸缩的软件系统工作原理

LinkedIn 全球副总裁：如何搭建一个 5 亿用户的职场社区

蒋步星：轻量级大数据计算引擎

王晔倞：在‘持续污染’与服务治理之间寻找平衡

陈磊-大数据风控：拍拍信的AI视角

马云：阿里巴巴必须成为国家和世界创新的发动机

公众号后台回复“北京PPT”可以获得涂老师以及北京讲师的全部PPT下载

中生代技术

为您提供最优质的讲师资讯

长按识别二维码关注我们

点击阅读原文↓获取更多中生代技术精彩推文

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！

有些秘密注定只被少数人知道.....2024我们不再错过

提个醒：营养是鸡蛋的15倍，是牛奶的8倍，春夏多吃，免疫力明显提高，全家受益！