GASA经典课丨AI时代最好的商业模式:建立数据银行
*以下根据Michael I. Jordan 2018年4月26日在高山大学(GASA)北京站的分享整理而成。
*本文4861字 | 10分钟阅读
*整理 | yiyi
*责编 | 朱珍
高山大学2017级北京站经典课程
《AI:Perspectives and challenges》
授课老师:Michael I. Jordan是加州大学伯克利分校杰出教授,美国科学院、美国工程院、美国艺术与科学院三院院士,机器学习领域唯一一位获此成就的科学家。百度前首席科学家吴恩达、人工智能三巨头之一的Yoshua Baggio等人的老师。
AI时代已经到来了。近几十年,AI受到了人们高度的关注,但究竟如何定义人工智能?目前人工智能所面临的最大挑战是什么?又会有什么样的机遇呢?
人工智能的多层面定义及应用
首先,我们所理解最简单传统层面的人工智能是仿人类 “Human-imitative”。比如智能机器人和电影里的AI应用。
机器人能够与人类进行智能的互动,它可以和你沟通,甚至照顾你的衣食起居。我们在许多电影等艺术作品中也见过这些常见的人工智能形象。
AI的第二层面:我们把它叫做“智能增强”(Intelligence Augmentation),简称为IA。IA的例子包含搜索引擎、个性化推荐系统、智能翻译等。搜索引擎能够帮助我们完成此前人力所不能及的任务;日常可以体验的智能推荐系统能够根据每个人的喜好个性化推荐;智能翻译能够轻松帮我们在多种语言之间切换。
AI的第三层面:“智能基础设施” (Intelligent Infrastructure),简称为II。从更广泛的意义层面来说,人工智能更可以代表人们生活周围的基础设施,例如交通网络、智能家居、城市规划、甚至是金融网络等。
结合人工智能技术,这些基础设施可以更加智能化,也更加可预测。我们可以直观的感受到,人工智能技术给我们的生活所带来的影响。
人工智能目前发展水平:仿人类
目前人工智能在机器人的发展上,还处于雏形阶段,未达到真正像人一样的高级智能。我们这代人看不到高水平的人工智能的出现。
可以举两个简单的例子:
1)我们买了一个冰箱,冰箱坏了之后接通售后服务的电话,机器人可以提出 “您的冰箱连上电源了吗?” 的简单问题,但当我们把对话变得复杂一些,“因为我的儿子喜欢经常坐在冰箱上或者我的猫把电线咬了,导致我的冰箱坏了。” 机器人就不能够处理这些复杂的情况。
2)我们想要预定一张去明天纽约的机票,并且有一系列复杂的要求包括不要早上的班机、不要去北部转机等等,然而机器人并没有办法理解和处理如此复杂的要求。
未来十到二十年,从技术的可用性上可以达到一个理想的状态,但是人工智能系统的“智能”还非常有限,AI系统还不能像人类这样有这么高的灵活性和创造性。
AI系统往往局限于某个特定领域,它们能够理解的语义也是十分有限的。至于AI系统在人机交互的过程中能够产生什么样的理解,是否能实现预测、计划等高级智能——实际上我们离这一步还非常遥远。
我们现阶段还需要二十到三十年的时间,机器人才能够处理人类复杂的要求以及对话,甚至数百年时间才能让机器人了解人类。
现实生活中,AI所面临的挑战
1)多重相关决策的错误控制
在金融、交通、医疗等场景下,不能根据周围环境的变化进行决策是机器人目前遇到的最大问题之一。
在多种相关决策的相互关联下,一个小小的错误通常就会被放大。
在十年前的金融危机中,一个一个看似小的金融债券问题,当他们组合起来的时候,就导致了金融系统的整体崩盘。类似的情况在别的领域也有案例。
因此,一旦扩大到这些领域,我们就不能再以传统应用到单一机器人的算法去做这种大规模的事情,必须要有新算法。
但事实上,在这一点上,我们远未达到。目前,我们所沿用的思路都是比较传统或通用的,并没有意识到在这个层级上还需要做很多事情。
2)有限的资源需要系统构建新的市场
通常情况下,由于多方做出多种决策,并相互影响,很多问题便产生了,归根结底是由于资源的稀缺。
向所有人都推荐相同的卖座电影是否合适?同理,向大众推荐一样的书籍、餐厅、去机场的路、股票是否合适?
显然不是。
若大家都去了同一间餐厅,必定会有很多人排队,用户体验低,大家并不认为这是一个好的推荐。这间餐厅的容量便是一个资源的上限,所以需要建立一个新的市场。
如若向大家都推荐了同一条去机场的路线,那必定会造成交通瘫痪。
若大家买同一支股票,那就加大了市场的不稳定性, 所以我们需要可以创造市场的人工智能系统。
运用算法或者创造新市场是解决问题的方法之一。打造出可以创造市场的人工智能系统是一个新兴需求,例如统计学、经济学与计算机的融合。
3)稳健性和安全性问题
目前AI技术对于不确定因素的控制还不成熟,特别是在医疗应用方面,电脑做出的诊断可能存在很大不确定性。
以医疗行业为例,让机器做医学诊断是不太可能的,可能会出现剂量不准的问题;特别是某种极端情况下,机器人做出的错误诊断可能导致病人死亡。
4)管理云端互动
关于云计算,所有的东西都在云上,让人们感觉到非常便利。但这些智能设备,并不是云设备,而是端设备。
事实上,我们未来将要接触的设备,都会是所谓的端设备,它们没有时间将数据上传到云中。
如果你和机器人的每一次对话都要上传到云,就会导致速度跟不上。比如,做智能汽车,“我在这里到底要不要转弯”这样的问题,是不可能每一次都实时和云进行交互的。
因此,要把端设备和云连接起来,还要实时交互,这两者之间是存在极大挑战的,我们现在也不知道该怎么做。
人工智能如何创造商业价值
1)运用数据分析打造新的市场
United Masters(UM)是一家专门做音乐作品的公司,他们的目标,就是希望有更多的人从事自己所喜欢的音乐创作,并可以以此为生。
这家公司怎么实现这一目标呢?
就是连接数据,用数据分析。
过去的几十年里,音乐市场是被几家大公司所垄断的,这些公司会签几个音乐歌手,然后在市场上大规模推广。
由于只有那么几个作曲家和歌手,消费者并没什么选择的空间。
现今自己创作的人越来越多,他们通过互联网传播自己制作的音乐作品,同时通过非传统渠道听音乐的人也越来越多,但这种模式缺乏经济价值的交换。
比如一个年轻的音乐人,他写了很好的歌,有几万名粉丝。但其实他本人并不知道自己有这么多追随者。
UM与Spotify、Pandora、Youtube这些网站合作,为音乐创作人创造了一个平台,利用机器学习和网站的数据来告诉这个歌手,你的粉丝有多少,分布在哪里,接下去可以做什么。比如,你可以去粉丝多的地方开演唱会。
在数据化的地图上,我们可以看到有热点,它可以以可视化的形式来展现给我们看。
比如,数据显示深圳这首歌很火,有5000人今天收听了这个音乐作品。这样一来就有了市场的开发空间,也是一种能够产生盈利的很好的商业模式。
而且,UM还会告诉歌手如何针对自己的粉丝去打造一些产品。比如说歌手可以提供婚礼上演奏音乐作品的这样一个服务,然后可以定价,这种新的周边服务也是同样可以盈利的。
所以,通过对数据的应用,就可以创造出盈利模式。慢慢地,这家公司的口碑就建立起来了。对于UM来说,它只抽取5%-10%的费用,就打造出了这样一个全新的商业模式。
我非常看好的这样的商业模式,潜力很大,在将来可能会非常的成功。这样的运作模式在别的国家也同样可行。
2)公司如何在数据分享中获利?
机器学习的另一种获利的商业模式是通过数据共享实现的。大数据的力量很强大,如果能把数据更好的联通起来,就能解决更多的问题。
但是,处于竞争关系的公司未必愿意这么做,同时公布数据也会带来新的问题。
比如,有些黑客利用支付软件的一些漏洞来盗窃其他人账户上面的资金。如果阿里、腾讯等公司愿意共享数据,数据的透明让黑客的违法行为很容易就被揭露。
那么,如何激励处于竞争关系的公司去分享数据呢?如何判断数据的质量呢?
“留一法” (“Leave-one-out”):通过一个中心网站收集N家公司的全部数据,并基于这些数据建立一个模型。然后通过剩余N-1家公司的数据来检验此模型从而评定每家公司的数据质量。
那么,如何激励处于竞争关系的公司去分享数据呢?如何判断数据的质量呢?
“数据的质量性”是通过输出的结果判定的。若新加入的数据使得原有的95%准确率降低至93%,那说明这个数据的质量不够优质。
数据分享的结果,取决于数据源的好坏。这个通过经济学的原理是可以解释的。
所以如果公司想要得到更多的价值,它首先得分享优质的数据源。
整个数据系统是通过不断加入优质的数据而不断优化到一个极限。
那么,这里的商业模式是什么?
我们需要构建一个平台,把优质的数据源集合起来,并应用这些大数据创造更多价值,建立起一个像银行一样的被大家共同认可的第三方信用体系。
人工智能的长期发展方向
目前,深度学习技术大部分是基于“监督学习”(Supervised Learning,SL)。监督学习需要大量的标签,大多数都是短期的时间关系或是快照。在此之上,需要建立的是基于采样版本上的强化学习(Reinforced Learning,RL)。
强化学习的动作序列称之为“Roll-out”,成功“Roll-out”的动作将会被备份,从而未来这个序列出现几率更大。到目前为止,大多数的成功案例都是使用了模拟装置,比如AlphaGo。有了模拟装置,就可以进行几百万次甚至几十亿次的“Roll-out”。
现在加州大学伯克利分校实时智能安全执行实验室(RISELab)已开发出了一种新的分布式框架叫Ray,由Michael I. Jordan、Ion Stoica、Philipp Moritz和Robert Nishihara研发而成。有兴趣的朋友可以看一看该项目在Github上的初期测试版代码(https://github.com/ray-project/ray)。
Ray是建立在Spark的基础上,并是一个有望取代Spark的实时机器学习框架。Ray框架目前正在开发中,并召集全世界的资源共同开发,中国也有个十人的团队参与其中,蚂蚁金服已经开始参与。
在Ray研发团队的论文中,指出了新兴AI应用的系统需求:支持(a)异质、并行计算,(b)动态任务图,(c)高吞吐量和低延迟的调度,以及(d)透明的容错性。
下一代的AI应用将具备持续和环境进行交互以及在交互中学习的能力。
Ray最大的应用将体现在RL领域,而不是监督式学习系统。Ray的应用包括训练神经网络 、超参数搜索、Python、Streaming等。
比起现有的框架系统如Spark和消息传递接口(MPI):Ray避免了Spark使用的“块同步”范例,改用了速度更快的范例。
论文中指出Ray的性能目标:我们的实验展示了亚毫秒级的远程任务延迟,以及每秒可扩展至超过180万任务的线性吞吐量。实验证明Ray可以加速难度高的基准测试,而且是新兴强化学习应用和算法的自然、高效选择。
我给大家展示一下Ray如何帮助数字机器人学会跑步。Ray用60个 m4.16xlarge节点可以达到每秒100万任务的吞吐量,在1分钟内处理1亿任务。
尽管Ray还处于初期开发阶段,但它的出现将大力推动实际数据、快速采取行动以应对不断变化的环境的应用开发,比如机器人控制、自动驾驶或某些新兴形式的人工智能辅助医疗应用,这种框架的前景不容小觑。
人工智能正在改变我们的世界。然而在这一领域,我们仍处于非常初级的阶段,距离建立一个完善的人工智能体系还有很长的一段路要走。我们正面临着诸多技术、经济、社会、法律秩序的多重难题和挑战,必须着手解决这些问题,再花上几十年的努力才会有较大进展。
▶GASA经典课丨小米刘德:竞争与进化——基于时代大图景下的公司与产品▶GASA经典课丨吴国盛教授:中国人对科学的3大误解 ▶GASA经典课丨张双南:真正的断臂维纳斯,一点都不美
”
*高山大学(GASA)2018级招生已经启动,每年仅录取30人,一同探索科学,寻找真理。点击下方阅读原文或扫描二维码,加入高山大学,紧跟科学步伐,追随科学之光。