区块链将彻底改变人工智能 | 熵、区块链和人工智能
来源:云头条(ID:YunTouTiao),云头条编译,作者:Trent McConaghy,人工智能研究人员兼区块链工程师,BigchainDB、IPDB、ascribe和Solido等公司的创始人兼首席技术官。
近些年来,人工智能(AI)领域的研究人员终于攻克了几十年来为之努力的诸多问题,从围棋到人类级别的语音识别。一个关键的部分是收集并学习海量数据的能力,这方面的错误率已迈过了成功线。
简而言之,大数据已彻底改变了人工智能,达到了几乎难以置信的地步。
区块链技术也有望以自己独特的方式,彻底改变人工智能。区块链在人工智能的一些应用很普通,比如人工智能模型方面的审计跟踪记录(audit trail)。一些应用似乎不合常理,比如能拥有自己的人工智能――即人工智能去中心化(DAO)。所有这些都是机会。本文将探究这些应用。
区块链是蓝海数据库
在我们探讨种种应用之前,不妨先看一下区块链相比MongDB等传统的大数据分布式数据库有何不同。
我们可以把区块链看成是“蓝海”数据库:它们避开了“血惺的红海”:好多鲨鱼在现有的市场争夺地盘,而是选择进入了市场一片广阔、没有竞争的蓝海。著名的蓝海例子就是视频游戏机Wii(牺牲了一点原始性能,但是拥有新的交互模式),或者是黄尾袋鼠(Yellow Tail)葡萄酒(忽视了花里胡哨的规格,让葡萄酒更贴近爱喝啤酒的人)。
按照传统数据库的标准来看,比特币等传统的区块链很糟糕:吞吐量低、容量低、延迟高、队列支持差劲,不一而足。但是按照蓝海思维来看,这没什么,因为区块链引入了三个新的特点:去中心化/共享式控制、不可改变/审计跟踪记录,以及原生资产/交换中心。受比特币的启发,人们很高兴忽视以传统数据库为中心的不足,因为这些新的好处有望以全新的方式影响众多行业和整个社会。
这三个新的“区块链”数据库特点对人工智能应用而言也可能令人关注。但是大多数现实世界的人工智能处理大量的数据,比如训练庞大数据集,或高吞吐量数据流处理。所以,区块链要想应用于人工智能,就需要拥有大数据可扩展性和队列的区块链技术。像BigchainDB这些新兴技术及其公共网络IPDB正好具有这种功能。你不再需要为了获得区块链的好处而牺牲传统大数据数据库的优点。
面向人工智能的区块链概述
拥有可扩展的区块链技术发掘了它应用于人工智能的潜力。现在不妨探究一下那些应用是哪些,先从区块链的三个好处说起。
区块链的这些好处给人工智能的从业人员带来了下列机会:
去中心化/共享式控制鼓励数据共享:
(1)带来更多的数据,因而带来更好的模型。
(2)带来全新的数据,因而带来全新的模型。
(3)便于对人工智能训练数据和模型实行共享式控制。
不可改变/审计跟踪记录:
(4)带来训练测试数据和模型方面的数据溯源(provenance),从而改善数据和模型的可信度。数据也想要信誉。
原生资产/交换中心
(5)导致训练/训练数据和模型成为知识产权(IP)资产,因而导致去中心化的数据和模型交换中心。它还能更有效地控制上游对你数据的使用。
还有另一个机会:
(6)人工智能连同区块链为人工智能去中心化自治组织(DAO)发掘了机会。这种人工智能可积累财富,是你无法关闭的。它们是增强版的软件即服务(SaaS)。
区块链几乎势必能以更多的方式帮助人工智能。人工智能同样能以许多方式帮助区块链,比如挖掘区块链数据(比如黑市交易网站Silk Road调查)。不过那是另一番讨论:)
许多这些机会关乎人工智能与数据之间的特殊关系。所以不妨先来探讨这方面。之后,我们将更深入详细地探讨区块链在人工智能领域的应用。
人工智能和数据
这里我要描述有多少现代人工智能在充分利用海量数据以获得出色的结果。(并非总是这样子,但是这是值得描述的一个共同话题。)
人工智能和数据的“远古”历史
我在上世纪90年代开始从事人工智能研究时,一种典型的方法是:
1. 这是你的固定数据集(通常很小)。
2. 设计一种算法来提高性能,比如说为降低曲线下面积(AUC)的支持向量机分类器设计一种新的内核。
3. 在会议或杂志上发表这种算法。相对提高10%是“最小的可发表单位”,只要你的算法本身够花哨的话。如果你能提高2倍至10倍,那么你看到的是最佳论文,如果这种算法确实很花哨,更是如此。
如果这听起来太学术化了,那是由于它本身很学术化。大多数人工智能工作仍囿于学术圈,不过也有实际的应用。在我看来,在人工智能的许多分支领域都是这样,包括神经网络、模糊系统(还记得这种系统吗?)、进化计算,甚至有点不太像人工智能的技术,比如非线性编程或凸优化(convex optimization)。
在我发表的第一篇论文(1997年)中,我自豪地展示了刚发明的算法相比最先进的神经网络、遗传编程及更多技术如何拥有最佳结果,只可惜使用很小的固定数据集。
迈向现代人工智能和数据
但是世界发生了转变。2001年,微软的两位研究人员米歇尔·班科(Michele Banko)和埃里克·布里尔(Eric Brill)发表了一篇结果很抢眼的论文。首先,他们描述了所研究的自然语言处理领域的大多数工作训练的单词数量不到100万个――这是很小的数据集。对于像朴素贝叶斯(Naive Bayes)和感知器(Perceptron)这些老式/无趣的/最不花哨的算法而言,错误率高达25%,而高级的、比较新的、基于记忆的算法其错误率为19%。那是下图最左边上的四个数据点。
来源:班科和布里尔,2001年
迄今为止,没什么惊喜。但是后来,班科和布里尔展示了令人瞩目的成果:随着你添加更多的数据――添加的数据不是只是多一点,而是多出几个数量级,并且保持算法一样,那么错误率不断下降,而且是大幅下降。等到数据集多出三个数量级,错误率不到5%。而在许多领域,18%与5%可谓天差地别,因为只有后者对实际应用而言才是足够好。
此外,表现最好的性能也是最简单的;最糟糕的算法也是最花哨的。上世纪50年代无趣老式的感知器击败了最先进的技术。
现代人工智能和数据
从事这方面研究的不止班科和布里尔他俩。比如在2007年,谷歌的几位研究人员阿朗·哈勒维(Alon Halevy)和、费尔南多·诺维格(Fernando Norvig)和谷歌研究部门主管彼得·佩雷拉(Peter Pereira)联合发表了一篇论文,表明在人工智能的许多领域,数据有可能“异常有效”。
哈勒维、诺维格和佩雷拉所写论文的屏幕截图,2007年
这好比往人工智能领域投放了一颗原子弹。
“关键在于数据,就是这么简单。”
大家在竞相收集多得多的数据。收集海量的好数据要花相当大的精力。如果你拥有资源,就能获得数据。有时,你甚至会牢牢保管数据。在这个新世界下,数据就是护城河,而人工智能算法就是大宗商品。由于这些原因,获得“更多的数据”是谷歌、Facebook及其他许多公司的一项关键要务。
“更多的数据,就是更多的钱。”――人人如此
一旦你明白了这些情况,一些公司的具体动作就不难解释。谷歌收购卫星图像公司并不仅仅是由于它喜欢太空;谷歌还免费派送TensorFlow。
深度学习正好符合这种背景:它是由于为了搞清楚:如果拥有足够庞大的数据集,如何开始捕获交互和潜在变量。值得关注的是,如果拥有同样的庞大数据集,来自80年代的反向传播神经网络有时与最新技术有得一拼。请参阅此处(https://medium.com/r/?url=https%3A%2F%2Farxiv.org%2Fabs%2F1003.0358)。关键在于数据,就是这么简单。
我自己作为人工智能研究人员逐渐成长起来的经历很相似。我在着手处理实际问题时,学会如何尽量谦逊,摈弃“很酷的”算法,只构建解决手头问题所需的算法,并学会了爱上数据和规模。我在开第一家公司:ADA(1998年–2004年)时就是这么做的,当时我们由自动化创新设计转为“无趣”的参数优化;捎带说一下,由于我们的用户要求我们将变量从10个增加到100个,这很快变得好玩起来。我在开第二家公司Solido(2004年至今)时也是这么做的,我们从比较花哨的建模方法转为像FFX这些超级简单但极具扩展性的机器学习算法;我们的用户要求我们从100个变量增加至100000个,蒙特卡洛样本从1亿个增加到10万亿个(有效样本)后,这再次变得饶有趣味。连我第三家也是目前这家公司的产品BigchainDB也是因需要规模而问世的(2013年至今)。要关注功能,要关注规模。
机会1:数据共享→ 更好的模型
简而言之:去中心化/共享式控制鼓励数据共享,这反过来带来了更好的模型,进而带来了更高的利润/更低的成本等好处。不妨详述一下。
左图(筒仓):Doc Searls,CC-BY-2.0。右图(筒仓):Gnangarra,CC-BY 3.0
人工智能爱数据。数据越多,模型越完善。不过,数据常常是筒仓式(即孤岛式)的,在数据好比护城河的这个新环境下更是如此。
但是区块链鼓励在传统的孤岛之间共享数据,如果有足够多前期好处的话。区块链的去中心化性质鼓励数据共享:如果没有哪个单一实体控制存储有数据的基础设施,共享面临的阻力比较小。我在后面会介绍更多的好处。
这种数据共享可能会出现在企业里面(比如在区域办事处之间)、生态系统里面(比如“联合”数据库),或者整个星球(比如共享式全球数据库,又叫公共区块链)。下面介绍了每一种情况的例子:
在企业里面:来自不同区域办事处的数据使用区块链技术合并起来,因为它降低了企业审计自己数据的成本,还降低了与审计人员共享该数据的成本。若有了这些新数据,企业就能构建这种人工智能模型:比如说能够比只能在区域办事处层面构建的之前模型更准确地预测客户流失率。相当于每个区域办事处的“数据集市”?
在生态系统里面:竞争对手(比如说银行或唱片公司)传统上根本不会共享其数据。但是不难表明,如果拥有来自几家银行的合并数据,一家银行可以构建更完善的模型,用于信用卡欺诈预防。或者对一条供应链上通过区块链共享数据的诸多企业来说,如何可以更准确地查明供应链中之后出现的故障的根源,针对来自供应链上游的数据使用人工智能。比如说,那一种大肠杆菌到底是从哪里冒出来的?
整个星球(公共区块链数据库):不妨考虑在不同的生态系统之间共享数据(比如能源使用方面的数据+汽车零部件供应链数据),或者每个个体参与全球规模的生态系统(比如Web)。来自更多来源的更多数据可改进模型。比如说,中国一些工厂的能源使用激增可与出现在市面上的欺诈性汽车零部件关联起来。总的来说,我们在聚合数据、清洁数据,重新包装并出售数据的公司身上看到这方面的迹象,从老式的彭博终端要机到成十上百家通过http API销售数据的初创公司。我会在后面那个点进一步探究这方面。
敌人共享数据为人工智能馈送数据。2016年很好玩!
机会2:数据共享→ 全新的模型
在一些情况下,来自孤岛的数据合并后,你得到的不仅仅是更好的数据集,还能得到全新的模型,由此带来全新的模型,你可以从该新模型获得新的洞察力,并获得新的商业应用。也就是说,你可以做之前做不了的事情。
下面是识别钻石欺诈的一个例子。如果你是一家提供钻石保险的银行,就很想构建一个可识别钻石是否冒牌货的分类器。全球有四家信誉卓著的钻石认证实验室(当然取决于你问的是谁)。如果你只能获得其中一家实验室的钻石数据,那么对另外三家实验室的数据一无所知,你的分类器就很可能将通过那三家实验室鉴定的钻石标为欺诈性(见下图,左边)。你的误报率会让你的系统毫无用处。
不妨改而考虑如果区块链促成所有四家实验室共享数据,那会怎样。你将拥有所有合法的数据,你可以用来构建一个分类器(见下图,右边)。任何送来的钻石(比如eBay上在卖的钻石)都将通过该系统的审查,与这个所有数据的单类分类器(one-class classifier)进行比对。分类器可检测真正的冒牌货,避免误报,因而降低了欺诈率,从而惠及保险提供商和认证实验室。这可能只是被称查询,即不需要人工智能。但是使用人工智能进一步改进了它,比如说根据颜色、克拉等方面预测价格,然后使用“价格与预计价值多接近”,作为主欺诈分类器的输入源。
最左边的图(筒仓):Doc Searls,CC-BY-2.0。最右边的图(筒仓):Gnangarra,CC-BY 3.0。
这里是第二个例子。去中心化系统中一种合适的标记奖励方法可激励数据集加以标记(而之前无法加以标记),或者以一种经济高效的方式加以标记。这基本上就是去中心化的亚马逊Mechanical Turk(https://medium.com/r/?url=https%3A%2F%2Fwww.mturk.com)。有了新的标记,我们获得了新的数据集;我们训练新的数据集,以获得新的模型。
这里是第三个例子。标记奖励方法可以导致数据由物联网设备直接输入。设备控制数据,可以交换数据以获取资产,比如能源。这种新数据再次会带来新模型,这后两个例子要感谢迪米·德·扬赫(Dimi de Jonghe)。
囤积还是共享?两个相反的动机在这里形成对峙。一个是囤积数据――“数据是新的护城河”观点;另一个是共享数据,以获得更好/新的模型。要共享,势必要有一个足够明显的驱动因素压倒“护城河”带来的好处。技术驱动因素是可获得更好的模型或新的模型,但是这个驱动因素势必会带来业务好处。可能具有的好处包括:减少欺诈,节省钻石或供应链方面的保险费;可以在Mechanical Turk中捎带赚钱;数据/模型交换中心;对某个大玩家采取集体性行动,比如唱片公司可以集体起诉苹果iTune,好处不止这些;这需要创新的业务设计。
中心化还是去中心化?即使一些企业组织决定共享,它们还是可以在不需要区块链技术的情况下共享。比如说,它们可能仅仅要把数据聚合到S3实例中,并在它们本身之间公开API。但是在一些情况下,去中心化带来了新的好处。先是名副其实地共享基础设施,那样共享联合体中的一家企业组织无法独自控制所有的“共享数据”。(这在几年前是一块主要的绊脚石,那时唱片公司试图联合起来,建一个通用的注册中心)。另一个好处是,更容易把数据和模型变成资产,然后可以授权外面的人使用,以获得利润。我在下面对此予以了详述。感谢亚当·德雷克(Adam Drake)对囤积与共享这种对峙予以特别关注。
正如讨论的那样,数据和模型共享会出现在三个层面:企业里面(对跨国公司而言,其难度超乎想象);生态系统或联合体里面;或者整个星球(这相当于成了一家公用事业公司)。不妨更深入地探讨全球规模的共享。
机会2:新的全球规模的数据→ 新的全球规模的洞察力
全球规模的数据共享可能最值得关注。不妨进一步探讨这个方面。
IPDB是全球规模的结构化数据,而不是零星的数据。万维网(WWW)好比是互联网上面的文件系统;IPDB是其对应的数据库。(我认为,我们没有更早看到这方面的更多工作,是由于从升级文件系统的角度来看,语义Web试图抵达成功的彼岸。但是通过“升级”文件系统来构建数据库却相当难!)
那么,如果我们使用像IPDB这样的全球规模的共享数据库服务来共享数据,会是什么样子?我们有几个参考点。
第一个参考点是,已经有一个产值达到十亿美元的市场(最近),许多公司精选并重新包装公共数据,让数据更容易使用,从用于天气或网络时间的简单API,到股票和货币等金融数据,不一而足。设想一下:如果所有这些数据可通过单一数据库,以一种类似的结构化方式(即使它只是通过API)来访问,会是怎样子。这相当于1000个彭博。不必担心咽喉被某一个实体牢牢扼住。
第二个参考点来自区块链,体现于这个概念:对外部数据进行oraclizing处理,通过区块链,让外部数据易于使用。但是我们可以对所有数据进行oraclize。去中心化的彭博就是个开始。
总的来说,我们为众多数据库和数据源获得了全新的规模。因此,我们拥有全新的数据。全球规模的结构化数据。我们可以由此构建全新的模型,能够在输入和输出之间建立之前无法建立起来的关系。借助模型,我们可以从模型获得全新的洞察力。
我希望可以在这里讲得更具体些,但是眼下,这是个新领域,我想不出任何例子。不过它们会出现的!
还有机器人这个角度。我们一直假设:区块链API的主要使用者将是人类。但是如果是机器,又会怎样?现代DNS的开发者大卫·霍尔兹曼(David Holtzman)最近表示“IPDB是人工智能的吊桶。”细细分析,那是由于IPDB支持和鼓励全球规模的数据共享,人工智能确实爱吃数据。
图片来源:伊莎贝拉·布兰切梅因(Isabelle Blanchemain),CC-BY 2.0
机会3:针对数据和模型的审计跟踪记录,获得更可靠的预测
这种应用面对这种现实:如果你训练垃圾数据,就会得到垃圾模型。对测试数据来说也是如此。正可谓,垃圾进垃圾出。
垃圾可能来自恶意的家伙/可能篡改数据的错综复杂的故障。想一想大众公司尾气排放丑闻。垃圾还可能来自并非恶意的家伙/崩溃故障,比如来自有缺陷的物联网传感器、出故障的数据源,或者导致比特翻转的环境辐射(没有很好的纠错机制)。
你怎么知道X/y训练数据就没有缺陷?实时使用怎么样,针对实时输入数据运行模型?模型预测(yhat)怎么样?简而言之:进出模型的数据是什么情况?数据也想要信誉。
图片来源(蚀刻图案):艾拉卡里·查姆伯里泽(Irakli Chumburidze),CC-BY-SA 2.0
区块链技术可助一臂之力。方法如下。在构建模型以及在实际现场运行模型的过程的每一步,该数据的创建者只要给该模型标以时间戳,并添加到区块链数据库,这包括对它进行数字签名处理,声称“目前我相信该数据/模型是好的。”不妨进一步阐述这个:
构建模型方面的数据溯源:
1. 传感器数据(包括物联网)方面的数据溯源。你信任你的物联网传感器告诉你的数据吗?
2. 训练输入/输出(X/y)数据方面的数据溯源。
3. 构建自己的模型方面的数据溯源,如果你喜欢,可通过可信的执行基础设施或类似TrueBit、复核计算的市场来进行。至少,要有证据表明使用构建模型的收敛曲线(比如nmse vs. epoch)来构建模型。
4. 模型本身方面的数据溯源。
测试/实际现场方面的数据溯源:
1. 测试输入(X)数据方面的数据溯源。
2. 模型模拟方面的数据溯源。可信执行和TrueBit等。
3. 测试输出(yhat)数据方面的数据溯源。
我们在构建模型和运用模型方面都获得了数据溯源。结果是获得了更可信的人工智能训练数据和模型。
好处包括:
可以在所有层面,发现数据供应链(从最广泛的意义上说)存在的泄露现象。比如说,你可以查明某传感器是否在“撒谎”。
你能以一种可通过密码来验证的方式,了解数据和模型的情况。
你可以发现数据供应链存在的泄露现象。那样一来,如果错误出现,我们就能极其清楚地知道错误为何出现、出现在哪里。你可以把它看成是银行界的对账,不过核对的对象是人工智能模型。
数据得到了信誉,因为多双眼可检查同一数据源,甚至坚持自己的主张,表明它们认为数据有多有效。而与数据一样,模型也得到了信誉。
机会4:训练数据和模型的共享式全球注册中心
人工智能界的一个特别的挑战是:数据集在哪里?传统上,它们分散在互联网上,不过有一些列表列出了主要的数据库。当然,许多数据集是专有的,就因为它们具有价值。还记得数据护城河吗?
但是,如果我们有一个全球数据库,易于管理另一个数据集或数据源(免费或收费),会怎样?这可能包括来自众多机器学习竞赛的广泛的Kaggle数据集、斯坦福大学的ImageNetdataset及其他无数的数据集。
这正是IPDB所做的。人们可以提交数据集,并使用别人的数据。数据本身会放在IPFS之类的去中心化文件系统;元数据(以及数据指针本身)将放在IPDB中。我们会获得一个人工智能数据集的全球共同体。这有助于实现开放数据社区的梦想。
我们不该止步于数据集;我们还可以加入用那些数据集构建的模型。获取和运行别人的模型,提交你自己的模型,这应该很容易。全球数据库会为此提供极大的便利。我们能获得由全球拥有的模型。
机会5:数据和模型是IP资产→数据和模型交换中心
不妨深入叙述运用由训练数据和模型组成的“共享式全球注册中心”。数据和模型可能是共同体的一部分。但是它们也可以买卖!
数据和人工智能模型可以作为一种知识产权(IP)资产来使用,它们受版权法的保护。这意味着:
如果你构建了数据或模型,就能拥有版权。这是指你想不想用它来开展任何商业活动。
如果你拥有数据或模型的版权,那么就可以授权别人使用。比如说,你可以授权别人使用你的数据来构建自己的模型。或者,你可以授权别人把你的模型添加到其移动应用程序中。也可以层层授权:你授权别人使用,别人授权他人使用。当然,你也可以在获得授权后使用别人的数据或模型。
我认为你可以拥有人工智能模型的版权,并授权别人使用,这很棒。数据已经被认为是一个可能很巨大的市场;模型会亦步亦趋。
在区块链技术问世之前,就可以拥有数据和模型的版权,并授权别人使用。一段时间以来,相关法律为此提供了依据。但是区块链技术让它变得更好,原因是:
就你拥有的版权而言,它提供了一个防止篡改的全球公共注册中心;你拥有的版权由你以数字方法/加密方法来签名。这个注册中心还包括数据和模型。
就你的授权交易而言,它再次提供了一个防止篡改的全球公共注册中心。这回,它不仅仅是数字签名;而是说,你甚至无法转让版权,除非拥有私钥。版权转让作为类似区块链的资产转让来进行。
我很注重区块链方面的IP,我早在2013年就在开展ascribe方面的工作,帮助数字艺术家拿到应有的报酬。最初的方法在授权的规模和灵活性方面有问题。正如我最近撰写的那样,现在,这些问题已得到了解决。让这成为可能的技术包括如下:
Coala IP是一种灵活的、对区块链友好的IP协议。
IPDB(以及BigchainDB)是一种共享式公共区块链数据库,存储版权信息及其他元数据,规模堪比Web。
IPFS以及Storj或FileCoin之类的物理存储是一种去中心化文件系统,可以存储庞大的数据和模型blob。
因此,我们得到了作为IP资产的数据和模型。
为了说明,我以ascribe为例,我拥有多年前构建的一个人工智能模型的版权。这个人工智能模型是决策树(CART),用于决定使用哪种模拟电路拓扑结构。这里,它是一种采用密码的防伪证明书(COA)。如果你想获得我的授权以便使用,只管发邮件给我:)
一旦我们有了数据和模型这种资产,可以开始为那些资产建立交换中心。
交换中心应该是中心化的,就像DatastreamX已经为数据建立的机制那样。但到目前为止,它们其实只能使用公开可用的数据源,因为许多公司认为共享带来的风险高于回报。
有了这样一种去中心化的交换中心,我们会看到真正开放的数据市场出现。这有望实现数据和人工智能人士长期以来怀有的梦想。
当然了,我们在那些交换中心上会有基于人工智能的算法交易:人工智能算法购买人工智能模型。人工智能交易算法甚至可能购买算法交易人工智能模型,然后更新自己!
机会5:控制你数据和模型的上游
这承接前一种应用。
如果你注册使用Facebook,也就把它对你输入其系统的数据可以做什么、不可以做什么方面很具体的权限授予了Facebook。它有权使用你的个人数据。
当音乐家与唱片公司签约后,他们将非常具体的权限授予了这家唱片公司,比如编辑音乐、发行音乐等。(通常唱片公司试图获得所有版权,这显然太过了,不过那是题外话!)
对人工智能数据和人工智能模型来说可能一样。如果你构建的数据可用于构建模型,当你构建好模型,就可以预先指定许可证,限制上游的别人如何使用它们。
区块链技术为所有使用场合简化了这方面,从个人数据到音乐,从人工智能数据到人工智能模型,不一而足。在区块链数据库中,你把权限当成资产:比如说,读取权限或查看某一部分数据或模型的权限。作为权限拥有者,你可以把作为资产的这些权限转让给系统中的别人,就像转让比特币那样:创建转让交易,并用你的私钥来签名。这方面感谢迪米特里·德·扬赫(Dimitri de Jonghe)。
机会6:人工智能DAO —能积累财富,你无法关闭的人工智能
这个很出色。人工智能DAO是拥有自己,你无法关闭的人工智能。我之前在三篇文章中探讨了人工智能DAO;我会在下面概述它到底怎样。我鼓励有兴趣的读者不妨深入探究。
到目前为止,我们谈论了作为去中心化数据库的区块链。但是我们也可以实现去中心化处理:基本上,存储状态机的状态。拥有这方面的一点基础设施让它更容易实现,而这就是以太坊(Ethereum)等“智能合约”技术的精髓。
我们之前也实现了流程去中心化,表现为计算机病毒。没有哪一个实体拥有或控制病毒,你无法关闭它们。但是它们有限制的――它们基本上试图破坏你的电脑,就是那样。
但是如果你与这个流程有更丰富的交互,该流程本身可以独立积累财富,那会怎样?现在通过更好的API,这成为了可能,比如智能合约语言,以及公共区块链之类的去中心化价值存储系统。
去中心化自治组织(DAO)这种流程体现了这些特点。代码可以拥有数据。
下面是几个应用:
艺术DAO,能创作自己的数字艺术,并出售。推广开来,它可以创作3D设计、音乐、视频、甚至整部电影。
自动驾驶、自己拥有的汽车。推广开来,适用于人工智能任何之前的应用,但现在人工智能“拥有自己”。未来,人类什么都不拥有,我们只是从人工智能DAO租用服务。
任何DAO应用程序,人工智能融入其中。
任何SaaS应用程序,有更高的自动化,并且去中心化。
小结
本文描述了区块链技术如何帮助人工智能,结合了我个人在人工智能和区块链研究方面的经验。这对组合威力强大!区块链技术(尤其是全球规模的技术)可帮助实现人工智能和数据人士的几个长期以来的梦想,并且带来几个机会。
熵、区块链和人工智能
来源:未央网
作者:韩锋
顾学雍教授在清华课程《超越学科的认知基础》中说:“一个范式成功的标志是拥有了自洽的语言系统,包括ontology, structure, orientation.”。
正是在这一理论原则指引下,顾学雍教授向作者韩锋推荐了《区块链新经济蓝图》(已由本文作者主编并加导读出版)作者Melanie Swan撰写的一篇论文【1】,是讲人工智能和区块链。单纯看这个题目,我很难想象区块链和人工智能有什么关系?
读Melanie Swan这篇文章几遍后,多少觉得从经济学角度来讲有些道理,但是我很困惑作者并没能对“人工智能”这个感念有明确的定义。后来我问了世界级的人工智能专家吴韧,他的回答居然也是:“没有权威的说法。”
我才明白了:人工智能学科的范式还在形成过程中。
根据顾学雍教授的说法,一个笵式,成熟的标志是自洽的语言系统。大家不要小看这个定义,其实非常多的学科没有达到这个标准。而真正的最高水平的人在努力达到这个标准,而且一旦达到,将面临巨大的突破。其实回想一下,爱因斯坦《相对论的意义》,这本书写得太好,其中的很多智慧都有很震撼的感觉。说穿了,牛顿力学到爱因斯坦的时候发展了三百年了,关于时间和空间实际上没有自洽的语言系统,是说不清楚的。实际上人类的思维很懒惰,大部分时候关于时间空间是什么,自己并不清楚。如果让一个人下定义,很大可能会发现那人张口结舌,不知道怎么说。爱因斯坦无外乎就是把这个概念,用他认为合理的语言自洽地描绘出来。描述完发现,如果站在光速不变的原理下,就一定有一个新的自洽语言的系统:那就是相对论。相对论就是超越牛顿力学学科的利用电磁学为其建立了一套自洽的语言系统。
现在我们明白顾学雍教授为什么一定要在清华开设这门《超越学科认知基础》的课程,因为很多学科要建立一个自洽的语言系统,是需要超越学科的!
现在我们超越学科的来看一下“人工智能”和“区块链”。
上周在清华我们遇到了一位美国的访问学者,Steven Young。我问他什么是人工智能,他的回答是:”三十年人类如果了解大脑以后,我们再回答什么是智能吧!”他的话让我觉得很具有代表性,觉得现在不该定义,理由就是我们现在对大脑没有足够了解。我们知道人类对自己大脑的研究,进展极其缓慢。相应的很奇怪的是,人工智能在飞速发展。所以大家都在等着,要等对大脑有足够了解以后才能定义人工智能。
我们认为这实际上是一个巨大的误区:先入为主认为只有生物的大脑才能产生智能,而其他机器计算都是大脑的低劣模仿者!但实际上,我们看了费曼的讲量子计算的那本书讲的麦克斯韦妖【2】以后,得到了巨大的启发,事实并非如此!
为了能理解费曼的思想,我们首先来阐述一下什么是 “熵”?
“熵”为什么是一个成熟的语言系统?上节课我们问大家什么是熵?大家基本上都能把意思说出来,代表系统混乱的程度。大家都不是来自物理系,但是基本上在语言概念上没有错,这就说明熵的语言系统已经很成熟。熵其实是一个很抽象的概念。作者在大学二年级的时候,抱着一本伯克利编的《统计物理学》,学了整整一学期。那本书从物理统计概念和实验的角度一点点剥丝抽茧讲清楚了熵是什么。
作者曾经和曾蓓聊过,她是清华高研院的高材生,曾在MIT读博士,现在在加拿大当教授。我们在讨论问题的时候,是她脱口而出告诉我,熵是是系统无知的度量。作者关于熵也有自己的语言,好多年前,当时一位UBC的朋友请求给她辅导物理化学。结果很快就碰到了熵这个概念,令作者很头疼。因为这位朋友不是物理系的。
只好用比较通俗的语言讲:熵是系统能量耗散均分到最大自由度的数量。作者为了让她懂,讲了一个故事:本来,你从银行取了一万块钱,相当于能量。结果你不小心摔了一跤,然后一阵风把一万块钱吹到了街上。而正好街上的一百人就把你的钱一张一百的捡走了,你也只能去报警。而警察也几乎没有可能把你的钱找回来。这说明,一万块钱的”能量”分散到一百人手里,若想自然逆变化回来,几乎不可能,这就是熵增大原理。
所以,熵是什么标度?你这一万块钱分散的标度。如果只分散到一两个人,那熵很小,系统的无知程度也小,那你找回来可能大。但是如果你这一万块钱分散到的人越多,熵越大,你找回的可能越小。所以能量分散到原子的自由度的数量,这是用熵来标度的。
后来作者怕讲错,仔细一想,这也是有根据的。你们学过热力学,知道这个公式么?
热力学系统里熵的变化等于它吸收或者放出热量Q除以温度T。这是热力学的一个著名的公式。下方的分母是温度,温度的物理含义是什么?代表平均分子动能,就是均分到每个分子上的动能(能量)。所以热量除以温度,就是系统的能量(对应你从银行取出的一万块钱)被多少原子均分了,熵正好正比于系统中原子的自由度。这就是你的钱丢了,被均分了。
最后给一点物理专业的回答,什么是熵?熵正比于系统可到达量子组态的对数。
前面的k是玻尔兹曼常数, 是系统量子组态数。这个公式就比较抽象了,但是后面我们会用到,所以给大家介绍下。总而言之,“熵”这个语言体系是自洽的,说法可以更换,所以可以超越学科的用“熵”的语言描述一下后面的”智能”。
我们就是要用这么一个成熟的语言体系解释下面我要讲的。什么是麦克斯韦妖。本来我在给顾老师讲什么是麦克斯韦妖,结果顾老师给我推荐,讲这个最好的是费曼的那本讲量子计算的书。后来我回过去看那本书,费曼讲得更好。
给大家讲下什么是麦克斯韦妖。大家都知道熵增大原理,就是热力学第二定律。但是搞电磁学的麦克斯韦自己造了一个概念,给已有的热力学语言体系带来了很大的危机。他就提出了一个小妖(Maxwell’s demon,见图1)。
图1【3】
本来热力学系统达到平衡,两边的温度是一样的,但是中间有个隔断,这个妖有一个控制隔断的开关,麦克斯韦妖让超过某个温度以上的原子可以向右放过,而低于这个速度的原子可以向左放过。而在它掌握下的开关,过一会儿会发生什么现象?动能高的原子都会跑到右边,动能低的就会到左边。
我们刚才说了,温度代表系统中原子的平均动能,如果这个妖也算是封闭体系的一部分,那岂不是系统自然的就让热量从温度低的流向温度高的?系统等于不需要外加能量的就成了电冰箱,岂不是把热力学第二定律破坏了?因为根据热力学第二定律封闭系统最终一定要熵最大,这个体系内的温度永远要均衡,能量在各原子自由度上的分布一定要均匀。
别看这么简单一个理想实验,人类探索了一百年。
最终解决这个问题的人是Charles Bennett【6】,他是量子计算机的奠基人之一,来自IBM计算机实验室。我查了他专门讨论这个问题的原始文献。他的这句话很经典:”From its beginning, the history of the Maxwell’s Demon problem has involved discussions of the role of the Demon’s intelligence, and indeed of how and whether one ought to characterize an “intelligent being” physically.”(从一开始来说,麦克斯韦妖的讨论包含了妖的智能,关键是怎样物理地把这个”智能”表述出来”)【4】
C.Bennet尝试用物理模型讨论智能,这是自图灵机之后的一大突破。我说过,人类的思想禁区,是只有谈到生物大脑,才敢谈论智能。其他的学科似乎没有资格谈智能。在此之前,只有1950年艾伦.图灵发表了他里程碑式的论文《机器能思考吗?》【5】
其实在Bennett之前,就已经有了铺垫,1961年时也是IBM的Landauer 提出了Landauer原理【7】,甚至更早还有1929年匈牙利的Leo Szilard的单分子热机模型【8】,但是都没有彻底讲清楚。Landauer原理就是:”如果需要不可逆的涂消一个比特的不确定性(系统熵减少,或者说产生一个比特信息),最小需要耗散kT ln2的能量(其中k是玻尔兹曼常数,T是温度)。
解释一下(见图2)。
图2
我们考虑一个热力学的盒子,盒子里只有一个分子,把问题最大程度地简化。一开始我不知道分子是在左边还是右边(图2 a)。你可以定义在左边相当于0,在右边相当于1。在完全不知道的情况下,两个比特的未知,对应的熵应该是kln2。系统未知,你不知道是在左边还是右边。你不知道没有关系,我们假设一个活塞,压这个分子的空间(相当于一个麦克斯韦妖的智能去识别一个原子的速度是否高于某个速度值之上)。如果你们懂热力学那就简单了。如果等温地往左边压,这个系统会怎么样?要释放热量,这是热力学第一定律。
我们相当于当了一回麦克斯韦妖,把两比特的信息的不确定性(原子在左边还是右边)压缩到确定性的左边,熵减少kln2(原来系统有左和右两个选择,假设有两个量子态选择,所以熵是kln2,只压缩到左边系统熵就变为kln1=0),释放多少热量?用热力学的方法很快能计算出来,如果周围的热库温度是T的话,就需要耗散这么kTln2多热量(用公式1)。如果你已经明确知道原子在左边了,没有不确定性了,而你就获得了一个比特的信息。
这个模型告诉了我们非常多的信息,第一,什么是麦克斯韦妖的智能?我们认为,因为它能减少熵,能产生信息。第二,Landauer原理也告诉我们,产生一个比特的信息最少需要耗费多少能量?也给出来了,kT·ln2,和系统温度有关。
实际上绝不要小看每个消费者的麦克斯韦妖的作用,成千上万个消费者的购买行为,让这个市场的”基础协议”能给我们带来巨大的繁荣和财富,就比如一百年前的汽车,不外乎牛车上装一发动机方向盘,但是现在的汽车,在市场智能的作用下都快赶上宇宙飞船了。
这样看混沌分形系统也有麦克斯韦妖智能。什么是分形系统?举个最简单的例子,就是康托集。一个线段给你,等分成三部分,挖走中间的部分,然后再把每个小段的中间三分之一挖去,然后再把更小的每段的中间三分之一挖掉,以此类推,不断迭代(见图3)。
图3 康托集
表面上看这些跟智能有些风马牛不相及。可是,我稍微解释一下,这相当于有一个麦克斯韦妖。其实数学上给你一个线段,潜台词的意思就是这些线段上的点每一个出现的概率是一样的。突然挖掉中间三分之一,就跟麦克斯韦妖的熵压缩等同。中间的三分之一概率为0了。然后再次挖掉,再次压缩,相当于执行一个熵减的基础协议。说到这你们认为这能产生智能,多少可能还有些难以理解,我就给你们看下这个图。这叫分型艺术,就是靠我刚才说的基础协议(见图4)。
图4 左边是熵减小的基础协议形成的分形艺术,右边是熵最大,显然左边的图拥有智能的美感。
实际上蜂群给了我们一个分布式麦克斯韦妖的例子。如果把一只蜜蜂和一只熊比较,高下立判,你们肯定会说熊的智能远在蜜蜂之上,因为工蜂只能执行的几个很简单的动作,基本上是反应式的,决不能指望一只小蜜蜂有多高的智能。但是蜜蜂再小,她只要能每一步压缩系统的熵,她就是麦克斯韦妖,一大群蜜蜂,都在执行麦克斯韦妖的协议,会产生什么?(见图5)
图5 左边是熊窝,右边是蜂巢
建筑师们就会说蜂巢是多么的伟大,蜂巢是到现在人类都佩服不已的一种建筑结构,耗费资源最少,和环境最融洽的,也最符合蜂群的组织需求。很多人类的建筑也都在模仿。这就叫群集智慧,分布式麦克斯韦妖的智能。而熊虽然有较高的中心智能,但他筑的巢显然是无法和蜂巢相比的。
再举一个分布式麦克斯韦妖的例子,大家看这个,飞鸟(图6)。
图6 飞鸟的麦克斯韦妖智能系统
大家设想,如果有一个中心智能司令官号召群鸟,可能形成这样吗?基本不可能,这需要极其高级的组织能力和协调能力。每个小鸟的智能都很低,不能假设每只鸟都有飞行员的智力水平。只不过都在执行一个简单的协议,这个协议可能简单到,只要求前后左右的鸟之间的距离保持在某个范围内。就像麦克斯韦妖在康托集中截断线段一样,把距离保持在某个范围之内。就是这么一个简单的协议。但是群集智慧就能体现出很高的协同性,这样一个熵减系统,让人类也叹为观止。
下面讲比特币和区块链为什么具有这个麦克斯韦妖的智能?
一个自称中本聪的人2008年希望发明一种完全不依赖中心智能背书的互联网信用货币系统,首先要解决防止重复支付问题,他发现分布式的让每个网上节点充当麦克斯韦妖是避免造假的最好办法,就是给每笔交易盖时间戳,因为时间是最分布的信息,几乎每个人都可以掌握,所以盖上时间戳的交易记录,再作假就很难了。
事实上,时间戳是由那些被称之为”矿工”的节点去盖的,就是比特币的挖矿。为什么叫矿工呢?因为你也不能假设网上全是雷锋,平时没事干、不工作,只给你盖时间戳。他们需要奖励。然后就规定,每十分钟,大家把全网的合法交易都记账在这个区块(block)里,然后大家竞争,全球每十分钟只有一个合法的记账人。什么是合法的记账人?有以下几个条件:
第一,他这十分钟里记得账必须经过全网核查,没有问题,就是时间戳盖得对,这是大前提,否则没有奖励。
第二,要在全网证明你的算力是全网最高,解SHA256难题,来证明你的算力最高。所以每十分钟只有一个幸运儿能抢到,抢到了记账权就能得到奖励,每十分钟25个比特币。这是一笔很大财富,然后每十分钟一个合法记账的区块又一个一个链接起来,形成一个总账,这就是区块链。
所以,比特币的信用就建立在这些全网记账的矿工上,成千上万的矿工就是比特币世界的麦克斯韦妖,靠他们盖时间戳记账,筛除了可能二次支付的虚假交易,不断降低了整个比特币信用系统的熵,最高把比特币的信用推高到一百亿美金,这已经是一个高度智能的系统了。
这本来是一个极客们玩的东西,是开源的协议,就跟我刚才说的小蜜蜂执行的协议一样,大家共同去挖矿来证明每一笔交易的合法性。不管怎么说,运行了六年没有崩溃,这是人类信用史上的奇迹。完全没有任何中心,只依靠基本协议,盖时间戳和记账,每十分钟挖出一个block,形成一个单链,被称为blockchain区块链。这是一个典型的麦克斯韦妖智能系统。
阿里巴巴副总裁高红冰对我说过:“传统金融的信用建立在钢筋水泥的大厦上,你看银行是不是都得盖大楼?但未来的信用是建立在数据的大厦上”。所以区块链就是靠全网分布记账,自由公证,建立了一个共识数据库,这就是未来信用的数据大厦。
为什么区块链可以产生智能?它让全网的计算机算力都能成为麦克斯韦妖,这在人类历史上是前所未有的。每一台计算机,如果参与了区块链的系统,你都会在帮助它压缩信息,全网将来会有智能协议。智能协议的自动执行是依靠全网公证。
对未来畅想,比如说原来你的出生证、房产证、婚姻证等,需要政府备书,好像政府才能承认。但一旦跨国,你就会遇到无穷的麻烦,包括合同。跨国以后合同可能就不能认了,或者无法执行。整个传统的信用执行系统,成本非常高,法院啊、警察啊,而且还有腐败的可能。这些成本都摊在了我们每个人的头上。但是,如果全网公证帮你证明,几乎无法作假。否则就像我刚才说的改时间,除非我有本事把每个人的手表都改了。
将来大家公证一个事情,比如公证你们的情侣关系,一下子就会成为全网的事实,修改的话几乎是不可能的了,除非到全网的每个矿工那里去改,成本高到无法接受。现在,要想修改的话,我问过比特币的矿工,如果他们的世界想要这样作假,成本大概是几亿人民币(随着时间还在迅速的增加)。成本一旦高了,大家就都不想作假了,因为付出的代价和获得不成比例。
一个新的时代,未来的信用、真假是靠全网公证某个协议,靠全网每台电脑成为麦克斯韦妖来实现的。这在人类历史上打开了巨大的空间。它解决了什么问题?未来构建全球市场,就像北京市金融局霍学文书记说的:“区块链会成为全球金融的基础架构”,是未来的信用大厦。
参考文献:
【1】Melanie Swan,Cognitive Applications of Blockchain Technology, melanieswan.com
【2】R.P.Feynman, Feynman Lectures on Computation, Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA ?1998ISBN:0201386283
【3】孙昌璞\全海涛\董辉,<>究>,<量子力学进展>第五辑,清华大学出版社,2011年11月1日
【4】Charles H. Bennett,Notes on Landauer’s Principle, Reversible Computation, and Maxwell’s Demon;《http://arxiv.org/abs/physics/0210005v2》9 Jan 2003
【5】A.Turing,Can a machine think? the world of mathematics. vol. 4, jr neuman, editor
【6】C.H.Bennett, International Journal of Theoretical Physics, Vol. 21, No. 12, 1982l Journal of Theoretical Physics, Vol. 21, No. 12, 1982
【7】Landauer, R. (1961). “Irreversibility and Heat Generation in the Computing Process,” IBM Journal of Research and Development, 3, 183-19 I
【8】Szilard, L. (1929). Zeitschriftfiir Physik, 53, 840-856.
作者:韩锋,清华大学博士生。曾主持清华大学“基于网络(大数据)的创新人才评价“系统开发;任网络教育实验室副主任;美国甲骨文教育基金会中国项目合伙人;比特币基金会终生会员。
一网打尽系列文章,请回复以下关键词查看: |
创新发展:习近平 | 创新中国 | 创新创业 | 科技体制改革 | 科技创新政策 | 协同创新 | 成果转化 | 新科技革命 | 基础研究 | 产学研 | 供给侧 |
热点专题:军民融合 | 民参军 | 工业4.0 | 商业航天 | 智库 | 国家重点研发计划 | 基金 | 装备采办 | 博士 | 摩尔定律 | 诺贝尔奖 | 国家实验室 | 国防工业 | 十三五 |
预见未来:预见2016 | 预见2020 | 预见2025 | 预见2030 | 预见2035 | 预见2045 | 预见2050 | |
前沿科技:颠覆性技术 | 生物 | 仿生 | 脑科学 | 精准医学 | 基因 | 基因编辑 | 虚拟现实 | 增强现实 | 纳米 | 人工智能 | 机器人 | 3D打印 | 4D打印 | 太赫兹 | 云计算 | 物联网 | 互联网+ | 大数据 | 石墨烯 | 能源 | 电池 | 量子 | 超材料 | 超级计算机 | 卫星 | 北斗 | 智能制造 | 不依赖GPS导航 | 通信 | MIT技术评论 | 航空发动机 | 可穿戴 | 氮化镓 | 隐身 | 半导体 | 脑机接口 |
先进武器:中国武器 | 无人机 | 轰炸机 | 预警机 | 运输机 | 战斗机 | 六代机 | 网络武器 | 激光武器 | 电磁炮 | 高超声速武器 | 反无人机 | 防空反导 | 潜航器 | |
未来战争:未来战争 | 抵消战略 | 水下战 | 网络空间战 | 分布式杀伤 | 无人机蜂群 |
领先国家:俄罗斯 | 英国 | 日本 | 以色列 | 印度 |
前沿机构:战略能力办公室 | DARPA | Gartner | 硅谷 | 谷歌 | 华为 | 俄先期研究基金会 | 军工百强 |
前沿人物:钱学森 | 马斯克 | 凯文凯利 | 任正非 | 马云 |
专家专栏:黄志澄 | 许得君 | 施一公 | 王喜文 | 贺飞 | 李萍 | 刘锋 | 王煜全 | 易本胜 | 李德毅 | 游光荣 | 刘亚威 | 赵文银 | 廖孟豪 |
全文收录:2016文章全收录 | 2015文章全收录 | 2014文章全收录 |
其他主题系列陆续整理中,敬请期待…… |