查看原文
其他

贝叶斯定理:AI不只是个理科生

信创咨询 2022-07-03

The following article is from 量子学派 Author 量子君



1



A.I.的背后


2015年, AlphaGo与人类围棋天才李世石五番棋决战。

第四局,李世石判断黑空中有棋,下出白78挖。
李世石这史诗级的“神之一手”,

体现了人类巅峰的直觉、算力和创造力



五年过去了,李世石这位天才棋手已经退役。

AI却在各个智力领域将人类逼得连连败退。


2016年,DeepMind又打败当时世界排名第一的柯洁。

2017年,Libratus赢得了德州扑克大战。

2018年,Watson肺癌治疗精确度达到90%超过人类医生。

2019年,A.I.又开始了“深度学习”暴风雨式的革命。

…………


也有人说,自然科学领域A.I.可以战胜人类。

但在艺术领域,人工智能它没有办法与人类比肩。


A. I.真的就不懂艺术吗?

即使它写不出《第九交响曲》这样的经典,

难道不能创作出朗朗上口的儿歌?

即使A.I.不能“自由思考主观表达”,

但在艺术上助力人类总可以吧。


A.I.真的不能“主观创造”?

A. I.的思维方式到底是怎样的?

A. I.的智能与人类智力到底有何不同?

 

要回答这些问题,我们先要研究“贝叶斯定理”。

因为它是隐藏在A.I.背后的智能基石





2



“不科学”的贝叶斯公式


历史有许多天才,生前籍籍无名,死后众人崇拜

18世纪数学家托马斯·贝叶斯也是其中一位。


“贝叶斯”定理源于解决“逆向概率”问题时写的论文。

在此之前,人们只会计算“正向概率”。


什么是“正向概率”呢:

假设袋子里面有P只红球,Q只白球,它们除了颜色之外,其它性状完全一样。你伸手进去摸一把,摸到红球的概率是多少是可以推算出来的。


但反过来是否也可以计算,我们可以将它视为“逆向概率

如果我们事先并不知道袋子里面红球白球的比例,而是闭着眼睛摸出一些球,然后根据手中红球和白球的比例,对袋子里红球和白球的比例作出推测。


这个问题就是逆向概率问题

通俗地讲,就像一个迷信星座的HR,如果碰到一个处女座应聘者,HR会推断那个人多半是一个追求完美的人。


这就是说,当你不能准确知悉某个事物本质时,你可以依靠经验去判断其本质属性。


这个研究看起来平淡无奇,名不见经传的贝叶斯也未引人注意。

他写的论文直到他死后的第二年,才由他的一位朋友在1763年发表。

明珠蒙尘,就像画界的梵高,画稿生前无人问津,死后价值连城。


为什么贝叶斯定理200多年来一直被雪藏,不受科学家待见?

因为它与当时的经典统计学相悖,甚至是“不科学”的。


经典统计学中,数字规律来源于随机取样再行计算。

贝叶斯方法则建立在主观判断基础上,你可以先估计一个值,然后根据客观事实不断修正。

从主观猜测出发,这显然不符合科学精神,所以贝叶斯定理为人诟病。


1774年,法国的大数学家拉普拉斯也看到贝叶斯定理的价值。

不过他知道人类的普遍毛病,总是用传统来反对新思想。
他懒得与人争论,直接给出数学表达





3



贝叶斯公式是这样工作的


贝叶斯定理简单优雅、深刻隽永

贝叶斯定理并不好懂,每一个因子背后都藏着深意。

它到底是如何“为人民服务”的呢?


对于贝叶斯定理,参照上面的公式,首先要了解各个概率所对应的事件。


P(A|B)是在B发生的情况下A发生的概率;

也叫作A的后验概率,是在B事件发生之后,对A事件概率的重新评估。


P(A)是A发生的概率;

也叫作A的先验概率,是在B事件发生之前,对A事件概率的一个判断。


P(B|A)是在A发生的情况下B发生的概率。


P(B)是B发生的概率。



而贝叶斯定理的含义也不言而喻:先预估一个“先验概率”,再加入实验结果,看这个实验到底是增强还是削弱了“先验概率”,修正后得到更接近事实的“后验概率”。


就知道你没看懂……那还是举个例子吧!

我们以COVID-19疫情为例。


假设COVID-19的发病率是0.001,即1000人中会有1个人得病。

某病毒研究所研发出了一种试剂,可以用来检验你是否得病。


它的准确率是0.99。即在你确实得病的情况下,它有99%的可能呈现阳性。

它的误报率是0.05,即在你没有得病的情况下,也有5%可能呈现阳性(也就是医学界令人头疼的“假阳性”


可怕的事情来了:如果你的检验结果为阳性,那你确实生病的可能性有多大?

这是一个要命的问题,你一定想知道结果,所以你得好好看以下推论。

假定A事件表示生病,那么P(A)为0.001,这就是“先验概率”。

假定B事件表示阳性,那么要计算P(A|B),即检测后对发病率的估计。


P(B|A)表示生病情况下呈阳性,也就是“真阳性”,P(B|A)为0.99

P(B)是一种全概率,为每一个样本子空间中发生B概率的总和。它有两个子情况,一个是没有误报“真阳性”,一个是误报了“假阳性”,套用全概率公式后:


一种准确率为99%的试剂,你被检测到呈阳性。

你可能被吓得失魂落魄,人生就这样88了吗?
可在贝叶斯的眼中,这种可信度也不过2%
原因无它,5%误报率在医学界可谓非常高了。


别看表面的数据,我们要相信贝叶斯的数学结论。

看似冷酷的贝叶斯定理会温柔的安慰你:

别怕,不到2%的概率





4



贝叶斯公式取得了人类信任


今天的贝叶斯理论已经开始遍布各地。

物理学癌症研究,从生态学心理学

贝叶斯定理几乎像“热力学第二定律”一样放之宇宙皆准了。


物理学家提出量子机器的贝叶斯解释,捍卫弦和多重宇宙理论。

哲学家主张作为一个整体的科学可以被视为一个贝叶斯过程。

而在IT界,AI大脑的思考和决策树,更是被工程师设计成了一个贝叶斯程序。


在日常生活中,我们也常使用贝叶斯公式进行决策,只是自己没有注意到这就是“贝叶斯定理”。


比如我们到河边钓鱼,根本就不知道哪里有鱼,似乎只能随机选择,但实际上我们会根据贝叶斯方法,利用以往积累经验找一个回水湾区开始垂钓。


这就是根据先验知识进行主观判断,在钓过以后加强这种判断,然后下一次进行再选择。

所以,在认识事物不全面的情况下,贝叶斯方法是一种理性且科学的方法。


贝叶斯理论现在被认可主要来源于两件事:


❶《联邦党人文集》作者揭密


1788年,《联邦党人文集》匿名出版,两位作者写作风格几乎一致。其中12篇文章作者存在争议,而要找出每一篇文章的作者极其困难。

两位统计学教授采用以贝叶斯公式为核心的分类算法,10多年的时间,他们推断出12篇文章的作者,而他们的研究方法也在统计学界引发轰动。


❷美国天蝎号核潜艇搜救


1968年5月,美国海军天蝎号核潜艇在大西洋亚速海海域失踪。军方通过各种技术手段调查无果,最后不得不求助于数学家John Craven。

Craven提出的方案同样也使用了贝叶斯公式,搜索某个区域后根据搜索结果修正概率图,再逐个排除小概率的搜索区域,几个月后,潜艇果然在爆炸点西南方的海底被找到了。


2014年初马航MH370航班失联,科学家想到的第一个方法就是利用海难空难搜救的通行方法——贝叶斯定理开始区域搜索。


这个时候,贝叶斯公式已经名满天下了。





5



贝叶斯定理展示“神迹”


当然,贝叶斯定理名扬天下,主要还是在人工智能领域的应用。
特别是自然语音的技术识别,让人类见识了A.I.的“思考力”。

人类语言的多义性,可以说是信息里最复杂最动态的一部分。

机器怎么知道你在说什么?


2020年,只要你看到机器翻译的准确性

你也会感叹这简直就是“神迹”,它们比大部分现场翻译要强得多。

语音识别本质上是找到概率最大的文字序列

一旦出现条件概率,贝叶斯定理总能挺身而出。


我们用P(f|e)区别于以上的P(A|B)来解释语音识别功能。

统计机器翻译的问题可以描述为:给定一个句子e,它可能的外文翻译f中哪个是最靠谱的。

即我们需要计算:P(f|e)



这个式子的右端很容易解释:

那些先验概率较高,并且更可能生成句子e的外文句子f将会胜出。

我们只需简单统计就可以得出任意一个外文句子f的出现概率。


随着大量数据输入模型进行迭代,随着计算能力不断提高,随着大数据技术的发展,贝叶斯定理威力日益凸显,贝叶斯公式巨大的实用价值也愈发体现出来。


语音识别仅仅只是贝叶斯公式运用的其中一个例子。

实际上,贝叶斯思想已经渗透到了人工智能方方面面。





6



贝叶斯网络,AI智慧的拓展


语音识别,见证了贝叶斯定理的能力。

贝叶斯网络的拓展,则可以看到更强大的人工智能未来。


借助经典统计学,人类已经解决了一些相对简单的问题。

然而经典统计学方法却无法解释复杂参数所导致的现象,例如:


龙卷风的成因,2的50次方种可能的最小参数值比对;

星系起源,2的350次方种可能的星云数据处理;

大脑运作机制,2的1000次方种可能的意识量子流;

癌症致病基因,2的20000次方种可能的基因图谱;

……


面对这样数量级的运算,经典统计学显得力不从心

科学家别无选择,最终寻找贝叶斯定理给予帮助。

把某种现象的相关参数连接起来,再把数据代入贝叶斯公式得到概率值公式结网形成一个成因网,即贝叶斯网络,如下图所示:



这也是贝叶斯网络被称为概率网络、因果网络的原因。

利用先验知识和样本数据,确立随机变量之间的关联,然后得出结论。

一个又一个的节点,一个又一个的概率,都来源于人类的先验知识,有效知识越多,贝叶斯网络展示的力量越让人震撼。


今天一场轰轰烈烈的“贝叶斯革命”正在AI界发生:

贝叶斯公式已经渗入到工程师的骨子里,贝叶斯分类算法也成为主流算法。

在很多工程师眼中,贝叶斯定理就是AI发展的基石。





7



A.I.的思考方式:无文理之分


读懂了贝叶斯定理,也就基本理解了A.I.的思考方式。

这也是为什么“大数据+算法+算力”构成人工智能三要素。


❶大数据,它是A.I.的老师,它教会A.I.成为一个什么样的人。

❷算力,这属于个人能力,长大后的A.I.处理问题时需要的能量。

❸算法,创世主赋予的方法论(天赋),算法越优秀越事半功倍。



从这些核心要素出发,我们回头来看开头的问题:

A. I.真的不懂艺术吗?

它不能“主观创造”吗?

它在艺术上不能助力人类吗?


答案是否定的,人工智能思维方式并无文理之别。


它是个理科生,也是个文科生,还是个艺术生。

A.I.的思维基因来源于主观性“贝叶斯定理”,只要有好的数据,机器经过学习,可以创作出经典艺术作品。


当前,“AI+艺术”已经成为新思潮。

法国艺术团队Obvious通过绘画数据创作《爱德蒙德贝拉米》A.I.艺术品,在佳士得拍出432500美元高价,震惊世人。


AI也能作曲!OpenAI神经网络已经能创作任何流派。2019年,来自澳洲的《绝美世界》获得AI版“欧洲歌唱大赛”冠军,这支歌曲以纪念澳洲大火中丧生的动物为背景,以欧洲歌唱大赛歌曲为大数据,交由AI谱曲填词。

 

知名音乐人Newton Rex谈到:音乐人生充满创意,用正面眼光看待AI在音乐中扮演的角色,音乐教育,人类与AI也可以携手。





8



A.I.是一个好的音乐助理


A.I.技术在艺术教育已经做出贡献,举个例子:
腾讯发起一个“腾讯荷风艺术行动”公益项目,探索出一条“AI+艺术教育”的道路,目标是普及乡村青少年艺术教育。


2019年7月,腾讯发起“互联网音乐教室计划”,把AI技术融入到音乐课堂中。


截至今年5月,计划中的100个音乐教室已在新疆、四川、河北等10省份成功落地,为超过8万乡村师生提供音乐教学服务,还将陆续投入到疫后艺术课程的复课之中。


互联网音乐教室计划


在这个公益活动中,AI技术在艺术教育中起了很大作用。


❶实时对孩子的学习情况互动反馈

❷清楚了解学生的学习行为轨迹

❸提供更精准化个性化的学习策略

❹对学生而言,AI 就像一个专属助教

❺对老师而言,可以集中精力创造性教学

❻对家长而方,完整了解学习到的知识点


A.I.可能不会代替传统意义上的音乐老师,但它会是一个任劳任怨的助理。


这些学校多了一位全天候的专业音乐老师,“点亮”孩子的音乐梦想。



今年六一,“腾讯荷风艺术行动”携手QQ音乐全民K歌发起的“艺术行动儿童音乐共创大赛”评选揭晓,4首优秀原创儿歌及10个优秀儿歌创词作品从8150首作品中脱颖而出。


其中,《未来的你加油》《小蚂蚁》《爸爸》《雪娃娃》等4首获奖作品,被收录进《儿歌新唱》公益音乐专辑,由“腾讯荷风艺术行动”联合QQ音乐首发,成为送给孩子们最为特别的儿童节礼物。


王俊凯、AI艾灵、艺术行动小朋友《点亮》MV


当然,A.I.除了在音乐教育上是一个不错助理,它还可以写歌词,唱歌曲
艾灵”就是由腾讯AILab打造的“数字人”,此次它将与王俊凯合作,听众通过“王俊凯AI唱我的歌”H5,选择代表自己童年想象的关键词,“艾灵”就可以在线智能创作乐曲,并实时演唱


其原理,就是利用汉字、音乐旋律与和弦的素材,通过DurIAN-singing synthesis的声学模型,经过贝叶斯网络组合,变成歌曲后,再进行个性化歌声合成,模拟王俊凯音色唱出。








A.I.会说出“我思故我在”吗?


从贝叶斯定理出发,工程师认为人工智只能是数学概率,

绝不会产生自由意志;

人们一直相信,AI永远不懂人的爱恨情仇,就像白天不懂夜的黑。


然而,人工智能对艺术的模拟,已经超越大部分人的鉴别能力,

不久将来,AI可能会通过“音乐图灵测试”,

最好的音乐AI与最伟大的音乐教师又有何分别?


也许AI距离在艺术领域大规模的应用尚有差距,

但腾讯在运用AI力量普及艺术教育方面的探索,未尝不是一种很好的探索。


Google自动驾驶汽车的操纵系统;

挑战人类最后智慧堡垒的AlphaGo系统;

腾讯OpenAI在音乐生成方面的新创作;


贝叶斯网络神经网络,AI越来越像人。

这一切,都建立在在贝叶斯定理的基因上。

如果AI能够创造一首歌,那么它就能成为伟大的音乐教堂。

 

笛卡尔说出“我思故我在”时,被认为是“人类的觉醒”。

A.I.有一天也会问“我是谁”吗?

如果人类想在底层系统中预设答案。

那么我们会设定:

你是“具有自由意志的A.I.”

还是“你是人类创造的A.I.”


请点击左下角阅读原文】,与AI合作创造你自己的歌曲

免费下载资料


关注本公众号,在对话框:

回复“工业软件”,下载《工业软件:研究框架》PDF原文

回复“图谱”,下载《中国长城网信产业生态图谱》全文PDF

回复“数字经济”,下载《中国数字经济发展白皮书(2020年)》;回复“电子政务”下载《国家电子政务标准体系建设指南》;回复管理模板,下载《华为项目管理10大模板Excel版(可直接套用)》;回复“0612”,下载《湛江市公安大数据智能化建设项目招标文件电子版》;回复“昆明新基建”,下载《下载昆明新基建项目投资清单》;回复“大数据”下载《埃森哲大数据分析方法及工具应用;回复“政务云”,下载完整版《重庆市政务云招标书》回复“定级指南”,下载《信息安全技术 网络安全等级保护定级指南》;回复"政策“,下载《新基建政策白皮书回复"新基建“,下载《新基建产品手册》;回复"华为中台“,下载《华为大数据中台架构设计》PPT。

温馨提示

如果你喜欢本文,请分享到朋友圈,想要获得更多相关资料,请关注“信创工程咨询”。我们的推送时间是18:00或24:00,一定不要忘了给“信创工程咨询”设星标哦!获取投稿入群方式, 请在公众号对话框回复“投稿”或“入群”获取!

相关阅读



六大国产CPU | 全面梳理分析

工业软件:研究框架 (130页 | 附下载方式)

国产数据库技术如何实现“去O”

碾压 Intel、AMD:基于 Arm 的 CPU 荣登超级计算机 500 强榜首

为什么说ARM可能是国产计算架构的最优选择

政务云转型进入黄金年代

速来围观!《中国长城网信产业生态图谱》隆重发布!

中国基础软件产业投资全景图

全国智慧城市最新政策及规划汇总

“中国长城”正“飞腾”(附深度报告)

《涉密信息系统集成资质管理办法(征求意见稿)》等公开征求意见

硬核来袭!中国软件“1+7”信创产品正式发布

“十四五”规划已启动 | 我们要注意的八大变化

操作系统产业深度:国产大潮起,海阔龙正跃

中芯国际回归A股上市 | 官宣:无法为华为代工芯片

漫画|数据仓库、数据中台、数据湖,终于搞懂了

《工业互联网专项工作组2020年工作计划》印发

痛失亿元大单!格力反撕美的 | 招标造假频现罗生门

确认!英特尔已“暂停”向浪潮供货!预计两周内恢复

等保2.0测评得分大解密

乘风破浪的ARM计算产业

ARM架构要逆天?

中国软件信创“1+7”产品化工作取得重大进展

硬核 | 公安部五亿采购国产服务器等设备大单被废标!

农行率先采购2000台国产服务器 | 金融业“新基建”悄然而至

中国新基建459家细分领域龙头名单

银行IT,国产化大势所趋

做强做优城市大脑 | 打造全国新型智慧城市建设“重要窗口”

免费下载 |《数据安全法(草案)》全文正式发布!

项目经理做项目的具体流程

项目管理的20条锦囊妙计

市场监管总局等六部门印发《国家电子政务标准体系建设指南》(附下载)

华为项目管理法10大模板【Excel版(可下载套用)】

免费下载 | 中国信通院《中国数字经济发展白皮书 (2020年)》

河南加速布局“新基建” | 980个项目总投资3.3万亿

重磅 | 工信部副部长陈肇雄调任中国电科董事长、党组书记!

当“信创”与“新基建”不期而遇,万亿级风口你准备好了吗?

网络安全等级保护2.0的要求及所需设备的清单

数据时代背景下“数字政府”技术架构研究与应用分析

31个省市大盘点!400万以下不用公开招标!

干货:服务器基础知识全解(汇总版)

操作系统深度研究(PPT原文)

假期干货丨最全信创政策全景图(免费下载)

“围标陪标暗操作,评审打分拿红包”,揭秘招投标里的常见猫腻

5.6万台!中国电信启动2020年服务器集采

全国首个「多云架构的政务云」案例分析(完整版可下载)

谁是山东省政府信息化项目的标王?

近五成中央部门公布的2020年政采预算低于去年

干货 | 如何寻找信息化工程项目?

通知!关于开展“软件和信息服务业企业信用评价”

江苏信创大会在无锡召开 | 江苏信创产业生态基地揭牌

ARM中国CEO被免职,华为或遭全面断供

联合加速PK生态建设,中兴通讯多款产品完成PK认证

国家电网发布“数字新基建”十大重点建设任务

信创云产业发展与生态建设视频会议成功召开!(附下载链接)

鹅厂5000亿PK猫厂2000亿 | 腾讯和阿里入局新基建

官宣!新基建真的来了,这些城市抢先一步

广州新基建三年行动计划 | 1800亿73个重大数字新基建项目

昆明 “新基建”394个重点项目 | 总投资1万亿元(附清单下载)

福建省人民政府办公厅关于印发2020年数字福建工作要点的通知

《信创政务云应用软件质量测评规范(试行)》发布

《新基建产品手册》最新出炉 | 60页可下载

看懂云计算、虚拟化和容器,这一篇就够啦!

【漫画解读】数据治理:元数据是个啥,它有啥用?

“新基建”政策白皮书(附下载方式)

安徽发布第一批【896项】新基建技术产品服务目录(附下载)

“新基建”中的大数据中心,该是什么样?| 弯道超车的“新基建”

上海版“新基建”35条重磅发布 | 首批重大项目投资2700亿

Win7停服,引发国产操作系统“蝴蝶效应”

中国移动2020年度13.8万台服务器、80亿元采购大单意味着什么

“新基建”必须走自主可信创新之路

国家发改委将出台“新基建”政策 | 实施全国一体化大数据中心建设

重磅发布 | 等保2.0定级指南GBT 22240-2020(附下载方式)

《2020城市新基建布局与发展白皮书》发布(可下载)

新基建深度报告:新基建浪潮中的七大领域十大龙头分析

新基建时代下,“华为云”战略投入转向政企市场

信息化行业的“两会行情” | 两会期间“新基建”预期升温

地方版新基建加速落地 | 全国16省市新基建政策方案一览

某县级市城市大脑项目建设方案

两会知识点 | “两新一重”指的是什么?

《互联网周刊》重磅发布 | 2020年信创企业50强


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存