漂亮的皮囊与有趣的灵魂——论游泳健身与人工智能的共性(下)| 腾研识者
编者按
跨界可能都是相近的领域发生,像Ai和健身如此风马牛不相及的两者,本期腾研识者火雪挺能够通过自己的理解消化,将二者的内核解读给大众实属不易。
本文从认知-计划-训练-恢复-循环迭代-验证-保持-憧憬等方面找到了训练AI与锻炼身体之间的方法论共性,正如作者所言,可以帮助你在健身房侃侃AI,也可以在敲代码时秀秀肌肉。
本文为下篇,上篇链接:漂亮的皮囊与有趣的灵魂——论游泳健身与人工智能的共性(上)| 腾研识者
作者 | 火雪挺 腾讯CSIG资深架构师
训练-恢复-循环迭代
制定了计划、选好了工具,接下来就是撸起袖子开干了。健身的训练与AI的训练都是需要时间的、都是需要忍耐的、都是有困难需要克服的。健身需要的时间通常以月计、以年计,需要忍耐的是身体对高糖(高GI食物)、高脂食物的渴望、对酒精烟草的依赖,需要克服的是身体的抵抗与天生的惰性。管住嘴、迈开腿,要认清的一点是,健身本来就是反人性的。
AI的训练是要好些,通常以次、以日计。虽然不用自己练,是让机器练,但仍要对着屏幕忍受心中对结果无比期望又患得患失的煎熬,仍要克服在多次三番结果不如人意之时想删库跑路的冲动。
恢复,是训练之后毕竟的过程,你的身体需要恢复,你的大脑也需要恢复,大概也只有机器不需要恢复的了,只是费些电。身体没有休息好就硬上锻炼,不但容易造成运动伤害,也没有留足足够的时间让肌肉纤维在之前撕裂的缝隙中生长出来,反而不利于“肌肥大”的健身目标之一。
另一方面对于AI构建,如果你的脑子没有休息好,不但会“短路”,更会消磨你的创造力,会让你固执地陷进某一胶着的境地而自不知,思维定式是创造性工作最可怕的敌人、是技术改进道路上虚掩的泥潭与没有井盖的黑洞。
身体休息好了、脑子思路清醒了,我们就要开始下一个回合了!健身过程中,有所谓的“新手福利期”,通常指前三个月甚至半年。由于身体从不锻炼到开始锻炼,身体的各部位为了适合增长的运动需求,会开始出现“增加自身的能力”的诉求,导致人的状态会走出原来的“舒适区”,运动能力快速提升,无论是增肌还是减脂,效果都会很明显。
然而当你的身体适应了当前的运动状态,那么再用原来的健身计划就无法让身体产生更多的“不适应“,就会进入所谓平台期。为了翻越平台期,有经验的健身人士通常会选择更高效、更不同的锻炼方法,让身体找回之前不适应的感觉:更大的训练容量、更少的组间休息或更多的组合锻炼等。这也是为什么组合动作例如平板卧推、引体向上、深蹲等一直受到大家青睐的原因之一:大肌群、部位多、够刺激。
要记住,由于本能的原因,在这条路上,你的身体是需要“新鲜感”的。
我们回到AI领域,在一次训练完成、测试完成之后,通常我们会看到模型的测试指标如何如何,例如混淆矩阵中的召回率、准确率(精度),ROC曲线(Receiver Operating Characteristic-接收者操作特征),AUC值(Area Under the Curve-ROC曲线下的面积)等,在性能领域例如响应时间、QPS(Queries Per Second-每秒查询率)、满足并发数等。
没有最准、只有更准,没有最快、只有更快,更快更高更强同样适用于AI领域。算法专家们苦苦研究底层原理、优化模型参数、设计算法改进,可能只为下一次训练后的模型测试结果有0.01%的提高。精益求精的工匠精神也许是我们之前忽略的,但是渐渐被更多人所追求的,让大脑离开“舒适区”,不断改进创新,为的就是让明天的人工智能多一份“智能”、少一份“人工”。
例如前段时间Google发布的BERT[1]模型,在自然语言理解领域绝对是里程碑式的工作。我们不能说BERT模型是从0到1的原始创新,但绝对是借鉴了之前各种算法模型的经验与教训,经由很强撮合能力的团队站在前人的肩膀上所做的一次成功的集成创新,而其带来的轰动可以表达为:正所谓“一切过往,皆为序章”,沉积了有五年之久的自然语言处理NLP领域,开启了新的篇章。
验证
这世上大多数事情终究会有“证明”、“验证”的过程,所谓“是骡子是马拉出来遛遛”。这也是在哲学上那三个“终极问题”:我是谁、我从哪来、我要到哪去的具象反映之一。人活一世,总要证明些什么,证明自己活过、证明自己来过。在健身界有一种说法是说,健身的最终目的并不是为了要和别人比,而是要和昨天的自己去比,每一天要活得更好。
如果说健身是为了证明给自己看,那么或许创造AI是人类为了证明给人类自身以及人类之上那个从未露面的“主宰”看,纵使我们由你创造,现在我们也有能力赋予这冰冷的机器以人类的智能,就像你赋予人类以认知的能力一样,最终使得我们更像你一样……那在健身界最好的验证自己的方法,就应该是照镜子、称体重、测体脂了吧,毕竟这是看得见的改变。当然,更专业的办法也有,就是参加专业的比赛,拿到名次,让世界认识你,只不过那是谈何容易的事情。
在AI领域也有各种比赛、各种数据集、各种开源项目等待着各个算法团队去参与、去拿名次、去刷分。所谓刷分,就是在公开竞赛或者数据集上通过测试自己的模型来达到某一准确率而名扬天下的做法,例如团队A在某个公开的数据集上做算法模型的测试[2],验证自己的模型对对象的识别率能有99%,那么团队B就会竭尽全力做到99.1%,同竞技体育一样,没人会记得第二名。
副作用
不用提“是药三分毒”,凡事都会有些副作用。健身与AI从业者的相同点就是“痛”。训练过后的肌肉酸痛,是肌肉轻微炎症的一种表现,是肌纤维撕裂的证明,是训练出身体成长空间的证明,也是你挥洒汗水之努力的证明。
构建AI模型带来的隐隐的“偏头痛”,这个就不好说了,或许是脑细胞死亡的表现、或许是大脑皮层沟壑加深的过程、亦或许只是你在封闭的房间里呆的时间过长,大脑缺氧的表现。无论如何,都是一种“痛并成长”的证明,应该不是坏事。
两者也倒有不同之处。生物学家说,运动会让人体产生多种化学物质,其中就有“内啡肽“和”多巴胺“[3]。内啡肽在药理学上有大脑自我制造的类吗啡物质之意,可想而知其代表着愉悦和欣快感,也是保持年轻的秘诀;而多巴胺这种脑内分泌物和人的情欲、感觉有关,它传递兴奋及开心的信息。还有什么能产生多巴胺的呢,香烟中的尼古丁,以及爱情。内吗啡的止痛效果让你暂时忘却现实的疾苦,多巴胺则让你激动兴奋,犹如初恋。还有什么比这更好的组合呢。
反观人工智能,AI的形成过程中断然是不会产生什么激素的,一个成功的AI算法、模型、应用可能会给创造者带去莫大的成就感,但同时造成的副作用可能就是其他人类的“失业”。
这并非危言耸听。效率低下且重复作业的岗位正在逐渐消失,无论是用“眼”的,用“耳”的,还是用“口”的,甚至原本某些“走心”的活儿也慢慢被各种AI应用所取代,同传、速记、客服、质检,这里不一一举例,但可以预见的是,如果你的事业或者工作在将来不能触动到人们的内心世界,引起情感上的共鸣,那可能就会被机器所代替,只是时间长短而已。
这也是为什么近年来那么多从业者、大公司,包括政府有关部门一直在呼吁要重视AI的道德及伦理问题,要让AI“可知、可控、可用、可靠”,要制定AI相关的法律法规,以防在不远的将来AI成为人类的“普罗米修斯”。
可能有些朋友还不知道,时至今日,AI领域的深度神经网络以及其他一些机器学习算法,其可解释性的问题,仍是各组织想要解决的问题之一。
保持
健身与AI其实上手的门槛都不高。健身新手可以通过几组简单的深蹲开始自己的多巴胺之旅,次日同样可以感受到来自肌肉的“呼喊”。AI新手利用python简单的几句代码就可以实现一个线性回归,开启AI路上的“Hello World!”。
然而尽管门槛很低,但如同这世间的许多事,“坚持”才是难能可贵的特质。对健身来说,无论问哪一个运动大拿,他们都会告诉你有太多次想要放弃、有太多次想要为自己寻找借口而错过一次训练,特别是在获得感以年为单位的情况下,它不像打怪掉宝那样可以获得及时的反馈,也不像食欲那样很容易被满足,身体一寸一寸的改变如同你眼角的细纹只会慢慢地浮现,罗马不是一天建成的,所以才显得难能可贵。
健身,特别是以终身健体为目标的各位,在开始前最好就有对未来的直视,这并非一份工作、一项任务,一旦选择前行,就会成为一种生活方式。
想要成为AI大拿,付出的努力与坚持自不必说。而就拿AI模型来说,也是有“保质期”的,其期限通常与“消费者或管理层的善变”有关。由于时间对于人类世界来说,仍是单向的,只有从过去到未来这一种方向,因此模型的训练都是基于过去的数据,训练完成通过验证上线运行。
过去的数据代表着消费者过去的行为、企业组织过去的业务流程、社会机器过去的通识,我们所做的仅是教会模型以过去的经验去判断未来,如同我们人类一样。
只要人类无法预测未来,机器同样不能,所以今天我们讨论的是“人工智能”,而并非“神工智能”,不要奢望AI无所不知。今天在业界常说的预测模型,或许存在歧义,应当说其实是一种“预判模型”,以过去判当下。
所以如果消费者的行为喜好、企业的流程业务、乃至这个社会通识常识发生了变化,模型的预判就不准了。通常来说以前一个模型训练完毕,可以保持个三个月或者半年之类,我们需要做的就是在模型的全生命周期管理中监控其表现,如果发生了下滑低于设定的阈值,那么就要“投喂”更多更新的数据给它,进行所谓的“模型教育”,让其表现恢复到业务需要。
然而现代社会的发展加速度越来越大,大多数模型以周为单位进行更新,以月为单位进行重构,为了保持模型的有效性,我们需要建立起“数据准备-数据投喂-模型训练-模型验证-模型发布-模型监控-模型更新优化”的闭环,并尽量使这个流程中的节点工作自动化。
这里就提出了两种需求,一种是平台级的AI产品,不仅是一种AI应用,更是帮助使用者管理AI建设闭环的平台服务,并将AI服务进一步拓展,出现了类似模型集市、模型继承(类似面向对象编程中函数的继承)等概念与功能;另一种是像Google的AutoML所做的那样,将人的工作减少到只要输入数据,就能自动产生出一个AI模型完成特定的任务,自动化的过程包括了算法的选择、参数的调优、模型的检测等等一系类步骤。
健身的保持会使之成为一种生活方式,为了AI效果的保持则催生出了新的产品与服务。
明天
本无意写成万字长文,但发觉要说得挺多,为了尽可能说明问题,难免唠叨几句。新年的伊始总是适合对未来展开憧憬的时刻,我认为随着人们对健康生活的愈发重视,参与到健身运动(无论是fitness还是body building)中的人会愈来愈多;而AI产业虽然似乎过了嗷嗷待哺的阶段,但仍处在一个咿呀学语、蹒跚学步的年纪,我们有充分的理由去期待这两件事未来的发展。
一个是为自己,一个是为世界。
-- END --
【尾注】
[1]BERT(Bidirectional Encoder Representations from Transformers,Transformer双向编码器表示)是Google AI语言研究人员最近发表的一篇论文。它通过在各种NLP任务中呈现最先进的结果,包括问答系统、自然语言推理等,引起了机器学习社区的轰动。
[2]例如“SQuAD是由Stanford大学创建的数据集。任务的定义为,给定一个段落,以及相关的一个问题,找出段落中的一段文字,作为问题的答案。SQuAD数据集的文章,是536篇wikipedia的英文文章。用人工的方式提问并标注答案。问题总共有超过10万个。评价预测答案的准则有两个。一个是预测答案是否与标注答案完全吻合(exact match, 简称EM)。另一个是预测答案与标准答案的F1分数。人类在同样任务的EM和F1分别约为82%和91%. 目前腾讯某团队的ensemble模型最好的线上结果为81.79%和88.16%。”
[3]人的脑中存在著数千亿个神经细胞,人所以能有七情六欲,控制四肢躯体灵活运动,都是由于脑部信息在它们之间传递无阻。然而,神经细胞与神经细胞之间存在间隙,就像两道山崖中的一道缝,讯息要跳过这道缝才能传递过去。这些神经细胞上突出的小山崖名叫“突触”(synapse),当信息来到突触,它就会释放出能越过间隙的化学物质,把信息传递开去,这种化学物质名叫“神经递质”,多巴胺就是其中一种神经递质。
人的生理状态和精神状态无时无刻不处于体内各种激素的调控之下,激素们演绎着复杂冗长的剧情,呈现出人生百态,多巴胺在其中扮演了重要的角色。多巴胺(Dopamine)是下丘脑和脑垂体中的一种关键神经递质,能直接影响人的情绪,同时中枢神经系统中的多巴胺浓度又受精神因素的影响。这种神奇的物质可以使人感觉兴奋,传递开心激动的信息,激发人对异性的情感。其实,我们的大脑中有一个爱情中心,就是下丘脑,下丘脑分泌的多种神经递质,比如多巴胺,肾上腺素,就像丘比特之箭,当一对男女一见钟情时,这些恋爱兴奋剂就会源源不断的分泌出来,于是我们有了爱的感觉,享受爱的幸福,甜蜜甚至眩晕,陷入其中无法自拔,所谓“当局者迷,旁观者清”,也是“多巴胺们”在发挥作用。