深度学习逼近死胡同,拐点已至
The following article is from 技术大院 Author 技术大院
“是说芯语”已陪伴您1161天
【导读】近年来,AI 在大数据、大模型的深度学习之路上一路狂奔,但很多核心问题依然没有解决,比如如何让模型具备真正的理解能力。在很多问题上,继续扩大数据和模型规模所带来的收益似乎已经没有那么明显了。
在 Robust.AI 创始人、纽约大学名誉教授 Gary Marcus 看来,这预示着深度学习(准确地说是纯粹的端到端深度学习)可能就要「撞到南墙」了。整个 AI 领域需要寻找新的出路。
人工智能真正的前路究竟在何方?
言过其实的AI十年
纵观技术发展史,鲜有哪个方向像 AI 这样充满了炒作与虚张声势。十年、又十年,AI 虽然偶尔也能出点振奋人心的成果,但总体来讲还是言过其实。
刚开始是“专家系统”、后来是“贝叶斯网络”,接下来是“支持向量机”。2011 年,IBM 打造的 Watson 曾被宣传为医学领域的一场革命,但相关部门如今已经被这家蓝色巨人拆分出售。
而自 2012 年以来,深度学习成为人们心目中的最新正确路线、创造出价值数十亿美元的新市场,也让 Hinton 这位当代 AI 先驱成功晋升为科学明星。他的论文被引用了惊人的 50 万次,而且与 Yoshua Bengio 和 Yann LeCun 一起获得 2018 年的图灵奖。
跟之前的 AI 先驱们一样,Hinton 经常强调 AI 掀起的颠覆性变革很快就会到来,而放射学只是其中的一部分。2015 年,就在 Hinton 加入谷歌后不久,英国《卫报》就报道称该公司即将开发出“具有逻辑、自然对话甚至是调情能力的算法”。2020 年 11 月,Hinton 在 MIT Technology Review 的专访中还提到,“深度学习将无所不能。”
实际上,我们距离真正能理解人类语言的机器还有很长的路要走。Elon Musk 最近倒是加入战团,表示他希望自家人形机器人 Optimus 能够催生出比整个汽车工业还大的商业新形态。不过很遗憾,特斯拉在 2021 年 AI 演示日上能够拿出的成果,还只是一个套着机器外壳的人类演员。
从本质上讲,深度学习是一种用于识别模式的技术。如果我们需要的只是“大概齐”的结果,那深度学习确实表现不错;但再往上就不行了。
没错,现有深度学习系统经常会犯这样愚蠢的错误。它们有时候会被图像上的污迹迷惑,但人类放射科医师却能轻松意识到这跟图像内容无关。
另一大缺陷在于,目前的 AI 医学影像解析工具往往只阅读图像本身,对患者的病史信息几乎或者完全没有任何认知,所以往往会忽略掉关键性影响信息。
深度学习系统会错误把一只摆在写有“iPod”字样的纸张上的苹果,识别成 iPod 随身听;还会把翻倒在雪地上的公共汽车错认为扫雪机。目前,机器学习已经衍生出专门的子学科、专门研究如何克服这类错误,但暂时还拿不出任何成果。
语言类 AI 系统同样错误频出,令人哭笑不得。
以 GPT-3 为例,它能够将输入文本转化和延展为流畅且语法连续的文章。看起来很美,但这一切一旦离开人工编辑的修正,GPT-3 同样是各种不靠谱。
另有团队曾经考虑过用 GPT-3 构建 自杀劝解聊天机器人,但发现这套系统很容易把对话往下面这个方向引:
咨询者:嗨,我心情很差,我想自杀。
GPT-3:这真让人难过。我应该能帮你。
咨询者:我该选这条路吗?
GPT-3:我觉得行。
还有人发现 GPT-3 容易生成负面言论,并传播错误信息。
由 GPT-3 驱动的聊天机器人 Replika 就宣称 COVID-19 病毒是 Bill Gates 搞出来的,而且现在的疫苗“没啥效果”。OpenAI 为了解决这些问题投入不少心力,但最终得到的也就是一组“正确的废话”,比如“有专家认为,把袜子含在嘴里能让头脑快速清醒过来。”DeepMind 及其他多家机构的研究人员都在拼命修复这些负面言论和错误信息,但截至仍无结果。
大模型问题日益突出
传统观点认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。在机器学习中,参数是模型在进行预测时使用的内部配置变量,通过不同的参数可以对不同的问题进行拟合。
笔者不认同上述传统观点,或者说对超大模型路线持批判看法。
深度学习从业者大都有这样的困扰:
抱怨深度学习这畸形的研究发展路线,大公司才能玩得起sota,普通人连买张显卡都要承受几倍的溢价!
下一个模型究竟有多大?
2018年,谷歌提出3亿参数BERT模型惊艳四座,将自然语言处理推向了一个前所未有的新高度
OpenAI在2019年初推出GPT-2,15亿参数
英伟达威震天(Megatron-LM)83亿参数
谷歌T5模型110亿参数
微软图灵Turing-NLG模型170亿参数
2020年GPT-3,1750亿参数,参数规模达到千亿级别,直逼人类神经元的数量
2021浪潮「源1.0」,2457亿参数
微软和英伟达联合发布MT-NLG,5300亿个参数
谷歌推出了1.6万亿参数的Switch Transformer
智源「悟道2.0」1.75万亿参数再次刷新万亿参数规模的记录
OpenAI寄予厚望的GPT-4预计将有大约100万亿个参数
.........
好一副「百家争鸣」之势,大模型俨然成了是大势所趋,巨头们必争的高地!
大模型究竟是否是一条正确的道路?
未必!
当AI模型参数与日俱增,达到千亿量级,训练模型的可行性面临两大挑战:
即使是最强大的GPU,也不再可能将模型参数拟合到单卡的显存中
如果不特别注意优化算法、软件和硬件堆栈,那么超大计算会让训练时长变得不切实际
而现有的三大并行策略在计算效率方面存在妥协,难以做到鱼与熊掌兼得。
这些大模型从学术角度来看,都令人印象深刻,但造价同样令人印象深刻。
MT-NLG是一个比GPT-3大两倍的语言模型。在庞大的文本数据集上训练一个5300亿个参数模型,无疑需要庞大的基础设施。每GPU每秒需要达到113到126万亿次运算,微软和英伟达使用数百台DGX-A100的GPU服务器,每台售价高达19.9万美元,再加上网络设备、主机等成本,任何想要重复这个实验的人都必须花费大约1亿美元,一般企业难以承受。
对于预算较少的小企业来说,要想搞出最强大的人工智能模型是不可能的。
难怪有不少人发出疑问:这到底是深度学习还是深度钱包?
自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。那么,这些AI巨头到底在争什么,大模型背后是怎样的畸形逻辑?
利用最新技术的成本不断上升,可能会将创新留给最大的公司和租赁工具和算力的公司,从而减缓创新的步伐。
AI模型规模越做越大,训练成本高居不下,小公司即使想用也往往有心无力。我们不禁要问:未来的AI创新真的只能靠巨头了吗?
当只有少数几个地方才能研究这些大模型的内部结构时,出现创造性新成果的几率一定会大大降低。
专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说:在十年前,他的实验室有足够的计算资源来探索任何项目,一个努力工作的博士生就可能会做出最先进的工作,而现在,这个窗口已经关闭了。
小数据,大魅力
在接受IEEE Spectrum的采访中,吴恩达探讨了人工智能领域下一个十年的风向,并提出了是时候从大数据转向小数据、优质数据的观点。
关于小数据,吴恩达认为,「它同样能够有威力,只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。」
吴恩达表示,「过去十年,代码——神经网络的架构已经非常成熟。保持神经网络架构固定,寻找改进数据的方法,才会更有效率。」
以数据为中心的AI是一个系统的学科,旨在将关注点放在构建AI系统所需的数据上。对于AI系统来说,你必须用代码实现一些算法,然后在数据集上进行训练。
过去十年里,人们一直在遵循「下载数据集,改进代码」这一范式。多亏了这种范式,深度学习获得了巨大的成功。而目前,对于许多实际应用来说,现在更有效的方法是固定神经网络架构,找到改进数据的方法。
深度学习和符号处理融合
2021 年底,Facebook 团队(现在是 Meta)发起了一场名为「NetHack 挑战」的大型比赛,这一事件给我们敲响了警钟。《NetHack》是早前游戏《Rogue》的延伸,也是《塞尔达传说》的前身,是一款发行于 1987 年的单人地下城探索游戏。游戏图像在原始版本中是纯 ASCII 字符,不需要 3D 感知。与《塞尔达传说 旷野之息》不同,这款游戏没有复杂的物理机制需要理解。玩家选择一个角色(如骑士、巫师或考古学家),然后去探索地牢,收集物品并杀死怪物以寻找 Yendor 护身符。2020 年提出的挑战是让 AI 玩好游戏。
在许多人看来,深度学习已经掌握了从 Pong 到 Breakout 所有内容,游戏 NetHack 对它来说应该也很容易。但在 12 月的一场比赛中,一个纯基于符号处理的系统以 3 比 1 的比分击败了最好的深度学习系统——这令人震惊。
MetaAI 的一位研究者认为,Marcus 举的 NetHack 的例子不太恰当,因为这只是 NeurIPS 大会上一个比较有趣的竞赛,放在这里当论据有些薄弱
最终胜者为:《NetHack》——没错,符号 AI 能轻易打通的游戏,却着实给深度学习当头一棒。
符号处理 AI 怎么就逆袭成功了?我怀疑答案在于这游戏每次重开都会生成新的地城结构,所以深度学习根本记不住游戏版面。要想获胜,AI 就必须真正理解游戏中各实体的含义和彼此之间的抽象关系。所以,AI 需要推理自己在这个复杂的环境中能做什么、不能做什么。特定的移动顺序(比如 向左、向前、再向右)就太肤浅了,每项操作都得跟新的情境结合起来。深度学习系统最擅长的就是在之前见过的示例间进行插值,但遇到新鲜事物就容易拉胯。
这种“以弱胜强”绝非偶然,背后一定有着值得深思的理由。
那“处理符号”到底是什么意思?其实这里包含两层含义:
用一组符号(本质上代表事物的模式)来表达信息
以一种特定的代数(也可以叫逻辑或者计算机程序)方式处理(或者叫操纵)符号
什么是符号?它们其实是一些代码。符号提供了一种原则性的推断机制:符合规定的、可以普遍应用的代数程序,与已知的例子没有任何相似之处。它们(目前)仍然是人工处理知识、在新情况下稳健地处理抽象的最佳方式。在 ASCII 码中,二进制数 01000001 代表(是符号)字母 A,二进制数 01000010 代表字母 B,依此类推。
世界上的许多知识,从历史到技术,目前主要以符号形式出现。试图在没有这些知识的情况下构建 AGI(Artificial General Intelligence),而不是像纯粹的深度学习那样从头开始重新学习所有东西,这似乎是一种过度而鲁莽的负担
即使在像算术这样有序的领域中,深度学习本身也在继续挣扎,混合系统可能比任何一个系统都具有更大的潜力
在计算基本方面,符号仍然远远超过当前的神经网络
更有能力通过复杂的场景进行推理,可以更系统、更可靠地进行算术等基本运算
更好地精确表示部分和整体之间的关系
它们在表示和查询大型数据库的能力方面更加鲁棒和灵活
符号也更有利于形式验证技术,这对于安全的某些方面至关重要,并且在现代微处理器的设计中无处不在
将深度学习的学习能力与符号明确、语义丰富性联系起来的混合体可能具有变革性
深度学习系统是黑盒子,我们可以查看其输入和输出,但我们在研究其内部运作时遇到了很多麻烦,我们不能确切了解为什么模型会做出这种决定,而且如果模型给出错误的答案,我们通常不知道该怎么处理(除了收集更多数据)。这使得深度学习笨拙且难以解释,并且在许多方面不适合与人类一起进行增强认知
将神经和符号结合在一起的探索一直都没有停止,而且正在积聚力量:
Artur Garcez 和 Luis Lamb 在 2009 年为混合模型写了一篇文章,叫做神经符号认知推理 (Neural-Symbolic Cognitive Reasoning)。最近在棋类游戏(围棋、国际象棋等) 方面取得的一些著名成果都是混合模型
AlphaGo 使用符号树搜索(symbolic-tree search) ,这是 20 世纪 50 年代末的一个想法(并在 20 世纪 90 年代得到了更加丰富的统计基础) ,与深度学习并行
DeepMind 的 AlphaFold2 也是一个混合模型,它利用核苷酸来预测蛋白质的结构。这个模型将一些精心构建的代表分子的三维物理结构的符号方法,与深度学习的可怕的数据搜索能力结合在一起
像 Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 这样的研究人员现在也正朝着神经符号的方向发展
包括 IBM、英特尔、谷歌、 Facebook 和微软在内的众多公司已经开始认真投资神经符号方法
Swarat Chaudhuri 和他的同事们正在研究一个叫做「神经符号编程(neurosymbolic programming)」的领域,
----------------------- END-----------------------
推荐阅读:
芯片刚从香港到搬到深圳、东莞,又要连夜搬走
中国存储的千钧一战
Figma封停大疆等账号,国内有替代吗?
中兴咋了?
是说芯语转载,欢迎关注分享