李国杰 中国工程院院士,第三世界科学院院士,中国科学院计算技术研究所首席科学家,中国计算机学会名誉理事长。主要从事计算机体系结构、并行算法、人工智能、大数据,计算机网络、信息技术发展战略等方面的研究,发表科学论文150多篇,出版了三本《创新求索录》文集,长期致力于发展曙光高性能计算机产业和CPU等核心技术的自主可控。
DOI:10.11959/j.issn.2096-0271.2024017
李国杰. 大数据与计算模型[J]. 大数据, 2024, 10(1): 9-16.
0 引言
如今,大数据在降温,而大模型还在持续升温,AI for Science的惊艳成果正吸引着人们的眼球。科技界对AI的认识和如何选择AI的技术发展路线还存在不少争议,以下是争议较多的几个问题。● 以数据为中心,还是以模型为中心;
● 大语言模型(large language model,LLM)能否成为通用智能模型;
● 以模拟人类智能为目标,还是发展可能与人类不同的机器智能;
● 连接主义AI与符号主义AI的结合是否必要和可行;
● 机器有没有理解能力;
● 神经元计算模型是否不同于图灵计算模型。
人工智能还处在“伽利略时代”,或者说“牛顿时代的前夜”,面临着诸多未知和挑战。我们要看到现有技术路径的局限性,不能只追求增量式改进;要提倡百家争鸣,过早地锁定技术路线会阻碍人工智能的发展。本文对与大数据和计算模型有关的一些有争议的话题发表一些看法,旨在抛砖引玉,引起大家讨论。1 数据的基础作用和发展趋势
1.1 数据是人类认识复杂世界的基本途径
大量的科学和工程实践表明:只要找到足够多具有代表性的样本(数据),就可以运用数据找到一个模型或者一组模型的组合,使得它和真实情况非常接近。在更高质量数据集上训练的模型,可能只需要较少的训练或较少的模型参数。近几年,人工智能的重大突破已经凸显出数据的巨大作用。
客观世界
本质上具有不确定性。
从根本上讲,
解决很多复杂问题的关键
在于消除不确定性,
只能用数据
来消除不确定性。
例如,大气物理学已经有很多理论,有很多精确的偏微分方程,但天气预报的效果始终不尽人意。华为的盘古和DeepMind的Graph Cast,通过理解海量气候数据中的复杂模式来进行预测,不是通过物理方程的计算来预报天气,其预报精度和速度都超过传统的数值天气预报。这一事实表明,数据是人类认识复杂世界的基本途径。
1.2 以数据为中心,还是以模型为中心
在人工智能发展历程中,数据和模型哪一个更重要,这个问题一直存在争议。这两年大语言模型发展势头很猛,争议也更加激烈。对技术发展方向的选择不完全是一种学术判断,甚至代表了一种信仰。在神经网络模型取得巨大成功的今天,科技界对大模型的前途仍然存在两种针锋相对的预判。观点
1
(以OpenAI公司为代表)
只要扩大模型和数据的规模、增加算力,未来的大模型很可能会涌现出目前没有的新功能,呈现更好的通用性。
观点
2
目前的大语言模型不可能实现通用人工智能,必须研究新的智能模型和通用AI技术。
大语言模型可能不是实现通用人工智能的最佳道路,只是人工智能发展过程中的一个阶段性成果,但它比前两波人工智能采用的技术具有更大的使用价值。大语言模型也不是万能的,尽管其泛化能力超出人们的预期,但本质上还是封闭范围的AI,学到的是互联网上的书本知识,还没有学到与人类实践活动有关的大量隐性知识。
1.3 合成数据将是未来数据的主要来源
数据并不是取之不尽的资源,数据消费的速度远远高于数据自然产生的速度。有预测认为,到2026年文本数据将被训练完,图像数据将在2040年左右用完。自然语言处理将实现从对已有数据的消费(自然语言理解)到全新数据的生产(自然语言生成)的跃迁,这将是一次巨大变革。合成数据将是未来数据的主要来源。合成数据不可避免地依赖一部分真实数据用于自身的创建。因此,合成数据永远不会完全取代它所依赖的初始数据。合成数据可以用来验证或扩展已知规律,加速科研的进程,但不大可能直接揭示在原始数据集中不存在的全新规律。
2 关于计算模型的历史回顾和思考
2.1 人工智能的突破源于计算模型的改变
问题的复杂性随计算模型的改变而改变。人们常说的NP困难问题是对确定性图灵计算模型而言的。自然语言理解、模式识别等NP困难问题,在大语言模型上能被有效解决,这说明大语言模型对这类问题的求解效率远远高于图灵计算模型。
人工智能的成功本质上不是大算力“出奇迹”,而是改变了计算模型。AI研究的新近发展体现了一种趋势,放弃绝对性,拥抱不确定性,即只求近似解或满足一定精度的解,这或许是这次AI“意外”取得成功的深层原因。
2.2 两种计算模型的历史性竞争
人工智能经历了60多年的发展,曾经两次跌入低谷,目前是兴起的第三次浪潮。波浪式的发展始终围绕符号主义和连接主义的竞争,而背后实际上是图灵机模型和神经网络模型的竞争。从源头上理清神经网络模型的发展脉络,有助于我们了解它的潜力和局限性。图灵机模型和神经网络模型的竞争,实际上是科学技术发展史上常见的功能主义和结构主义的竞争。蒸汽机、飞机等重大发明都是先实现功能后来才研究发现其结构原理的,计算机和人工智能走的路也一样。几十年来,神经网络模型一直比不过图灵模型,在学术界受到排挤。但有一批学者坚持不懈, 终于让结构主义取得了一次初步胜利,神经网络模型开始显示它的威力。
2.3 大模型的重要标志是机器涌现智能
在AlphaFold2实现蛋白质结构预测和GPT4令人惊奇的功能中,机器猜想都发挥了关键作用,这说明大规模的机器学习神经网络已涌现出某种程度的认知智能,大模型的核心特征是“涌现”功能。大模型是否具有涌现和理解能力,对这个问题学术界还没有形成共识。A
LLM所谓的“涌现”行为是度量标准引起的“海市蜃楼”,一旦改变指标进行测试,所谓的“涌现”特性就会消失。
B
过去的人工智能做不到的事情,今天的大模型可以做到,从宏观上看就是涌现了一些意想不到的新功能,如机器翻译、计算机生成文艺作品、新材料的发现、全自动设计CPU芯片等。
机器理解不同于人的理解。机器翻译可以不懂语义,AI天气预报可以不懂气象理论,这可能是一种新颖的“理解”形式,一种能够实现预测的理解形式。所谓“对齐”和“微调”是人类认知和机器“认知”的接口。即使机器有意识,源头还是人类,应当能找到人类影响机器的接口。因此,我们对机器的认知不必过于恐慌。
2.4 大模型的本质是“压缩”
大语言模型的本质是一个性能强大的近似无损的数据压缩器,即将输入文件的知识“压缩”后,以权重矩阵的形式存储在神经网络模型中。ChatGPT原始训练数据集的大小是900 TB,训练完成后,模型参数文件大约是64 TB,整体的压缩比约为1∶14,而传统语言模型(如Bert、RNN)的压缩比大约是1∶10~1∶8。
组合搜索的关键是压缩搜索空间。为什么搜索空间可以被大幅度地压缩?因为许多理论上的解空间对实际求解没有意义,解分布也不是随机的。必须有效地识别和利用数据中的关键模式和结构,在巨大搜索空间中快速找到最有价值的区域。
2.5 大模型的“幻觉”
LLM的主要功能是预测(猜),不是搜索正确答案。搜索是没有创造性的,猜测可能有创造性,这种猜测可以看成人类智能的补充而不是替代。向LLM提问其实不是人类在测试计算机的智能,而是LLM在测试提问者对机器智能的了解程度,因此,这可以看成一种反向的图灵测试。
OpenAI科学家Andrej Karpathy指出
从某种意义上说,大语言模型的全部工作恰恰就是制造“幻觉”,大模型就是“造梦机”。提问者是否能够让“幻觉”和自己的现实一致,很大程度取决于提问者对产生内容的检查能力。
3 基于大科学模型的智能化科研
3.1 大语言模型的局限
神经网络模型的哲学基础是经验主义,实际上采用的是不完全归纳推理,存在或然性,得出的结论可能存在偏差或错误。经验主义也无法完全解释人类的创造性思维和创新能力。
为了区别于大语言模型,笔者建议发展大科学模型(large science model,LSM)。科研领域对模型的正确性和精度要求较高,模型具有识别自身能力不足的“自知之明”与提高模型准确性同等重要,科研大模型必须找到对付AI“幻觉”的办法。
基于神经网络模型的深度学习方法难以保证高精度。由于神经网络模型满足不了13个“9”的高精确性要求,中科院计算所在全自动设计的CPU芯片“启蒙1号”的研发中,发明了一种新的机器学习模型——二进制推测图(BSD),用来表示电路逻辑。BSD不但能保证精度,而且与大语言模型一样,也具有“涌现”功能。3.2 智能化科研与传统科研的区别
人工智能不仅应用于基础研究(AI for science,AI4S),还应用于技术研究和工程实施(AI for technology,AI4T)。因此,笔者建议将“第五科研范式”称为“智能化科研”(AI for research,AI4R)。
传统科研的主要方式是求解函数y=f(x),即通过实验和理论研究先找到反映客观规律的函数f(一般用微分方程的形式表示),或者根据已知的知识编写求解f的程序,再通过输入x求得结果y。但对于复杂或者较为通用的问题,人类还没有获得函数f的确切表达,只能通过已知的输入x和输出y来拟合函数f,这是求函数值的反问题。智能化科研(AI4R)大多是在解决“反问题”。
为特定应用编写计算机程序是可行的,但为一般智能编写计算机程序会引发组合学爆炸。经过几十年努力,现在有了另一种求解途径,即一个基于学习而不是编写计算机程序的替代方案。大模型相当于一种可能具备通用智能的应用程序,这些算法有时会失败,但足以在现实世界中处理一些复杂的问题。(点击篇末『阅读原文』阅读及下载本文)
联系我们:
Tel:010-53879208
010-53878019
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、合作:010-53878078
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录,并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
关注《大数据》期刊微信公众号,获取更多内容