数据告急?大模型真的会耗尽数据吗?
近日,有专家预警称,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”,通过收集大量文本来训练机器人的技术“开始遇到困难”。数据真的会被大模型耗尽吗?数据告急是真的吗?这一话题引起了业内的极大关注和担忧。
AI迅速发展
数据要被耗尽了?
当前,大数据、云计算等新技术深刻演变,智能产业、数字经济蓬勃发展,极大地改变着全球要素资源配置的方式、产业发展的模式和人民的生活方式。据第52次《中国互联网络发展状况统计报告》数据显示,截至2023年6月,我国网民规模已经达到了10.79亿人。同时,据公开数据显示,约26%的中国用户已开始将生成式AI应用于业务之中。如此庞大的用户群体极大地推动AI技术迅速发展,这也推动了AI需要更多的数据来学习,需要更多样的数据源去适应不同的应用需求。
今年7月初,加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。
人工智能研究人员小组Epoch在2022年11月进行的一项研究估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。而这项研究发布时全球范围内的大模型潮还没有出现。根据该研究,“高质量”集中的语言数据来自“书籍、新闻文章、科学论文、维基百科和过滤的网络内容”。
有专家提出,在数据耗尽前可能会出现新的解决办法。例如,可以让大模型自己持续生成新数据,然后经过某种质量过滤,反过来再用于训练模型,这被称为自我学习或“反哺”。
不过,根据牛津大学、剑桥大学、伦敦帝国学院等机构的研究人员今年5月在预印本平台arXiv上发表的论文,AI用AI生成的数据进行训练,会导致AI模型存在不可逆转的缺陷,他们将其称之为模型崩溃(Model Collapse)。这意味着未来模型训练使用的高质量数据将会愈来愈昂贵,网络走向碎片化和封闭化,内容创作者将会竭尽全力防止其内容被免费抓取。
“数据被耗尽”本质是
对数据质量和开放程度的担心
人民数据研究院分析认为,“数据即将被大模型耗尽”这一论述的确引起了一部分关注数据和大模型企业的人士担忧。其本质是对数据质量和数据开放程度的担心。
数据已成为未来人工智能竞争的关键性要素,未来需要的数据量也越来越大。当前,大模型应用所需要的语料数据不充足,数据质量不高,无法满足深度学习的要求;同时,公共数据、企业数据、个人数据的开放程度到底有多大目前还不确定,顶层制度上数据的权属问题怎么确定还没有定论。因此,人们对数据耗尽的担忧有其现实基础。
国家数据局的挂牌组建,对AI大模型的发展无疑是一个积极的影响。这将有利于更好地进行数据治理,确保数据的规范性、安全性和合规性。而有了更多优质、可靠的数据作为支撑,AI大模型也能得到更充足的训练,从而取得长足的进步。这样的背景,无疑为AI大模型的持续发展提供了强大的后盾。
人民数据积极探索
助力数据确权、开放、流通
“现在一天产生的数据可能是过去10年产生的数据量。”今年7月,人民数据研究院发布了《AI大模型综合能力测评报告》,从六个维度评测当前大模型的综合能力,发现目前AI大模型确实还存在数据语料喂养不充分的情况,需要大规模、高质量的数据。
解决了数据质量和数据开放的问题,就可以从根源上解决“数据耗尽”的难题。
一方面,AI大模型是未来的重要方向,提高数据质量势在必行。10月,人民数据针对AI市场提供的语义语料数据库,包括新闻数据、问答数据等近3亿条数据,针对当前大模型普遍回答不了,回答不好又必须直面,不容回避的重大问题、敏感问题、疑难问题、复杂问题,该语义语料库梳理了1万余个重点问题,并精心编撰建成优质问答语料库,助力解决大模型在语料方面的刚性需求、紧急需求、安全需求。
另一方面,以数据确权推动数据进一步开放,是促进AI大模型源源不断获得数据的重要途径。当数据确权得到保障,权属关系明确时,就可以扩大数据的开放程度。为此,人民数据向全国数据要素市场发放“数据资源持有权证书”“数据加工使用权证书”“数据产品经营权证书”(“三证”)、打造第一家全国性的数据要素公共服务平台,进一步推动数据确权,从而夯实大模型的发展的数据基础。
来源:人民数据研究院
作者:人民数据研究院研究员 邓思敏
编辑:李昭彤
责编:王晓彤 李熠超