其他
本文转载自公众号DQMIS数据质量管理智库【演讲嘉宾】【主论坛主旨演讲】【关键字:数据质量、人工智能、大模型、数据集建设、数据驱动创新】【演讲摘要】非常高兴今天在这里和大家一起交流数据质量与人工智能及大模型的关系。我们一直在致力于数据质量技术研究十多年,刚开始在做这个的时候大家几乎没有任何意识,没有任何数据质量的问题。现在数据质量包括刚才范会长讲到数据这也是人工智能其中一个底座,数据已经成为人工智能的重要组成部分,我们再回过头来看数据质量为什么会在整个人工智能包括大模型里面起到的价值,这也是我们今年论坛的核心主题词,串起了有关AI和大模型,甚至是数据要素、数据入表关键的主线,因为这几个环节都离不开数据质量。所以我今天是用这个机会跟各位汇报下我们在这个领域的一些看法、实践及研究。我今天要讲的这几个事情,首先是关于人工智能和大模型,关于大模型和数据质量,我相信刚才已经讲了很多大模型的概念,他们之间有什么关系。我们先看一张图,这是网上流传的比较,有百度来的同事不要见怪,我确实从今日头条里看到了两幅对比画,这两幅对比的画,一个是文心一言一个是OpenAI的,这里讲的有关车水马龙的图片。我相信大家看到这张图片的时候能感觉有差距,具体差距在哪里?这两张照片给了我们很大的冲击力。其实我们在谈这个大模型的时候,当OPENAI出来的时候最震撼的是并不是他所呈现的方式,其实这种方式在很多年前都已经有了,这是属于知识图谱的领域,并没有新鲜的东西,但是它对于语义的理解,对人的理解,已经让我们能够跟正常人的一样交流了,这是我们比较惊讶的事情,ChatGPT主要是两个大突破,一个是数据一个是算法,算法方面当然有它的独特之处,但是数据是土壤,从数据质量这个领域去看这个问题的时候,如果没有这个土壤,没有好的数据质量,是无法达到现在ChatGPT呈现的效果的。我觉得我们做大模型这个路很长,没有一定的基础是没有办法培养土壤的,尤其是高质量的数据,他不是靠一个工具就能解决的。这是大模型的前世今生,其实这里大家都很清楚,这是最早的机器翻译、神经网络,我相信这里很多学校都是在研究,但是问题是为什么OPENAI一出来之后大家有点震撼。我们回顾下整个数据的发展过程,互联网时代,我们讲互联网BAT,为什么BAT能够攻城略地,是因为有数据,即使没有高质量的数据,也可以攻城略地,有流量就可以了,那个时候能抓流量就足够了,流量有没有好和坏,其实在那个时候遍地都是机会,不需要关注数据质量,有流量就行了,为什么有那么多衍生商业模式出来,因为有流量。有流量时代的已经孵化出那么多公司,这就是我们第一代,我们要理解数据对社会的影响,这个不用讲从百度、阿里巴巴跟腾讯所覆盖的地方基本上全部占掉,因为我有流量、数据。这个时代是这样的。当然现在互联网时代正在转变,刚才讲到许多高管因为技能问题,马上就下课了,因为时代变了,可能所有技术都不一样了。早期,数据对整个经济的影响,对整个业态的影响,第一时代就是流量为王,有流量就够了,这个时代我管它有没有质量,因为没办法辨别质量,有流量就行了,你在衡量它的价值的时候,拿流量做衡量标准,因为没有质量,有流量就行了,其次,第二代我们叫精准营销1.0,已经有些客户开始说有流量不行,我还是要做精准营销,但是精准营销的话,大家知道很多都是单向输出的,单向告诉你,我可以帮你触达什么,但是你能不能有效果给我。有触达已经不错了,你还想要什么,能触达就好了,你拍个广告牌在高速公路里面,你看到,你不知道是谁看,但我还告诉你我能够发到你的IP地址,我已经触达了,你就应该给我钱。接着,我们看到在金融界大量开始使用数据,这就是信用与风控,信用与风控是我们在利用大数据时代最典型的一个场景,我知道很多数据分析师,专业的人才都是来自于金融界,因为信用与风控在金融界先开始做起来。精准营销,可以说我们数据用的场景都在这里,包括我们昨天为什么讨论智能制造,没有讨论商业上的数据怎么用,因为大数据的应用已经下沉到智能制造这个更深的蓝海里面去了。我们能看到数据权利转移,今天我看傅院长讲了这个,就是权利的转移,其实这个图5年前的时候在一次演讲里面讲到的,大家可以看一下我们整个数据发展演变的过程。开始数据1.0,我有票证就行了,大家说我有票证已经很满足了,因为有票证就可以无纸化,信息化就是无纸化嘛,我有票证了,我有电子的东西,所有IT技术发展第一代的思维方法都是这样子的,这也就是IBM为什么会成为霸主的时候,为什么IBM会成为当时那个时代的霸主,因为他能把这个事情做好,完整正确管理内部数据,这是第一代。到了第二代的时候,我们需要的是数据2.0,那就是流量经济了,这个时候谷歌起来了,百度起来了,为什么?我有流量,我有触达。这个时候我们关心的是海量的存储和海量的导流,包括我们数据颗粒度的分解,结构的分解,我们现在开始关注用户画像、场景分析,我们要去做数据分析,要开始考虑数据质量。也就是说我们在数据2.0的时候,数据质量已经开始变成越来越重要。到数据3.0的时候,现在我们怎么去看人工智能,这也是今天我们引入的话题,数据质量在人工智能里面是怎样跟我们人工智能去结合,怎么去驱动整个业务的变化,这是其中一个点。在这里面我们就看大数据时代的质量与挑战,我们不重视它不代表它不存在,你不知道,但不代表它不存在,我们要有更多的认知。这是一张图,大家可以看这张图,大家其实对数据质量的问题有很大的不同理解,什么叫数据质量,昨天我们在讨论的时候也提到这个问题,我们谈数据是有边界的,我们可以归纳为数据空间的问题(Data