中国开源大模型这一仗怎么打?分三步
本文转载自 OSCHINA官网 - 谭中意博客
原文链接:https://my.oschina.net/u/3742410/blog/10084450
第一个原因是 ChatGPT 第一次以 toC 的应用向普罗大众揭示了 AI 的能力。
2017 年以来,著名 AI 科学家并曾任谷歌和百度 AI 大脑负责人的吴恩达教授一直都说 “AI is the New Electricity“, 即 AI 是新的电力,将彻底改变人类的工作和生活,但是长期以来,普通人很难感受到 AI 的魅力,他们也许在手机上体验过支付宝的人脸支付,体验过抖音上的小视频推荐,体验过京东上的购物推荐,这些场景后面其实都是大量人工智能的技术在支撑,但是相对没有那么直接能感受到。而 ChatGPT 提供了一个人人能用的对话框,只需要输入对话内容,他就像一个无所不知的天才,能够给出各种比较合理或者看似合理的答复,而且在中英翻译、文章摘要、寻求建议等方面表现的非常专业。普通人第一次能以如此方便的形式感受到 AI 的能力,就像电灯把电力带到了千家万户,“Chat GPT” 把人工智能的能力展示给了所有普通人。
第二个原因是它以自然语言交互的方式大大降低了体验的门槛。
交互的进步是可以极大的促进技术、产品和产业的进步的。我们回想一下相关的历史,2007 年苹果乔布斯先生发布初代 iPhone 的时候,它带来革命的交互方式的改变,人们可以用手指来代替键盘或者手写笔来完成手机上跟各个手机应用之间的交互,他们通过点击、拖放、多点触摸等交互方式轻松使用手机上的各种应用,彻底改变了手机产业,并带来移动互联网的高速发展;但是对于人来说,相对手指,对话是更自然的交互方式。只要跟计算机系统进行对话,就可以完成大部分的工作,这是很多人的梦想。但是之前的各种对话工具,例如苹果的 Siri 和 Baidu 的小度,虽然已经发布不短时间了,但是对于人的自然语言的理解和交互的逻辑,距离人的期望还是差的很远。但是这一次,ChatGPT 的发布,让大家发现,原来和它对话,并不是那么痛苦的事情,它能很好的理解问题,而且还能很有逻辑的回答问题(虽然有些问题回答是一本正经的胡说八道)。从此,以自然语言交互的方式,将成为之后人机交互的默认界面,因为它的交互体验更自然。
我们先看看现状,现状是大模型全世界只有中美能做,但是对比 OpenAI,我们存在一定差距。
我们的模型距离 GPT 3.5 还有几个月的差距,但是 GPT 4 出来又几个月了。 我们的中文数据集在数量上和质量上还跟英文数据集有很大差距。 我们的算力还受到很大的限制。 我们架构在大模型上的开发生态才刚刚开始。
看看国内已经参与大模型的各个企业,最近呈现出百模大战的局面,包括百度、阿里、华为、360、网易、商汤、清华智谱、北京智源等都纷纷推出自己的大模型产品。他们之中其实是有大量的重复工作的,包括并不限于如下这些:
中文语料的收录和清洗。
中文对齐指令训练集的标注和整理。
跟国家相关合规规定的对齐。
对算力的适配和调优,包括训练和推理的调度和优化。
相关训练程序的优化,尤其是 RLHF 部分。
未来几十年的大模型相关的产业形态,我预测如下:
那么开源通用大模型将如何支撑这些产业形态?
1. 提供通用大模型服务的企业,可以是在开源通用大模型加上他们各自有独特竞争力的特性,或者是部分私有数据提供更好的能力,或者是在底层调度和优化上提供更低价格的服务;
2. 提供行业大模型服务的企业,可以是在开源通用大模型加上各个行业特有的数据。
3. 企业内部的私有大模型,可以是在开源通用大模型上加上企业内部的私有数据。以上种种形态的分析都表明,开源通用大模型是关键的技术底座。
这上面所列举的三类数据集和三类模型,是我把 ChatGPT 的训练过程简化为三个步骤,见下图,分别是:
1. 拿数十 TB 来自互联网的语料,进行非监督学习,得到预训练模型,也称为 Base model;
2. 拿数万人工标注的指令训练集,进行监督学习,得到指令优化模型,也称为 SFT Model;
希望能做到全程透明可追述,任何一家有一定财力的公司或者组织,都可以根据基金会文档组建好算力集群后,下载各种数据集和程序,从头训练出三类大模型(基础模型、监督模型和对话模型)出来,然后再进行各种 fine tune 来适配各自的场景,或者作为行业大模型服务提供,或者作为企业内部大模型服务提供。
什么是开源雨林?
开源雨林围绕开源通识、开源使用、开源贡献三大方面构建知识体系,愿把长期积累的经验系统化分享给企业,在团队、机制、项目三方面提供合作,推动各企业更高效地使用开源、贡献开源,提升全行业开源技术与应用水平。