其他
深度对话产业专家:“百模大战”愈演愈烈,地球上现有算力不够支撑十亿人使用
带着这些有关大模型的关键问题,腾讯科技邀请了两位在NLP领域有几十年研究经验、并具有产业经验的专家:MoPaaS 魔泊云创始人、CEO鲁为民博士,多语言多领域自然语言处理(NLP)资深架构师、Trend首席科学家李维博士,用了将近两个小时的时间,试图讨论并解决以上问题。虽然有些问题目前可能没有唯一答案,但是我们可以找到某些启发或探究路径。本文将呈现直播的完整回放,及内容的精华梳理。文章较长,但值得收藏阅读。
策划、主持丨郭晓静
编辑丨郭晓静、秦昊阳
文字整理丨赵杨博01
大模型是未来商业版图必争之地
还是新的红海竞争?腾讯科技:“百模大战”进行中,那我们到底如何去评判一个大模型?目前有没有公认的标准,能评价大模型的性能优劣?李维:这其实是一个很大的问题。大模型与上一代AI的“单任务模型”不同,单任务模型通常有公认的数据集作为黄金标准,用于测试系统的优劣并排名高低。对于大模型来说,评测提出了新的挑战。因为大模型是多任务的,任务其实是开放式的,难以预先定义,具体任务常常由应用场景而定。结果就是,数据质量的测试既繁重,也难以全面。在这种情况下,如何评价大模型的好坏?客观地说,其实目前为止并没有真正的公认的客观评判标准和方法。随着时间推移,AI共同体也许会凝聚共识,逐渐形成一些核心功能的评测方案。但是,做大模型的团队,在开发过程中需要合适的质量监控(Quality Assurance,QA)指标来帮助纠正航向。像大模型这样需要高算力和巨大资源耗费的工程,如果没有一个好的QA团队来帮助,很可能会走偏。等你开始意识到走偏的时候,已经花费数月的时间,而你的竞争对手可能已经领先。从这个角度来看,QA非常重要,但如何做好QA,目前来说都还是各自在摸索。回顾一下Open AI 的做法。GPT-3开源的时候,Open AI发的报告用了很长的篇幅展示测试结果,用的是NLP领域中以前定义过的各项任务(大约20-30种)测试这个大模型,比如Sentiment Analysis,Name Entity Tagging,Open Question Answer,等。测试之后发现ChatGPT的的NLP多任务的综合表现都还不错。这是大模型测试发展的第一阶段。后来进入第二阶段,面对更广阔的前景,如何测试大模型?Open AI从GPT3.5到GPT4,开始把考核人的专业知识的测试拿出来测试大模型。中小学的各科考试,大学生的入学考试,研究生的考试,最后到职业考核,例如律师资格考试、医生资格考试等,都用来测试,看看大模型表现怎么样。这个从道理上来说是更高级的,比上一阶段的测试更加全面、更加实用,因为我们人就是这么考过来的。但这样做工作量巨大。比如在GPT-4发布时,微软已经投入大半年的时间和几十人的团队来测试它,证明它比GPT-3提升了一大步,例如,律师资格从GPT3的不及格,到 GPT4 的优异表现(位居人类律师考试成绩的前10%)。未来我们应该如何评估大模型?如何对人类的这些考试进行排序?哪些考试是最核心、最有用的?或者有哪些优先级的配置等等?这可能是一个需要我们进一步讨论探索的课题。究竟应该如何客观地评价大模型,如何在有限的时间和资源条件下做出客观的评价并给出有用的反馈,让数据团队更有针对性地准备数据,让开发团队不偏离方向,保障模型的健康迭代,这是大模型开发者的共同挑战,还需要时间积累经验,形成基本的QA操作规范。从另一个角度来看,现在所有声称成为本行业第一的人其实都是有疑问的,因为根本就不存在共同的标准,只能说是勇气可嘉。当然,OpenAI除外,人家是先行者,是公认的领跑者,他们的最新模型 GPT4 就是当前大模型技术的天花板。对于所有其他的追随者, 包括谷歌,目前来看还没有清晰明了的标准来测量他们。中国有一句古话叫“文无第一”,多任务的开放式大模型,基本是这样的形态。现在不管谁自称第一,只能看成是营销而已。真正重要的是,你的模型不能太差。如果你的模型太差,就会被用户自然淘汰。开放以后,长期无人问津是危机的信号。只要你没有被遗忘,你可能是第一,也可能是第二,不得而知,但你总可以说是“最好之一”。腾讯科技:大模型创业有哪些商业模式?我们到底需要多少大模型?鲁为民:首先,我们需要多少大型模型?这是一个值得思考的问题,因为它其实有很多限制因素。首先大模型的训练和运行对算力等资源消耗很大,Midjourney 的 CEO David Holz 在一次访谈中提到,“如果有10亿人都来使用大模型,现在地球上的算力是不够的。” 我想他的话至少可以解读为当今算力资源有限,可能有资源满足不了需求的时候。所以大家如果一窝蜂去做大模型而去竞争资源,也可能会形成某种内卷,即使不缺钱。其次,做大模型的商用运营,由于投资成本很高,需要足够的回报来支撑大模型的持续运营,比如大模型服务需要通过获得一定规模的用户来产生足够的收入。只有好的产品才能吸引更多的客户使用。但是,要保证模型产品和服务好用,需要足够的人力和财力对大模型产品工程细节的打磨和对系统运行的维护。我们说大模型门槛高,不仅仅是说它所需要的算力成本,也包括除去算力的其它成本和资源要求等。所以需要多少大模型可能由市场决定比较好。大模型衍生的商业模式可以从基础、模型到应用等层面考虑。就模型来说我把它们大致分为两类:一类是模型作为服务 (MaaS),比如,像 OpenAI、Anthropic、Midjourney和Stability AI 等专业公司提供大模型服务,包括像 Whisper,、DALL E-2、Midjourney、Claude、ChatGPT 和 GPT-4 这样的针对大众消费者的模型服务,同时他们也可能提供相应模型服务的 API 给开发者或其它企业用户,可以让更多的应用场景可以接入大模型。对于更多从业者来说,大模型层面的机会更多的是垂直领域模型和应用,所以这一类商业模式围绕垂域应用。一方面,我们可以围绕大型模型(MaaS 或预训练模型)开发一些垂域模型应用。虽然大型模型很强大,但它实际上不可能在所有领域都达到最先进的水平。在很多自然语言处理的任务上,通用大型模型即使与业界最先进的小模型相比在性能可能还存在差距。在这种情况下,我们一方面可以通过大模型服务(像ChatGPT)提供的模型微调服务(通过 APIs)或仅仅是有针对性的提示设计,有机会获得有竞争力的垂域解决方案,这也是创业比较可行的方向。另一方面,就是垂直领域专业大模型在垂直领域的应用,这类应用往往可能不需要处理多个任务,也就就不需要上千亿的参数规模。另外这类场景往往需要将大模型适配后部署到相应的私有化应用场景。一部分原因是因为现在许多企业的一些垂域应用需求对数据也有一定的安全要求,因此不适合使用公共的大模型服务。好消息是现在企业不需要从零开始训练大模型,因为现在有很多合适的开源预训练模型可以选择,只需投入有限的算力,企业可以针对这些开源的大型模型进行场景适配部署。对于这类大模型的规模以及企业内部应用的使用负载要求,运行所需资源和成本是完全可控的。将大模型适配到垂直专业场景的模式涉及到迁移学习。迁移学习为什么重要?它在不同场景的应用中提供必要的泛化能力。比如预训练大模型使用不同的数据集,训练好一个大的模型它能涵盖多个垂直领域任务。但是,我们新的目标任务有可能不在预训练的大模型覆盖范围之内,那我们需要对它进行适配迁移,来让其覆盖目标垂域。
02
如何“驾驭”大模型的超能力腾讯科技:“大力出奇迹”的大模型,会有哪些特殊“超能力”?现在如何驾驭这些超能力?鲁为民:大模型的“大”是指其规模,具体表现为其参数数量的多少。由于大模型需要存储大量的知识,因此需要更多的神经元来存储这些信息,因此参数的数量大是必要的条件。但是,仅仅参数数量大并不足以支撑强大的多任务能力,必须要有足够大的数据集来支持规模化的模型的训练和学习。目前我们知道基于Transformer 的大模型技术已经可以比较有效地应用于各种自然语言和计算机视觉任务,但是训练这样的模型对于数据的质量和数量都有较高的要求,这是一个比较有挑战性的问题。此外,由于计算量和算力的限制,需要通过不同的方法来实现大模型的训练和优化。OpenAI、Google、DeepMind 等公司的不同实验和研究中基本上得到类似的结论,就是大模型的训练性能与它参数的多少以及数据量的大小是成幂等的伸缩规律,模型规模越大,它的训练损失函数值越小。在这种情况下它们满足一定的伸缩率。我们要求模型性能更好,能力更强更多,则需要的模型规模就越大,同时训练的数据量要大。
推荐阅读
对话科学家曾毅:中国大模型水平不及GPT-4,我为何签名支持暂停巨型AI研发?
未来指北系列
未来指北系列