自然语言成了编程语言,不会写 Prompt 的程序员会面临失业吗?
如果让一个活在 18 世纪的人看看今天的世界,他会被现代科技的伟大所震慑,沉醉于未来社会的梦幻;但如果让一个 15 世纪的人去看看 18 世纪的世界,就感受不到多少科技与文明的进步了。
随着时间的推移,人类的进步速度正在越来越快,因为新的技术和知识可以更快地被发展和传播。如今的人工智能技术,发展到了一个能推动时代的节点上。
当前,以 ChatGPT、AIGC 和大模型为典范的智能化、操作系统级的底座正在形成,大模型技术被认为是推动人工智能技术发展的重要引擎之一。近年来,OpenAI 的一系列大模型产品如 GPT-4、Stable Diffusion 和 Midjourney 相继问世,让所有人开始关注一个概念:人工智能操作系统。
3 月 25 日,由 CSDN、《新程序员》联合主办的“新程序员大会(NPCon):AIGC 与大模型技术应用峰会”在北京环球贸易中心盛大召开。为了迎接这个崭新的 AI 应用时代,在大会“AIGC 与大模型技术应用论坛”,邀请了五位极具代表性的人工智能专家,通过对 AIGC 和大模型的思考和在行业多年的探索实践,深入展现人工智能发展的最全面貌。
直播回放:https://live.csdn.net/room/programmer_editor/Nc8cfWuo
揭开论坛的序幕,文因互联工程 VP 兼首席科学家宋劼带来了“探索新技术之大模型在金融 AIGC 领域的前景与应用”的主题演讲。
宋劼,文因互联工程 VP 兼首席科学家
AI 历史上经历过许多次关键时刻,而 ChatGPT 的诞生无疑是能载入史册的又一次里程碑事件。宋劼表示,AI/AGI 在实现从“鹦鹉智能”到“乌鸦智能”的过渡,从 2013 年深度学习方法被应用于改进 NLP 各个中间任务、到 2017 年的 Transformer,再到 2020 年的大语言模型广泛应用,这一领域正在蓬勃发展。ChatGPT 能够观察⼈类的反馈、融合⼈类知识、更加符合人类要求,最终引发第三代文字处理革命。
然而,针对宋劼所在的金融领域,她也指出了 ChatGPT 现存的四大问题:
知识层面上,ChatGPT 缺少知识驱动,对领域问题依然有理解瓶颈。
可行层面上,ChatGPT 仍然是一个黑盒模型,不仅计算过程不可解释,产出也不可信。
数据层面上,通用大模型本身在数据适配性、合规性和安全性上,针对 ToB 场景应用依然具有限制。
成本层面上,大模型的稳定训练并实现优异性能需要极高的计算成本和工程实现能力。
宋劼提出,可以从构造领域语言模型(DLM)、建立并整合领域 Prompt(提示、指令)集、运用 RLHF 的基本原理和降低对进口硬件的依赖等多个方面入手,以有限预算在领域应用落地类 ChatGPT 应用,最终创建一个 FD-LLM(金融领域大模型)。
与 ChatGPT 类似的通用大模型需要具备写诗作画等能力,但对于 FD-LLM,只需要保持其在该领域的优势,即能够回答金融行业问题。AIGC 目前已经广泛应用于金融各个场景,而 FD-LLM 将进一步大大提升文档类型覆盖度、数据维度的丰富度和业务规则的挖掘。
宋劼预测,AIGC 在报告生成场景的应用会在今年出现井喷式的爆发,而包括银行信贷、生成评级报告、债券募集说明书以及财经新闻都会受到影响。在未来,金融领域的人工智能大模型 FD-LLM 终将实现,进一步研发降低成本的工具和技术。
在接下来的“文本及多模态预训练技术的研究与应用”主题演讲中,网易伏羲实验室资深研究员,NLP 研究组及多模态算法负责人张荣升介绍了网易伏羲实验室在大模型方向的技术积累,包括文本多模态理解和生成预训练模型的建设,以及大模型在歌词辅助创作、文字游戏和互联网搜索推荐等领域的应用案例。
张荣升,网易伏羲实验室资深研究员
张荣升首先提出,加大预训练模型规模及提升数据质量已成为获得更好人工智能效果的重要手段。近年来,围绕大模型技术,涉及硬件、深度学习框架、模型本身和其上层的各种商业应用的发展非常广泛,从最初的文本,到图像和音频领域到现在的多模态领域,已成为未来的趋势。
张荣升的工作团队在预训练模型云平台上建立了针对文本、图像、音乐和行为序列等方面的大模型,还开发了多样化的应用,包括高效微调和特定垂直领域场景应用,最终推出了中文预训练大模型。
张荣升指出,考虑到下游应用场景,伏羲推出的中文文本预训练模型“玉言”的训练语料主要来源于小说、百科和新闻等,该模型能够通过二次训练将已有的 GPT 模型转化为 Prefix-LM,提升语义理解能力,同时兼顾生成和理解任务,并将理解任务转化为生成任务。其 Enc-Dec 预训练模型则可以使得大模型具有优秀理解能力,同时具备较为优秀的生成能力。
接下来,张荣升介绍了伏羲的多模态预训练模型技术在应用落地时的做法。
第一个案例便是网易《遇见逆水寒》游戏内的“傀儡戏”玩法,让玩家和 AI 共同创作剧本,进行角色扮演。其实现方式为通过一个 GPT 模型,将玩家输入和故事状态连接,送入预训练的文本生成模型生成候选答案,再经过目标判定模块判定。
第二个案例是网易“有灵”歌词辅助创作。大模型技术让这种创作型的业务也有了工具,它可以提供内容和格式多维度定制生成,还能联系上下文进行局部修改。
随后,张荣升介绍了多模态预训练模型技术的研究与应用。伏羲团队基于 clip 框架构建了自己的数据库,其中大约有 9 亿条中文数据,包括 7 亿条互联网数据和 2 亿条开源数据,其模型能力在市面上已经得到了验证。
图文理解预训练模型可以利用海量的数据,处理中文情景下的文本图像理解以及对风格化图像的微调,同时针对游戏业务或互联网业务需求进行定制,进行游戏制作领域较为繁琐、需求较大的图标生成功能,甚至完成 AI 绘制视频插画。这种思路将为整个行业带来启迪,推动文本创作和多模态创作的产业革命更新。
大语言模型正在涌现出程序员的逻辑能力
人工智能对我们生活带来的重大改变,离不开学术界的潜心研究。加州大学戴维斯分校物理学博士、超对称技术首席科学家吴恒魁带来的便是“基于重整化理论对大语言模型的涌现现象建立数学框架”的主题演讲。
原子构成分子、蚂蚁组成蚁群、人类建造国家。个体向群体的组织行为导致预期之外的新特性产生,这便是涌现性。
吴恒魁指出,在 GPT-4 这样的大模型上也可以观察到涌现现象,而在早期的神经网络及千亿参数的大语言模型中也能观察到这种现象。如今,模型的能力不断演化,已出现了复杂的推理,产生接近于人的逻辑。随着模型复杂度和能力的变化,整个系统的复杂性也在变化,从而输出一些意料之外的结果,和涌现有着异曲同工之妙。这种超出预期的表现,在模型系统简单时是不具备的。
以深度学习的发展史为轴,吴恒魁提出从通用人工智能(AGI)角度,GPT 系列无疑是最成功的。GPT 系列的产品,在构建单个预训练语言模型的基础上,可以适用于不同的下游任务和多种控制任务,这样就能建立起一个统一的底层基础模型,基于这个模型进行针对不同下游任务的微调。
在多项技术的基础之上,GPT 产生了上下文学习能力和零样本学习能力,并基于预训练模型进行微调。如今整个业界都在追求通用人工智能,GPT 的范式是革命性的。
随后,吴恒魁深入介绍了大语言模型的涌现现象。GPT 现在已经具备了人类的逻辑能力,这本身就是一种涌现现象,而如果继续训练,便还能和人类一样具备预测词语的能力。当模型复杂性较小时,模型无法具备这种能力,反之却可以。模型的复杂性不仅与参数量有关,也与数据量和训练步数有关,因此,模型复杂度增加,才能应对不同的任务,产生相应的强大能力。
在物理学中,产生涌现行为的基本原因是复杂系统内部的某种对称性被破坏,而这种对称性的破缺是复杂系统产生涌现行为的底层原因。而现在大语言模型系统的参数已达 1750 亿,从最底层的单元到最后的大语言模型,它们之间的关联性是关联系数。这些联系是如何形成的呢?吴恒魁提出了以下几个基本思想:
通过重整化群的方法构建数学关联性,用一套数学系统来描述从最微观的神经元到最后的大语言模型的关联性。根据吴恒魁的分析,他指出了标度律(Scaling law)显示大语言模型训练过程中模型 loss 值和模型参数、训练数据量、训练算力呈现幂次方的关系。
以统计力学的方式,构建大语言模型相变行为分析的一套数学框架。其中主要是寻找大语言模型的序参量,从而计算序参量的临界指数。在统计力学的相变理论中,从一个状态变化到另一个状态过程的临界状态遵从幂次方定律;幂次律显示了相变的存在。
最终,可以通过训练底层大模型以及微调,以探究模型逻辑的变化和复杂逻辑能力的出现,用相变理论和重整化理论构建一个数学框架,来完成对大语言模型的涌现现象的解释。
程序员正在给“虚拟数字人”赋予灵魂
紧接着,华院计算人工智能实验室资深研究员蔡华带来了“让数字人更具个性和情感:ChatGPT 技术的思考启示”的主题演讲,他将探讨虚拟数字人物在对话交互中个性和情感的作用,并介绍最新的 GPT 技术的应用,探索数字人物的个性和情感在对话交互中的表现。
蔡华,华院计算人工智能实验室资深研究员
华院计算的虚拟数字人是基于认知算法和 AIGC 技术的具体体现,华院认为,虚拟数字人有三个层次,第一个层次是能说会动,第二个层次是真情实感,第三个层次是能思会想。其中第一个层次与 AIGC 技术中的音视频生成相关,第二个层次与文本生成和跨模态生成相关,最后一个层次则是机器人能够有自己的思考,并且持续进行自主学习,涉及了策略生成等其他方面。
当前,ChatGPT 已经覆盖了较多能力域,能够回答问题、撰写文章、文本摘要、语言翻译和代码生成等任务,同时能够处理更多小众主题。蔡华接下来介绍了要如何使用 ChatGPT 来进行角色扮演和情景模拟,使人工智能具有个性和情感,而这主要是用到了两项技术:语境学习(In-context learning)和指令微调(Instruction tuning)。
同时,蔡华也指出,ChatGPT 仍存在事实性错误、提示敏感、逻辑推理欠缺、偏见歧视、内容冗长、道德风险和缺乏感情与个体差异等问题,声明或发现不足,有利于对技术的全面认识。
为了实现虚拟数字人的情绪系统,需要通过利用“常识知识图谱”中的社交常识加入到对话交互框架,使人工智能具有常识和情感。
在塑造虚拟数字人的个性时,蔡华表示对话机器人还存在缺乏人设一致性的问题,这会让对话机器人的上下文逻辑和单句回复逻辑不一致。为此,华院建立了一份行为概率性知识图谱,涵盖了 5000+ 种不同的行为,打造个性化的交互。
最后,蔡华总结,ChatGPT 和基础大模型提供了更强大、更智能的交互方式,这使得我们在未来有机会见到一个温暖而有情感的虚拟数字人——“数智人”,它能理解他人的情感和感受,并与人们进行个性化的互动。
编写 Prompt 将成为程序员的必修课
“AI 不会取代你,会用 AI 的人会取代你!”作为主题演讲环节的收尾,句子互动创始人 & CEO,微软人工智能最具价值专家(AI MVP)李佳芮带来了“ChatGPT 从 0 到 1”的主题演讲,她也是本场论坛的主持人。
李佳芮,句子互动创始人 & CEO
李佳芮从应用场景、技术原理以及 OpenAI 的创业角度入手,深度探讨 ChatGPT。她以一个利用 ChatGPT 制作公开课大纲的案例,展示了ChatGPT 完美的上下文处理能力与它的「可解释性」和「数据偏见」问题。而想要让 ChatGPT 正确地给出答案,就必须提出准确的问题,提问者的水平会影响答案的质量。
她表示,如果想成为优秀的提问者——Prompt Engineer,就要从提问的方式开始学起,清晰地表达自己的想法。她指出了以下几点:
适当的提示可以引导模型生成有用的输出;
用多种方式表达以达到最佳结果;
描述具体的事情并给出相关的背景信息;
向模型展示你希望看到的内容,引导模型生成想要的输出。
在现场,李佳芮介绍了三种 Prompt 的实例操作。面对代码编写、情人节约会指南和论文写作等要求,ChatGPT 都可以完成任务;和传统写作截然不同的是,Prompt Engineer 不需要先寻找事实资料,而是先要求 ChatGPT 生成论点和结论。
同时,现在也已经出现了 FlowGPT 这样的 ChatGPT 使用者社群,用户们已在上面上传了上百个使用场景与提示词,助力自动化写作。
李佳芮还剖析了生成式人工智能的应用场景。她指出,生成式人工智能是基于归纳分析学习数据生成的模式,可以创造出新的数据样本。生成式人工智能广泛应用于文本、代码生成、图片、语音合成、视频、三维模型等领域。
最后,李佳芮表示,对话式人工智能时代已经到来,交互方式的范式出现了转变。她提出工业革命解决了“重复体力劳动”的事情,人工智能未来解决“重复脑力劳动”的事情,人工智能不会取代程序员,取代程序员的将会是善用 AI 的人。她相信单纯的智能不会解决所有的问题,机器和人将协同工作。