技术应用 | 国内外AI大模型

时代凌宇翻译技术教育与研究

2024-09-09

本期是第1期[ AI大模型 ]

第二章国内外AI大模型

引言

2022年11月底，人工智能对话聊天机器人ChatGPT被推出，并迅速在社交媒体上走红，短短5天，注册用户数就超过100万。

2023年1月末，ChatGPT的月活用户已突破1亿，成为史上增长最快的消费者应用。以此为始，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。

本章，我们一起来学习了解国内外各大科技公司的大模型产品有何异同。

国外AI大模型

OpenAI

OpenAI是全球领先的AIGC公司，成立于2015年，其最初定位为“非盈利性研究机构”。

2018年，Open AI发布了GPT-1模型；

2019年，公司改制为“有上限的盈利性机构”，并发布GPT-2模型；

2022年3月，发布InstructGPT模型；

2022年11月，发布ChatGPT。

2024年2月15日（美国当地时间）发布文生视频大模型Sora。此外，公司还拥有自然语言转图片的应用DELL E2。

OpenAI旗下模型发展历程

OpenAI ChatGPT

ChatGPT（Chat Generative Pre-trained Transformer），由美国人工智能实验室OpenAI开发的一种全新聊天机器人模型，于2022年11月30日正式推出，能够通过学习和理解人类语言进行对话，还可以根据上下文进行互动，协助完成一系列任务。

ChatGPT使用了人类反馈强化学习(RLHF)进行训练。AI训练师通过提供对话，撰写符合人类表达习惯的对话，分别扮演用户和ChatGPT。随后，对生成的结果进行排名，利用RLHF的奖励机制对模型进行微调优化，反复迭代升级。

ChatGPT的六大特性

ChatGPT在自然语言处理、上下文感知对话、跨领域知识应用、用户意图识别与适应性回应等方面实现了创新，目前已发布至4.0版本，所实现的功能是其它AI工具难以企及的。未来，ChatGPT系列产品将继续探索高级情感智能、深层次常识推理、无偏见输出、长期记忆和持续学习等方面的能力。

ChatGPT持续创新方向

OpenAI Sora

Sora是OpenAI继ChatGPT之后，推出的又一重磅力作。它是基于文本到图像生成模型DALL-E开发而成的，可以根据用户输入的描述性提示快速生成视频，并即时向前或向后扩展视频内容。

Sora的核心功能在于能理解文本指令，并将其转化为动态视频内容。用户只需提供简单的文本描述，Sora就能在几秒钟内利用复杂的图像生成和视频编辑技术，生成长达一分钟的，具有丰富细节和连贯性的视频。

中国龙年舞龙

雨后东京街头

在原理上，Sora主要进行了三步视频训练:

视频压缩网络：在保留既有特征的前提下，将视频降维成更紧凑的形式；
时空补丁提取：将视图信息分解成更小的单元，每个单元都包含原视图中一部分的空间和时间信息，以便Sora在后续步骤中进行针对性处理；
视频生成：通过输入文本或图片进行解码、加码，由Transformer模型（即ChatGPT基础转换器）决定如何将这些单元转换或组合，从而形成完整的视频内容。

Sora实现原理

谷歌 Gemini

美国当地时间2023年12月6日，谷歌发布多模态大模型Gemini。谷歌DeepMind直接宣布，Gemini是“谷歌最大、最强的人工智能模型”，可以理解和操作文本、代码、音频、图像和视频。

Gemini 1.0 提供了三个不同的版本选项：

Gemini Ultra：规模最大、能力最强，用于处理高度复杂的任务；
Gemini Pro：具备在各种类型任务上扩展；
Gemini Nano：体量较小，适用于特定任务和移动设备。

Gemini大模型主要功能

微软 CoDi

微软Azure研究团队与北卡罗莱纳大学研究人员发布了一篇论文《通过可组合扩散实现任意生成》，介绍了一种新的多模态生成模型——CoDi（Composable Diffusion）。

CoDi能通过输入模态的任意组合生成输出模态的任意组合，例如语言到图像或视频到音频。与现有的生成式人工智能不同，CoDi可以根据文本或图像等模态子集并行生成多种模态的结果，即使这些结果模态并不存在于训练数据中。

CoDi使用扩散模型和可组合技术，达到了前所未有的内容生成水平，具备了更强的内容创建、可访问性和个性化学习能力。

示例：

文本+图像+音频 → 音频+视频

输入内容为“滑板上的泰迪熊，4k，高分辨率+纽约时代广场的图片+一段下雨的音频”。经过CoDi生成之后，得到一段“一只泰迪熊在雨中在时代广场玩滑板，伴随着同步的雨声和街道噪音”的视频。

CoDi生成的”雨中的泰迪熊”视频

音频+图像 → 文本+图像

输入内容为“一段弹奏钢琴曲的音频+阳光照耀下的森林的图片”。经过CoDi生成之后，得到一幅“钢琴家在洒满阳光的森林中弹奏钢琴”的图片，并配以“Playing piano in a forest”的文本说明。

CoDi生成的”钢琴家在洒满阳光的森林中弹奏钢琴”图片

Anthropic Claude

Claude是美国人工智能初创公司Anthropic开发的一款功能大型语言模型，目前已经完成了多轮版本更新。它由几位OpenAI的前员工共同创立，目标是打造乐于助人、诚实无害的人工智能助手。

在多项基准测试中，Anthropic的Claude v1和Claude Instant模型都表现出了很好的前景。例如在MMLU和MT-Bench测试中，Claude v1的表现优于PaLM 2。

Claude使用了比其他大型语言模型更先进的架构，使其具备更强的信息处理能力、预测准确度和安全性。

目前，Claude v1能够无缝集成到网络搜索等应用场景中中，将用户问题触发的搜索结果合成为自然语言答案。

Anthropic Claude大模型界面

国内AI大模型

一场科技领域的赛跑

过去一年，国内学术和产业界对大模型的研发也有了实质性的突破。

中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行实时跟踪，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

通过观察2023年7月-2024年2月SuperCLUE-OPEN测评分数可以发现，GPT3.5和GPT4在处理中文方面的表现基本不变，国内头部代表性模型则展现出稳步提升的态势。截至2024年2月，国内第一梯队模型与GPT4的差距在持续缩小。

国内外大模型发展趋势（2023.07-2024.02）

国内各大科技企业纷纷入局

大模型增强了Al技术的通用性，配合专业工具和平台支持应用落地，能进一步开放生态，激发创新，形成良性循环，助力普惠Al的实现。

目前，国内大多数科技企业均采取“模型+工具平台+生态”的三层共建模式，既有助于业务的良性循环，也更容易借助长期积累形成竞争壁垒。百度、腾讯、阿里、商汤、华为等企业，智源研究院、中科院自动化所等研究机构，英伟达等芯片厂商已纷纷入局。

2024年值得关注的中文大模型全景图

百度文心一言大模型

文心一言的发布打响了国内大模型第一枪。

2023年3月16日，百度推出了国内首款公开发布的生成式语言大模型“文心一言”。作为文心大模型家族的新成员，文心一言基于飞桨深度学习平台和文心大模型，持续从海量数据和大规模知识中融合学习，具备知识增强、检索增强和对话增强的技术特色。

文心大模型（ERNIE 3.0 Titan）的参数规模高达2600亿，是目前全球最大的中文单体预训练模型，在机器阅读理解、文本分类、语义相似度计算等60多项任务中取得良好效果。

文心一言包括5大能力：生成式对话、内容创作、跨模态生成、知识增强、智能推荐。

文心一言五大能力

腾讯混元大模型

腾讯的混元大模型产品包括腾讯智影、混元助手等，其中NLP、CV、多模态、文生图等大模型，对内已和腾讯广告、微信、QQ、游戏等产品实现协同，并通过腾讯云对外商业化。这些产品在语音识别、自然语言处理、多模态内容理解、文案生成、文生视频等领域表现优异。

混元大模型广告文案生成案例（来源：量子位公众号，德邦研究所）

阿里通义大模型

2022年9月，阿里巴巴达摩院在世界人工智能大会“大规模预训练模型”主题论坛上，发布了“通义”大模型，并宣布相关核心模型向全球开发者开源。

通义大模型架构（来源：机器之心公众号，2022年世界人工智能大会，德邦研究所）

通义大模型深入电商、医疗、娱乐、设计、金融、工业、制造业等行业。

在电商行业实现图像搜索和万物识别等应用，在司法领域的卷宗的事件抽取、文书分类等场景任务中实现3～5%的应用效果提升，在开放域人机对话领域通过建立初步具备“知识、情感以及个性、记忆”的中文开放域对话大模型，实现主动对话、广泛话题、紧跟热点等对话体验。

华为盘古大模型

华为云团队于2020年立项AI大模型，并于2021年4月发布“盘古大模型”。

受益于华为的全栈式AI解决方案，大模型与昇腾（Ascend）芯片、昇思（MindSpore）语言、ModelArts平台深度结合，已经发展出基础大模型（L0）、行业大模型（L1）、行业细分场景模型（L2）三阶成熟体系。

2022年11月，在华为全联接大会中国站上，华为云进一步利用盘古大模型的技术能力，扩展服务范围，发布了盘古气象大模型、盘古矿山大模型、盘古OCR大模型三项重磅服务。

音语义模型赋能银行、保险的销售场景，提升人员产能

（来源：《预训练大模型白皮书》，德邦研究所）

智谱 AI 智谱清言大模型

2023年8月31日，智谱华章正式上线首款生成式AI助手——智谱清言。

智谱清言通过万亿字符的文本与代码预训练，结合有监督微调技术，对上下文理解长度已从2K拓展至32K，储备了科学、技术、历史、文化、艺术、商业和其他垂直领域的丰富知识，保障用户人机对话体验，持续畅聊无压力。

为了让用户快速上手，智谱清言产品团队创新集成了“灵感大全”模块，以更好地驱动个人AI助手。截至目前，智谱清言“灵感大全”已收录300+个场景的需求模版，覆盖文案创作、职场必备、生活创意、虚拟对话、代码指令等领域的常用生产需求，帮助新用户快速认知其作为提效助手的工作能力。同时，用户可通过“编辑后发送”功能在原有模板上修改，满足用户的个性化需求，多场景激发用户使用灵感。

智谱清言大模型对话界面

科大讯飞星火大模型

2023年5月6日，讯飞星火大模型正式发布，具备语言理解、知识问答以及多模态等7项能力，在文本生成、逻辑推理等AI任务上表现惊艳，中文表现已接近ChatGPT。

2023年6月9日，讯飞星火认知大模型V1.5正式发布，相较于V1.0，几项能力都有显著提升。同年10月24日，讯飞星火大模型的中文处理能力已经超越ChatGPT，英文处理能力与之其齐平。

星火大模型对话界面

综上所述，目前国内外出现的一系列具有划时代意义的大模型不仅在自然语言处理、计算机视觉、智能语音等领域取得了标志性的技术突破，在模型精度、通用性和泛化能力等方面也实现了跨越式发展。

但截至目前，各家头部企业的大模型功能趋同，尚未体现明显的差异化竞争优势。

未来，如何实现更多应用场景的覆盖，更大程度地提升效率、降低成本、创造价值，是延伸产品生命线，抢占发展先机的关键。

【参考】

知乎：简单了解什么是ChatGPT及其应用

百度百科：Sora

钛媒体APP:优等生归来，谷歌最强大模型Gemini能否打败GPT4？