大模型时代,腾讯翻盘需要混元DiT
大数据产业创新服务媒体
——聚焦数据 · 改变商业
作为首个基于中文的DiT架构,腾讯的混元DiT在发布后,仅仅用了1个礼拜的时间,就在GitHub上拿下了1500个星星。相较于那些远在海外的兄弟姐妹们,混元DiT的优势在于能够捕捉到中文的细微含义,甚至是古代诗词、中式菜肴等文化特定元素,并生成与之高度匹配且质量上乘的图像。
混元DiT结合了两个文本编码器,分别是一个双语的CLIP和一个多语言的T5编码器。CLIP是一种具有强大跨模态理解能力的模型,可以将文本和图像嵌入到同一向量空间中进行比较,而T5则是一种多语言文本编码器,具有广泛的语言理解能力。这种双编码器的组合模式,使得模型在处理中文输入时能够更好地理解语义和上下文,从而提高了对中文的处理能力。
市面上主流的文生图大模型,比如OpenAI的Sora,以及Stable Diffusion 3,都没有使用这样的编码器组合。直白一点说,中文,就是混元DiT的主战场。
在混元DiT上,腾讯的开发者构建了一个强大的数据管道来处理数据的整个生命周期,包括数据的添加、过滤、维护、更新和应用。这对于模型的迭代优化非常关键。
为了进一步提高生成图片的质量,混元DiT应用了多模态大语言模型(MLLM)来改进图像描述。同时,混元DiT还支持多轮多模态对话,允许用户通过自然语言交互迭代地细化图像。这对于动态和交互式的图像创作特别有用。
混元DiT在GitHub上的星标达到了1500颗,比同时期爆火到破圈的ManbaOut还高,后者是一篇专门用来反驳Mamba模型的论文。
业内之所以如此关注,最核心的原因在于这是一个开源的DiT模型。这是一种结合了扩散模型(Diffusion Models)与Transformer模型的机器学习模型,通过一系列反转的扩散步骤从随机噪声中逐步生成数据样本。
简单点说,DiT又能像Transformer一样,捕捉长距离关系,进而生成高质量的内容。又能像扩散模型一样,减少了直接在高分辨率像素空间训练的计算负担,还促进了对图像特征的更高效学习和生成过程的控制。
OpenAI在2024年2月15日发布的Sora,使用的正是DiT模型。随后的一段日子里,英文DiT模型确实不少,但是一直没有一款中文DiT模型问世。
华为曾发布过一个DiT模型叫做PiXArt-Alpha,GitHub的星标冲到了2300颗,然而可惜的是,这个模型只能使用英文提示词。
行业之所以一直使用基于英文的DiT模型,是因为训练数据是基于英语的。这也就意味着,虽然模型能理解中文,也能输出中文,但是不能用中文“思考”,生成图片的过程必须使用英文。使用中文会极大增加基于英语的DiT模型计算时的复杂程度,其表现结果为生成图片的质量下降。
中文作为一种表意文字,其字符结构、语法特点以及文化背景与拉丁字母语言截然不同,这要求模型不仅要有强大的语言理解能力,还要能够准确把握中文特有的语义和文化内涵。因此,构建一个能够有效理解并生成与中文文本相符图像的模型需要解决一系列技术难题,包括但不限于中文文本的编码、多模态语义对齐以及如何在生成过程中保留中文的文化和语境细节。
另一方面,技术的发展往往与市场需求紧密相关。随着人工智能技术的普及和中文互联网生态的迅速增长,市场对高质量中文内容生成的需求日益凸显。
在混元DiT出现之前,中文生成模型的缺失反映了市场和技术成熟度之间的差距。可能是因为之前中文市场的规模或具体应用场景尚未达到足以驱动大规模研发资源投入的程度,或是中文生成技术的商业价值和应用场景尚不明确。
混元DiT在某种程度上激活了整个中文生成模型的市场,再加上腾讯将其开源,可能一开始腾讯也没有预料到混元DiT会有如此之高的关注度,不过事实就是,腾讯引爆了行业。
腾讯需要一个超车的机会,“中文DiT”“开源”等等关键词正是混元大模型加速时需要的燃料。实现了这些其他人没有的标签时,混元DiT则成功帮助腾讯实现翻盘,后入场的腾讯反而变成真正意义上领跑的那个人了。
诚然,腾讯是入场比较晚,不过在腾讯整个技术产品体系中,混元大模型处于核心地位。因为腾讯可以通过大模型这项技术,辐射其他应用产品,从而升级服务和体验。
腾讯混元大模型是由腾讯AI Lab负责研发的。这个部门成立于2016年,主要研究方向包括自然语言处理、计算机视觉、语音识别和机器学习等。手机游戏《王者荣耀》中,那些实力和玩家不相上下的AI,就是腾讯AI Lab开发的。
混元大模型的渊源可以追溯到2017年,当时腾讯AI Lab推出了基于Transformer结构的神经机器翻译系统,这是腾讯在自然语言处理领域的一个重要突破,也是造就混元大模型的初始之地。随后,腾讯AI Lab不断投入研发,逐步完善模型的性能和功能,混元大模型也就此诞生。
混元DiT将要如何发展?目前在混元DiT的GitHub页面上可以看到,混元DiT还需要处理一些问题。比如生成图片的质量不及Stable Diffusion 3,以及不能并行处理单张图片等等。腾讯的开发者在GitHub上回复到,混元DiT会在近期推出蒸馏和TRT加速版本模型。蒸馏模型指的是模型体积变小,减少计算资源消耗,同时不影响输出结果。TRT加速版本是指模型利用英伟达的TensorRT技术进行加速,让用户在使用英伟达GPU的前提下,可以更轻松地运行混元DiT模型。对于互联网公司来说,流量变现是看家本领。混元DiT为腾讯带来足够的热度,接下来就看腾讯如何接住这泼天的富贵了。如果顺着这样的发展路线进行推理,腾讯极有可能会推出为手机用户准备的移动版混元DiT,以及为电脑客户端用户准备的网页版DiT,甚至是客户端版DiT,毕竟英伟达的Chat with RTX已经实现了全面脱网运行大模型。腾讯对混元大模型的定义一直都是“实用级”大模型,旨在通过混元大模型来解决实际的问题。根据腾讯的说法,目前,混元大模型已在腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等50多个腾讯产品和服务中进行测试和应用,提供智能化解决方案。随着混元DiT今后的小型化和应用化,腾讯势必会加速整个混元大模型的商业落地能力。此外,开源模型意味着腾讯“留有后手”。大模型企业往往都藏着一些技术更先进的大模型,是为了在技术路线不暴露的前提下,验证模型的性能。比如实则为ChatGPT-4o的ChatGPT-2。混元DiT开源,意味着在中文生成模型领域,腾讯准备了比混元DiT更先进的技术手段。
责编:凝视深空 / 数据猿