干货|腾讯AI大模型专家学习笔记

专家基本面投资 2023-06-29

收录于合集

#AI 87 个

#TMT 111 个

之前的半导体内容果然又惨遭删除。所以要看完整纪要，请加入星球。

需要更及时的看到干货信息，以及部分文章因敏感性问题删除，因此只在星球留存，望周知。请加星主微信！

本纪要首发星球。添加星主微信号：chain-capital，加入星球及时获得相关纪要信息。绝大数调研信息只发到星球，比如有粉丝在后台问某个具体公司的调研信息，我们已经上传星球。

之前连续发布AIGC相关文章，因篇幅原因放在文末供参考。

摘要：

腾讯AI大模型六个BG都有参与，其中TEG在算法上更偏general，其他BG更偏行业。
混元大模型万亿参数水平，相比ChatGPT性能更强，但可能比GPT4比有所不足。混元大模型目前偏自然语言，而GPT4支持多模态。
推理过程边缘侧和训练侧是两套系统，是分离的。
目前来看通过翻译扩充中文语料提升不会很大。
大模型之后会接入微信、游戏、短视频、广告、TOB端等业务。
腾讯目前部门向上申请的资源中浪潮占比偏多。
目前数据均采用联邦学习计算方式进行加密，不会导致原始数据泄露。
精调不需要更新全部网络，不需要更新后面几层，故算力和数据要求较小。

Q&A

Q：腾讯在AI大模型方向的进展情况？混元大模型？

A：腾讯的大模型情况与百度、阿里不同，我们分到了每个BG，我们有6个BG（TEG技术中台、CSIG面向B端、微信、游戏、PCG做内容、CDG偏广告金融），其中六个BG都有做AI，都非常重视不管从投入还是老板重视程度来看，我认为AI在技术侧是腾讯number one的地位。。TEG类似中台，AI lab在TEG下面。混元大模型由腾讯唯一17级科学家张正友老师负责，也是AI lab的负责人。6个BG都有人在参与混元，共同推进，算法上TEG偏general，其他BG偏行业。大模型腾讯在几年前也做过，混元也有上一代产品，偏检索式。马上五月要发的是偏深层次的，对标ChatGPT。目前混元还在测试研发中。

Q：腾讯AI大模型在什么样的水平？

A：腾讯AI大模型是万亿（参数）的，虽然还未发布，但我们自己认为比ChatGPT要强，但比GPT4可能不足，GPT是支持多模态，而我们暂时偏自然语言。

Q：混元大模型的算法是腾讯原创？还是基于什么技术路线？

A：算法上对标GPT，但也有不一样的地方，比如Fine-tune、Reward Model、PPO，但其实这三步都是大家需要做的事情，主要是需要自己找一些新的数据，再做数据预处理。

Q：在算力层面，腾讯云已用于AI训练的算力在什么水平？后续投入计划？

A：我们投入了将近万张卡，我们在算力上还是有一定储备。我们也在内部评测华为昇腾芯片，发现有些场景下性能还可以。

Q：混元的训练数据以什么类型为主，数据来源？

A：数据来源为公开中文数据集、自己内部数据。数据需要做标注等预处理工作。

Q：能否介绍一下您正在研发的产品具体情况？未来商业化场景？

A：我们主要面向B端、G端客户，后续会重点推行业的中小模型，主要有几种模式：1）对于超大客户，可能会选择从头训练一个大模型，但这种情况比较少，我们有能力去帮助客户从0到1重新训练大模型。2）基于客户的私有数据，对我们基础大模型做定制化fine-tune。3）大多数客户还是会基于其行业属性，我们一起联合训练模型。

Q：腾讯混元大模型在哪几个方面的性能强于ChatGPT？

A：从参数上，我们1万亿，ChatGPT是1750亿。

Q：腾讯的AI服务器用哪家较多？

A：浪潮。

Q：腾讯在AI医疗方面有没有与企业合作做AI医药研发训练，或者AI在线诊断？AI医疗数据有专门数据处理公司吗？

A：我跟的领域没有做这方面的事。我知道有一个单独的团队在做Drug AI的事情，但实际做到什么程度我不清楚。也有团队在做医保卡相关的项目。数据处理公司也不太清楚。

Q：整个训练过程都是有监督条件下的大模型训练吗？

A：前面模型可以做自监督，后面的要在模型上做数据标注。算法原理是先有一个一般意义上的模型，再在模型上做数据标注、排序等。

Q：在混元大模型上做行业小模型，小模型属于推理部分吗？

A：大多数客户只要推理，但费用和投入肯定不一样。

Q：在推理过程中，数据传输和算力只有大模型需要还是推理端也需要？

A：取决于客户部署在哪里。如果部署在公司云上，需要采购公司算力。如果有自己的私有云，就有自己的算力。针对数据隐私公司会加密。

Q：如果应用端是b端企业，跑行业数据会落在边缘侧和训练侧不联系吗？

A：是完全隔离的，可以认为是两套系统。训练后会出参数，之后进行部署和训练是分离的。像在现在体验的ChatGPT只会用推理部分，与训练无关。

Q：以混元大模型为基础开发的行业小模型在算法上要与大模型适配？

A：网络结构肯定要一致。本质上都是神经网络，训练输出权重，推理就是利用网络结构做矩阵层。

Q：结构一样可以迁移吗？

A：每家都是完全不同的，像安卓安装的应用要重新开发才能安装到ios系统。

Q：英文、中文语料在AI大模型上的差异？有可能通过翻译扩充中文语料吗？

A：现在更缺的不是量，而是高质量数据。翻译本身会有信息损耗，目前英文比中文多了几倍，目前翻译不见得有很大的提升。

Q：知识性语料翻译损耗低？文学类相对高？

A：知识性英文语料在中文百科已经有了，没必要翻译。搜索频率极低的也没要必要翻译。西方文学名著应该都有翻译了，非常小众的可能没有。

Q：中国处于数据安全不太可能完全接纳ChatGPT？微软在bin和office上的Chatgpt能否通过技术优化跨过监管要求？

A：除非后续OpenAI同意把数据都放在政府监管之下，可能才能被容纳，这与技术没有关系。

Bin和office应用同样，微软要接受政府监管，技术上像VPN是不会统一的，因为从个人安全、国家安全来看，数据是重要资产。

Q：训练大模型时间？大概多久超越GPT4？

A：之前有过底座模型，现在是基于底座模型研发，不是从零开始。时间将近5月份，近小半年时间。

Q：百度、华为、阿里、小米等技术层面对比？

A：大家方法肯定类似，只是每家数据有差异。像百度做搜索引擎的肯定有先发优势，后续还要看把技术优势商业化能力。

Q：腾讯模型后续进入方向？

A：1）微信肯定是最好的场景，因为它本身偏对话具有小程序，后续加上服务肯定有更好的体验。2）游戏上肯定设计偏创意设计，效率上肯定有提升。3）广告业务也会有很好的工具赋能。4）短视频肯定也会有很大提升。5）TOB上肯定会往各行业推大模型，因为AI本身是降本增效的工具。

Q：浪潮服务器采购量？

A：服务器采购量不知道。但申请资源里浪潮偏多。

Q：大模型商业化会率先To C还是To C？

A：同时进行，因为每个BG均有参与，同时基于其底座能力。

Q：目前是否有对外合作？

A：目前SaaS加速器、微信等业务均有大量合作伙伴。原业务基于AI的部分合作业务均可以使用大模型进行替换。

Q：大模型合作中的数据保护形式？

A：客户行业数据主要用于训练部分对模型进行定制。目前数据均采用联邦学习计算方式进行加密，不会导致原始数据泄露。联邦学习原理可以实现只共享数据权重，数据和权重之间是单项传递，无法倒推。

联邦学习分横向联邦、纵向联邦。联邦学习根据不同用户的权重，将训练出来的模型加权平均，再分布给用户进行下一轮训练。

Q：云端精调收费方式？

A：采纳腾讯IaaS算力进行训练，腾讯也有自己的特殊数据帮助客户训练。

Q：精调与预训练两个过程对芯片要求是否有区别？

A：预训练主要是通过反向传播对全量网络进行更新。但精调不需要更新全部网络，不需要更新后面几层，故算力和数据要求较小。

Q：有一定算力基础的厂商是否可以自己进行精调？

A：腾讯万亿量级底座效果会较好，但目前斯坦福也已经推出了小参数但效果不错的模型。伴随算法不断迭代，未来算力不会是瓶颈，数据才更为重要。

Q：若使用昇腾芯片，会通过使用华为云还是采购芯片第三方代工方式？

A：从技术来说是都可行的，但是从成本上来说，华为云成本会比采购更低。但腾讯肯定不会使用华为云，会使用自建云。对客户来说，还需要考虑的方面是数据安全性。但将数据交给国内大厂都是较为安全的。

请点击此链接，获得更多调研纪要内容，或请添加星主微信号：chain-capital

免责声明:本文所载内容并非给他人所做的操作建议。本文所载内容仅供参考之用，读者不应单纯依靠本文的信息而取代自身的独立判断，应自主做出决策并自行承担风险。本文不作为任何法律文件，观点仅供参考，文中的所有信息或所表达意见不构成投资、法律、会计或税务的最终建议，作者不就文中的内容对最终操作建议做出任何担保。在任何情况下，作者不对任何人因使用本资料中的任何内容所致的任何损失负任何责任。市场有风险，入市需谨慎。

之前连续发布AIGC相关文章。

热点|AI算力芯片那些事儿纪要

深度|AI算力机会专题解读纪要

深度|从算法工程看ChatGPT的原理与应用

热点|盘古大模型交流纪要

深度|AI芯片专家观点纪要十问十答

深度|ChatGPT展望和AI解读

深度|国内AI大模型深度解读及发展机遇展望会议纪要

AI技术专家电话会议纪要

重磅|英伟达GTC会议分析师专场交流纪要

重磅|英伟达&OpenAI炉边谈话：人工智能的今天和未来的愿景

热点|人工智能芯片专家纪要