亲爱的数据

再造一个英伟达？黄仁勋如何看待生物学与AI大模型的未来？

原创：亲爱的数据，谭婧英伟达公司坐拥万亿市值，一创再创高光时刻。这家公司掌舵人如何看待AI的未来？这么说吧，只要英伟达股价还能涨，我就会对此保持浓厚兴趣。巧了，2024年春节，英伟达创始人兼CEO黄仁勋在迪拜有个高端对话。阿联酋人工智能部长Omar

2024年2月27日

其他

前言理解GPT-4V，成为GPT-4V，超越GPT-4V。这不是一个段子，而是大模型极客内心的涌动。2023年是一个重要的年份。是前进的一年，是提速的一年，大语言模型的历史意义，已属非凡。但我今天想讲的，不止大语言模型。有风掠过田野，图文模型迅猛成长，取得实质性进展。模型就像机器人，快要看懂世界了。还取了花哨的英文名。英文名后，应有“模型”二字，下文均做省略。可以将图文模型的能力，上升为多模态模型的能力。不过，多位受访专家均不建议使用多模态一词；我采用建议，在文中统称，图文模型（或者视觉语言模型，Visual

2024年1月30日

其他

腾讯混元大模型“干”广告创意：那我走，都让AI来？

谁能体会，短短几个月，AI让打工人心情大起大落。心路历程：烦死AI，理解AI，用上AI。心路历程一：烦死AI搞广告营销创意，文案重要，AI出文案；虽然不是句句金句，但是你扛不住AI生成得快，量大。谭老师手上有个数据，某头部电商营销文案由AI生成，再由人工审核，通过率95%。搞广告营销创意，图也重要，AI文生图要接棒了。Midjourney，Magnific

2024年1月22日

其他

对话百度孙珂：想玩好AI Agent，大模型的“外挂”生意怎么做？

原创：亲爱的数据（一）若说大模型应用开发是淘金，加速应用开发的框架，工具，平台则是“生产淘金铲子”。有人淘金，总有人生产铲子。机会一定会被头部厂商捕捉。而开源产品总是先出发。LangChain是一个开源的大模型应用框架。2023年3月，LangChain与亚马逊云、谷歌和微软云等系统集成。当然，大模型应用开发的难易程度，取决于开发者的水平。有开发者感慨：“LangChain真香”。也有小白开发者吐槽：“与LangChain缠斗了几个小时，只是为了用它的两个功能。”LangChain可提升大型语言模型的应用程序开发效率，提供了用于构建应用的工具和模块。举个例子，假如一个手机APP叫“绿了么”。用大模型加持“绿了么”APP的时候，LangChain会参与一个这样的Pipeline（执行任务的过程）：首先，“绿了么”APP把问题发送给大模型。其次，大模型理解并回答问题。第三，大模型的答案发送回“绿了么”APP。在这个Pipeline上，除了大模型的工作，剩下的工作LangChain可以接手。LangChain是一种软件框架，便于开发各种大模型原生应用。调戏过大模型的人都知道，开箱即用的玩法就是在那个窗口里输入提问。只能一问一答这么个玩，就太局限了。很快，人们开始思考，不如把大模型变成一个超级组件，和别的东西“拼”在一起玩。但有时候会有点小麻烦。若在大企业部署就更麻烦，牵扯到很多API，以及其他麻烦事（身份验证，流量控制，鉴别权限）。这时候就需要大模型外挂。我再换个例子来聊：一个被大模型加持的AI

2024年1月3日

其他

指令数据：训练大模型的“隐形助力”

作者：谭婧（一）指令数据，了解一下先聊一件圈内趣事：2023年初，大约在1月到2月份前后，百度公司如流工作卡上有一个任务，让百度员工打开脑洞，写“问答对”。一问一答都让员工设计。如流是百度员工内部通讯，相当于企业微信。我推测此举很可能是在充实其“指令数据集”。百度的做法是非常科学的指令数据集构造方法。指令数据（Instruct

2023年12月8日

其他

卷大模型开源，正确姿势是什么？

漫画：大模型用于腾讯广告，难在哪？AI框架系列：1.搞深度学习框架的那帮人，不是疯子，就是骗子（一）2.搞AI框架那帮人丨燎原火，贾扬清（二）3.搞

2023年12月1日

其他

假如你家大模型还是个二傻子，就不用像llya那样操心AI安全

原创谭婧，假设如题。那些傻乎乎的，时不时说胡话（号称“幻觉”），没有变聪明（号称“智能涌现”）的大模型，谅它也掀不起什么大风浪，然而，厉害的大模型就完全不同了，只有遥遥领先的技术，才会遇上别人没有遇到，或者别人还没有资格遇到的难题。现在的GPT-4，未来的GPT-5，相较于前几个版本性能更强。安全挑战，史无前例。请看八集连续剧剧情简介：第一集：论文一石激起千层浪OpenAI原独立董事，海伦·托纳（Helen

2023年11月29日

其他

大模型下一场战事，为什么是AI Agent？

Agent的严格定义，还没有。比尔·盖茨倒是说：“这种类型的软件可以响应自然语言，并且可以根据对用户的了解来完成许多不同的任务。”要我说，能自动化地完成任务，甭管大小，用了大模型的能力，都算AI

2023年11月16日

其他

漫画丨搞掂大模型，如何榨干每一滴算力？

原创：亲爱的数据失败不可怕，可怕的是朋友成功了。此话用到大模型这儿，就是：失败不可怕，可怕的是“朋友”有很多算力。看出来了，大模型的训练和推理需要很多很多GPU，有些爆款算力产品居然跻身“电子黄金”。外部那些不怀好意的人还在GPU上捣乱，气煞我也。不过，气归气，预期之内。（一）什么是算力的发动机？2023年9月，微软官网曾有一篇报道，其原文为：“美国爱荷华州有一台Azure的超级计算机（Supercomputer），是微软为OpenAI团队打造的一套系统，用于训练突破性人工智能大模型。”这个Supercomputer，可以翻译成“超级计算机”。但是，这不可能是超级计算机，泛指厉害的计算机。陈左宁院士曾说过，传统高性能计算机并不最合适用于AI对算力的需求。我特意请教了权威专家，他告诉我：“因为没有详细配置，不好判断是不是超级计算机，也有可能是智能计算平台。”他还强调：“目前主流超级计算机架构设计尚不能高效率地支持大模型训练，需要专门设计，以GPU并行为主的智能计算平台。”OpenAI大力出奇迹，高性能集群始终是算力的发动机。但凡需要训练千亿参数的AI大模型，背后必然是一个复杂系统。算力发动机必然是这个复杂系统的一部分。而模型已是科技生产力里的重要生产元素。即便现在盈利能力还不强，但是在接触AI这件事情上，国内客户的兴趣和诉求非常强劲。既然AI大模型必然广泛应用，那么算力要标准化，且性价比要高。而这两件事都不件容易。阿里云资深专家九丰告诉我：“GPT-4出现，让模型训练的范式非常强地依赖高性能计算的硬件和高性能通信带宽的网络，此前完全不是这样。”高性能很难，挑战还有两个。这就带出了另外一个话题，如何衡量AI集群算力性能？而对于训练大模型的算法同学来说，他们不会仅仅关注性能数字，而是关注另一件具有同样内涵的事情：用AI集群训练大模型，到底要花多少时间？（二）时间都去哪里了？大模型训练对算力“饥渴”，对时间“焦虑”；原因是它有个特点是“强同步”。比如，一个人做一道大计算题，需要一百天。那就找一百个人来一起做。当干活的人多，首先要分工，任务分配下去之后，需要同步工作。然而，大模型解题需要好多步骤，中间步骤解出来，其计算结果需要同步传递给其他GPU。那些还没有拿到答案的GPU只有枯坐傻等。有点搞笑的是，等到最后一个GPU拿到答案才能一起开始算。那些数量不大，还迟到很久的任务，有一个名字叫“长尾时延”。等待时间，计入模型计算的总时间。就好比，等待吃饭的时间，计入吃饭总时间。常听专家们谈论一个百分比：通信占比。当通讯占比是50%，整个训练时间里，计算和通信时间各占50%。计算占一半时间，枯坐傻等也占一半时间。同样的算力，别人的训练时间是你的一半。太可怕了。这叫直道超车。按我的理解，把计算这件事情分成三块，第一，“纯”计算的时间。芯片性能很重要，任何软件优化的天花板，必然是硬件的上限。垃圾芯片再怎么优化，不可能有“电子黄金”跑得快。第二，取数据的时间。计算服务器和存储服务器之间打交道，相当于你先把原材料运过来。除了用高速存储，下一步就是做缓存，数据从存储那里拉比较慢，就把它缓存到离计算近的地方，拉起来速度就快了。第三，网络的时间。虽然是给计算打配合的，俗称“服务于计算”。但是，它占用了大量的时间，是计算里面的重要一环。用网络传数据，就像说话沟通一样。机器多了，无法线性扩展，网络速度自然就慢了。所以，想给计算集群做一个完整的优化，不能只优化“纯”计算部分，这三块都要考虑到。（三）系统稳定，情绪稳定如果计算集群不稳定，那么算法同学很可能情绪不稳定。从某种角度来说，芯片一直处于较高频率的计算状态，硬件的故障率肯定会比传统玩法高很多。机器规模越来越大，会不断刷新故障率“成绩单”。并且，计算任务停止所付的代价也随规模增大。好比，全村停电和全国停电，经济损失肯定不一样。训练大模型的算法同学对故障非常痛恨。讲一个前几天阿里云异构计算产品负责人王超告诉我的段子：当年，阿里算法同学曾内部吐槽早期的灵骏集群不好用。的确，那时候，在千卡稳定运行8小时这个段位上都努力了好一阵子。8小时是什么概念，你得让算法同学安稳睡一觉。算法同学得罪不起，他们拿灵骏的拼音开头（LJ）开了个玩笑（垃圾集群）。听到此，相信你很难不记住产品名字（蚌埠住了）。模型训练之时，GPU的状态一路打满，都把设备累到这个份上了，故障多点实属正常（虽然不可接受）。于是，保障稳定性对于AI集群的重要性不言而喻。甚至说，现在比过去更应该重视怎么通过软件层面的优化，降低故障发生。在庞大的复杂系统里，底层元气满满支持上层软件专注做事，上层软件如何能让硬件的计算性能“精神抖擞”？软件层面的方法应该有很多，就看怎么设计。当某个硬件可能会出现故障或者降速的时候，能够提前迁移训练节点。假如，带宽由800G掉到400G，这是一个很严重的事情，训练受到降速影响，算法同学完全无法接受。找到问题，干掉问题；实际上，如果说不去做一些任务状态的精细监控，没有办法发现故障。AI大模型的训练，已经是一个很大的复杂系统了，出现千里之堤毁于蚁穴的概率比以往大很多。需要有人为此做出专门的设计。合理的思路是，检测到这一类降速故障，把任务迁移到正常节点。起把故障节点下线，自动维修，之后再自动上线。我拿PAI灵骏（PAI的读音为π）里的功能AIMaster为例子来分析。它是一种兜底的容错方法。这种方法又好像一种最低战损法，只要我的作战单元足够小，即使该单元全军覆没，我的战损也会控制在很小范围内。

2023年11月2日

其他

科大讯飞刘聪：假如对大模型算法没把握，错一个东西，三个月就过去了

丨谭婧在现场10月24日上午，坐标安徽合肥体育中心，2023全球1024开发者节开幕。可容纳万人的主体育场里座无虚席，观众们聚精会神，像关注体育赛事一样观看一场科技盛会。会上，科大讯飞正式发布讯飞星火认知大模型V3.0，和华为共同推出的大模型算力平台也揭开面纱——“飞星一号”，同时启动更大参数规模的星火大模型训练，预计2024年上半年实现对标GPT-4。自始至终，无论是科大讯飞董事长刘庆峰，还是科大讯飞研究院院长刘聪，他们都在强调一个事实：目前，国内与国际顶尖大模型对比还存在综合实力、平台能力等差距，要正视差距，并且以最先进水平为目标，奋起直追。比起在C-Eval榜单排名靠前，且把GPT-4“挤出”榜单前十，并对此特意宣传的团队来说，科大讯飞两位重量级演讲人都表现出开诚布公与推诚相待。刘庆峰董事长的原话是：“跟GPT-4比，我们还有要学习的地方，还有一个奋斗努力的过程。”“奋斗努力”这件事，字越少，事越大。而“亲爱的数据”在与刘聪院长的进一步交流中，他谈道：“假如对大模型算法没把握，错一个东西，三个月就过去了。”在他这句表达的背后隐含着对训练技巧关键所在的熟悉与了解。据谭老师了解，因训练周期天然属性使然，刘聪院长谈到的数字是确数，不是一个夸张的比喻。他的话很清楚地表达出大模型训练中的高风险，以及走错路后要付出的高昂代价。从一个侧面反映出训练大模型的真实难度；也反映出按既定时间节点如期完成任务的挑战性。再则，大模型高水平实战经验等于直接省大钱，毫不为过。发布会现场，除了坦诚之外，刘庆峰董事长的演讲充满激情，显得对明年上半年追上GPT-4胸有成竹。（一）最先进的底座模型（LLM）“哪有什么百模大战？（反问语气）”是谭老师一直以来的观点。“百模大战”是停留在新闻标题上的一个有误导性说法。从技术角度，将底座模型（LLM），开源微调模型，行业垂直模型等不同类型大模型放在一起比较。相当于把不在一个难度级别的事物强拉在一起比较。这种“有名字都算”的盘点办法，让“百模大战”最后谁能取胜，成为一个伪命题。殊不知，一部分模型可能是用基础性开源模型微调而来，尤其是模型在不开放测试，或者不开源代码，只有新闻通稿和市场发布会的情况下。为什么不适合放在一起PK？有的是历经大语言模型构建的四个主要阶段（预训练、有监督微调、奖励建模和强化学习）的大模型。还有的是在开源大模型上“微调”。从头预训练大模型的经验会积累大量训练技巧，这是持续创新的基础，十分珍贵。而直接用现成大模型加行业数据微调，本质上，相对缺少研发过程，还是在使用别人的现成产品。这两种类型的大模型的较量，从技术角度讲不是一个量级。然而，不能矫枉过正的是，技术含量上虽有高低之分，但模型使用价值又是另外一回事，面对不同的市场业务需求，需要不同的对应方法。比如，讯飞联合行业龙头共同发布12个行业大模型，加速产业落地。关键在于，企业级技术服务服从于市场需求，仅强调技术单一维度并不可取。现在处于稳定竞争阶段，也是基座模型比拼的重要阶段，我们聊回到技术。“百模大战”这种说法给人一种误导，看样子上上下下干得热闹，似乎有重复建设，用力过猛，努力过剩之嫌。实际上，真正下决心和有实力“炼”大模型的厂商屈指可数。竞争在头部高度集中，其他选手连陪跑都算不上。那些“号称在炼”的厂家，有夸大自身技术实力、刷存在感的嫌疑。更有甚者在优秀的开源大模型LLAMA2“问世”后已经默默放弃了。“百模大战”不如说是“起名大赛”，典谟训诰的书页都被翻烂了。发布大模型广而告之，谁放弃了会张扬？一条少有人走的路，有人假装在走。而一些愿意参与大模型生态的开发者，更被误导到一条歪路上。技术圈存在一种风气，觉得除了“卷”大模型，此外其他东西都没有技术含量，没有深度，不屑于做；而美国的一些开发者反应快速而务实，比如大模型知名工具LangChain，将提示词（Prompt）的管理和编排做得很好，是个“拼接”小能手，并且LangChain还有很多实用的玩法，就不一一展开。一些轻巧创新的“小部件”推动大模型的生态向繁荣发展，并且能够更好更快地探索大模型的用处，而大模型的用处急需各行各业的“脑洞”和“奇思妙想”。科大讯飞董事长刘庆峰在讨论大模型真正价值时候，就指出：“面向社会刚需，应用为王。”说到底，全球范围内比拼的是：在技术不落后于人的基础上，大模型用处越多越好。真正地训练一个千亿或者万亿参数规模的的国产大模型，是异常艰难的长途跋涉，尤其是在当下的外部资源条件恶劣的情况下。混淆令那些真正在探索国产技术路线、敢于投入的人损失了应有的尊重。尊严倒是其次。这种误导会增加交易成本，资源需流动到急用之处。在这一点上，刘聪院长的观点是，“所谓”的百模大战，真正做通用大模型（讯飞的提法是1），再加N（大模型落地领域N）的参赛选手，肯定没有那么多。大浪淘沙，最后只会剩下极少数头部玩家。底座能力在头部玩家中比拼。从2023年2月开始，竞争形势几经变化，这个阶段竞争的里程碑在哪里？刘聪院长给出的答案是：“从现在到年底，或者再往后推，最终会逐步产生分化。从真正的，全面对标GPT-3.5到对标GPT-4，哪家国产大模型最先做到，这是一个关键节点。”他的语气特别强调：“不是单点达到GPT-3.5的单项指标，单点到达没有意义。”极力提高模型能力是头部厂商一致追求，而对大模型能力维度的理解，头部厂商之间会有所不同。另一家头部厂商的“定义”则是用理解、生成、逻辑和记忆能力四大维度作为衡量指标。科大讯飞的定义是七大能力：文本生成，语言理解，知识问答，逻辑推理，数学能力，代码能力，多模态能力。为什么讯飞的定义相对更详细呢？刘聪院长谈道：“就以多语言这个维度为例，做通用人工智能，我们曾反复强调不是只做中文大模型。你连英文能力都不具备，那叫什么通用？未来大模型能力肯定会拓展到其他多语种。”从未来发展大趋势来讲，第一个最重要是底座模型，第二个是算力，第三个是应用落地，第四个是生态。真正的竞争，存在于真正的竞争对手之间。（二）多模态技术路线两个月前的8月15日，也就是讯飞星火认知大模型V2.0升级发布之日，代码能力和多模态能力升级。当时，多模态这个技术路线，很多人还没有意识到其重要性，虽然多位业内顶级专家均表态过：多模态是通用人工智能必经之路。而在9月25日，微软公布GPT-4V

2023年10月25日

其他

漫画：大模型用于腾讯广告，难在哪？

（一）关键词：三大套路大模型火了，大模型的套路也火了。套路一：但凡有点科技含量的公司，没个大模型都对不起“市值”和“估值”。面子谁不要？那用开源。套路二：说早有布局，却无论文，无数据，无“卡”，无历史进展，套路三：为了“大”而“大”。谭老师我和腾讯AI科学家深聊：广义线性模型的时代，腾讯广告也曾追求过参数量大。然而，这种模型学习能力很一般。如果只是模型的参数总量高，参与计算的参数量却很少，这样的“大模型”，没意思。腾讯在AI这块不算“激进派”，但大模型没玩套路。腾讯广告将两个大模型用到了广告业务。参数都是千亿级别。既然是两个，分工多说两句。广告大模型提升了广告系统的运算能力，腾讯混元大模型提升了广告系统的理解和生成能力。我们先聊广告大模型，再聊混元大模型。（二）关键词：广告商机转瞬即逝先聊聊，广告竞争的本质。从“从前”讲起，百货商店橱窗里的塑料假人，是展示，也是广告。后来，美国人研究如何用计算的方法求解广告中的各类问题。将一部分的计算策略交给机器学习。早期，广告对机器学习模型的要求，哪怕能力弱一点，算得快一点就可以了。比如，给一条男士冲浪花裤衩打个广告。广告系统有三层：召回，粗排，精排。每层边选，边匹配。广告系统里的模型，有些像漏斗。先粗排，模型发现：这条花裤衩男的喜欢，女的无感。再精排，模型发现花裤权不是所有男性都喜欢，颜色骚气，大约20岁左右的精神小伙喜欢。模型必须做到越往下，越匹配，还为广告主节约广告费。匹配这个动词很重要。谭老师也想把漫画“匹配”给喜欢自己作品的读者，性格不合的那种，确认不了眼神。拿谭老师常看的视频号来说，广告系统会猜我对视频的兴趣，从而推荐视频，猜我对商品的兴趣，从而展示广告。手机下滑一下，大约9毫秒，就得猜到这个瞬间我最有可能的喜好。这里的猜，就是计算。模型抓规律很擅长，头部规律好抓，长尾则很麻烦。偏偏腾讯广告有很多长尾问题。偏偏用户数量大，偏偏广告数量大。而且广告匹配的要求是，不仅要准，还要快。一句“商机转瞬即逝”，放在这里非常合适。谭老师刚买一支手机，广告出手慢了，买前没看到，买后不想看。“商机转瞬即逝”，慢了，就输了。这就是广告竞争的本质。（三）关键词：广告“硬核”简史2014年，腾讯广告平台实时在线技术完成。2015年，深度学习技术完成。这两个“完成”，都指的是全量上线。在大模型技术爆发前的世代里，没有什么比腾讯广告在2016年“实时在线学习+深度学习”全量上线完成更重要了。团队的结论是：广告平台应该是在更大范围的产品线，在更长的数据链路上，全面释放模型的威力，模型做大，不是目的，而是手段。于是，把模型往大了做。于是，数据链路拉长。2020年前后，质变发生了，腾讯广告整个技术思路的转变了。在腾讯公司副总裁蒋杰的带领下，团队看清了技术方向，前浪大储备，后浪打硬仗。狂飙技术，不是自嗨，而是商业需求。技术朝着有需求的方向推进，终于抵达“大模型界碑”。2021年10月，发起技术攻坚，（腾讯员工的说法是：作为内部发起的革新型项目，对内称呼为“下一代广告系统”。）项目包括广告大模型，混元大模型，一共集结了800余名跨BG团队的同学。毫无疑问，谁能打破技术难度的瓶颈，谁就是头部科技企业，再加一个条件，越早越好。缮甲厉兵，酣战飒然，黄龙痛饮。劲射火力点。干得行不行，看看指标吧。全套指标涉及商业机密，我们抽取其中一个技术指标：“大规模技术突破之前，精排时延的阈值是70毫秒，突破之后拉到200毫秒，将近3倍左右。”给广告系统配套大模型，底层软件也是另一境界的考验。训练这么大的模型，存储，计算，通讯翻倍，甚至量级的提升，这块工程团队下了很大力气。为了做好底层工作，甚至把部分关键架构重新写了一遍。把以前好的想法融合进去，大幅增强它的伸缩性、容错能力，支持千亿大模型训练。这一把，中国科技公司将大规模工程技术做到极致。方案依然还是这么一个方案，只不过模型规模，整个系统能力等等，不可同日而语了。腾讯公司副总裁蒋杰带领腾讯广告团队，制定出一套自上而下，全局最优的推进路径，将多个技术团队与业务协同，带队完成了下一代广告系统建设。广告大模型怎么用？将资源聚焦于精排，排序能力更好，点击率与转化率绝对值估准。精排预估准，提升全链的运算推荐效率。广告大模型能为广告主提供什么“特殊服务”？因为广告系统的运算能力可以支撑多个小模型同时运行，所以，广告主可以在系统上与腾讯广告再共建小模型，做出更多从广告主业务出发的推荐匹配，提升匹配效率。有的人，练了屠龙术，结果发现没有龙。腾讯广告系统“有龙”，所以“屠龙”，且练成两大屠龙术：广告大模型和混元大模型。（四）关键词：腾讯混元怎么用？广告的复杂环境，也让腾讯混元得到充分打磨。团队内部对腾讯混元大模型不断自审式发问：第一重难关：如何把技术搞出来。第二重难关：这是真实业务场景所需要的技术吗？如何落地？巧不巧，腾讯混元是多模态的，腾讯广告内容天然也是多模态的。在这个巧合的背后，腾讯混元从出生开始，就是为“用在哪里”设计的，而不是“套路”。广告内容是什么？是广告标题、文字、图片、视频等。简单说，腾讯混元先做“亿点”广告内容的阅读理解，做完，再将“答案”喂给广告大模型。据谭老师观察，以广告大模型提升广告和用户的匹配准确率，以腾讯混元大模型理解、生成广告内容，包括素材和创意。小道消息，腾讯混元已经将这项生成能力，用于广告投放前的准备阶段：“素材创作”“商品合成”“游戏出图”。（五）关键词：“大”算法思想（学霸选读）虽然广告大模型已经很大了（有千亿参数），想用一个大模型把所有的场景都学好，没有那么容易。腾讯广告大模型核心负责人薛伟博士告诉我，比如，模型会产生场景之间的负面影响“我学不好，你也甭想学好”。这种现象叫“负迁移”。广告大模型中，薛伟博士用到了“公共塔”技术。公共塔，样子像塔，其实是大模型内部独立子网络。广告模型大，内部子网络丰富，还有商品（Item）塔，用户（User）塔。这类子网络专门学习特征的共性，降低场景之间的干扰。不同场景参数不同，推荐汽车，不能把推荐手机的参数也算一遍。大模型的出现，让算法设计空间变大，让设计的余地更大，有机会用算法的思想充分释放大模型的价值。好马配好鞍，好产品配好广告。1997年，苹果手机“非同凡想”广告里面有这样一句话：那些疯狂到以为自己能够改变世界的人呢，才能真正改变世界。要我说，这样爽感的广告，再多来几个。（完）更多阅读AI大模型与ChatGPT系列：1.

2023年10月9日

其他

跳槽去搞国产大模型，收入能涨多少？

原创：谭婧夏尽秋来，2023年国产大模型看似喧闹已止，进入稳定竞争期。作为一种新的IT解决方案，国产大模型一出生便伴随着激烈竞争。外有GPT4，内有多家公司角逐“中国版ChatGPT”。据我所知，就国内某家头部大模型创业公司的收入来说，几千万的合同已经有了。况且，组队窗口期已经进入后期，难度越来越大。而竞争格局未定，研发还在拼命烧钱。虽说优秀人才越多越好，但客观规律是IT人才结构呈金字塔形，顶部人才是极少数。本文中，我借用《王者荣耀》游戏段位顺序，划分大模型技术段位：王者，白金，黄金，青铜。王者们，那些科技大厂背景的领军人，硬核科研背景的AI科学家，已经陆续“众神归位”。字节跳动的杨红霞（原阿里达摩院）。百川智能的陈炜鹏（原搜狗旧部）。昆仑万维的颜水成（原360），等等。另有一些大神独立门户，爱诗科技（原字节跳动王长虎），HiDream.ai（原京东梅涛），衔远科技（原京东周伯文）……无论大厂，还是创业公司，挖人靠钱。那么当下，白金，黄金，青铜段位面临什么样的境况呢？（一）白金段位：不设上线当猎头询问“薪酬带宽”，多家大模型创业公司负责人做出类似表态：“收入不设上限，就怕你们找不来人。”通用大模型有且有很多未知的技术秘密，关键技术路线更依靠金字塔上一层决策。路线创新会有风险，但又不能一味跟在别人屁股后面跑。不设上线的表态，从一个侧面反映出这类人才的重要性，尤其是已有大模型高水平实战经验，且“实线带人”。一位从业者向我表达：“不要用资深一词描述研发管理层主力，过于模糊，他们实现技术，把握节奏，以及保持团队内部稳定。”这时候，不得不说：“火车跑得快，全靠车头带。比如百川智能，有面试候选人告诉我：“陈炜鹏负责大模型开源策略。”而百川的开源策略也被业内专家夸赞颇多，在短短几个月的时间内打出了声量，也打出了技术影响力，亦使融资受益。近几个月，甲方客户（传统行业头部）和大模型创业公司频繁交流。中石油旗下尤其擅长数字化的企业（昆仑数智科技）的员工告诉我，目前市面上鼎鼎有名的大模型科技巨头和上市公司差不多都来交流过。上一波如此密集的交流还是国产数据库。一些甲方企业在“炼”行业大模型，甲方企业对领先创业公司的员工很是偏爱，毕竟，跳槽会带来珍贵的经验。不仅如此，老牌IT服务厂商也不想落后。比如，一家甲方客户告诉我：“有的AI初创公司，技术水平真的很高。那些骨干研发管理层的水平就很好，哪怕下面带的兵都是校招的，团队逼一逼也能出活。虽然花的时间长些，但迟早都能弄出来。我们就缺这样的人才。”至此，市场上大致上有四批雇主在抢“白金”：互联网科技公司，大模型创业公司，有创新能力的甲方公司，老牌IT服务厂商。前两者尤其抢得厉害，后两者似乎没有什么胜算。有些创业公司的核心竞争力是王者和白金两个段位共同产生的合力。一些王者本身就是知名学者，悉心培养高业弟子，无论从信任，还是技术传承方面都颇有默契，一些白金段位的人才之间，还是师兄弟。况且，“白金”的需求就是有高手指导，大师指点，让能力更上层楼。收入重要，但不是全部。因此，“白金”高价难求。说到底，好公司里，骨干的薪酬一定会有竞争力，他们给企业贡献的价值也是实打实。“实线带人”要发挥带着跑的能力，既关注技术细节，又保证组织效率。众所周知，团队素质高则研发效率高，研发周期短。反之，小伙伴们水平有限，压力就给到白金段位这一边。任务布置需讲得更为详细，安排更为具体，劳力费心。这样，对“白金”的要求更高，不仅技术高，还要心（脾）胸（气）广（好）。这一轮大模型的竞争，比较起上一轮CV独角兽的竞争，竞争不可同日语，那时候的独角兽虽然也是跑步前进，但也是小几年做大的。而这一轮，瞬间集结，月余红海，家家有大佬，司司都加班，卡卡都烧钱。谭老师我私下笑谈：“大模型创业公司拿出北京海淀区虎妈鸡娃的方法疯狂鸡团队。”毕竟，“独角兽创业上市未半，而中道崩殂”的案例在前，这一轮创业者水平更显成熟。另一方面，在与一家垂直行业头部企业（安防）的CTO交流后，我观察到，他们很清楚自身状况。作为“场景”的所有者，虽然技术水平难争一流，说是“积极跟进”都不够准确，而是“唯恐落后”。毕竟，一旦技术较力的平衡被打破，很快会带动市场形势变化。那些谙熟多次数字化和AI技术迭代的老兵，不会弛懈。谈话间，海康卫视GPU卡的购买量就给脱口而出了。谭老师观察身边的“白金”，若有机会在通用大模型团队中负责无监督的预训练，则炼“行业垂直大模型”

2023年9月26日

其他

AI咆哮后，一个赚大钱的AI+Data公司估值居然430亿美元？

美国大模型风向速报（一）为何重视提示工程？LangChain+向量数据库+开源大模型真香AI大模型与学术论文系列：1.开源“模仿”ChatGPT，居然效果行？UC伯克利论文，劝退，还是前进？2.

2023年9月14日

其他

微调真香，漫画科技博主竟然在用国产大模型生成系列漫画女主角

有一说一，《微调真香，漫画科技博主竟然在用国产大模型生成系列漫画女主角》不是标题党。连我也不得不相信，作为“亲爱的数据”创始人，我确实在用人工智能大模型生成自家特有风格的漫画。市面上，海内外，用Midjourney或者文心一格之类的文生图的能力生成精美图画这件事似乎也没有什么稀奇。日常聊天，有人动不动就说：“你让人工智能给你画。”这话我接不住，并且很想回怼。你能你上呀，你让人工智能给你画。文生图首先得会“咒语”。这里的“咒语”是指提示词Prompt。也许有人天生就会用“咒语”。或者也许有人通过练习能将“咒语”用得出神入化。很可惜，我没有天赋。很遗憾，Midjourney的咒语我练了很久，水平依然很菜。完了，霍格沃茨四大学院，我今年铁定考不上了。不过，聊以自慰，在文生图的时候，让人工智能“陪你画着玩”和“按职业要求画”

2023年8月25日

其他

美国大模型风向速报（一）为何重视提示工程？LangChain+向量数据库+开源大模型真香

数据中心网络：迟到不可怕，可怕的是别人都没迟到AI框架系列：1.搞深度学习框架的那帮人，不是疯子，就是骗子（一）2.搞AI框架那帮人丨燎原火，贾扬清（二）3.搞

2023年8月16日

其他

抢滩大模型，抢单公有云，Databricks和Snowflake用了哪些“阳谋”？

原创：谭婧漫步云上，得数据PaaS者，得天下。数据PaaS分三类：数据库，数据分析，人工智能（AI）。数据PaaS后来者居上，因为第一，向IT专业开发人员提供传统编程环境的这类PaaS平台成熟且普及；第二，大模型创造惊喜，AI异军突起。数据库按下不表。数据PaaS其他两类关联度高，可以理解为一个大赛道。这个赛道美国领先，不仅分工细，生态好，而且有两个很能打的巨头。Databricks和Snowflake。Databricks是一家Data+AI（数据+人工智能）公司，见长于存储、处理、分析PaaS，还未上市。根据上一轮融资，其估值已达到380亿美金。Databricks从Spark起家，做计算（处理）层面的东西，慢慢做到存储层面。Snowflake是一家向着Data

2023年8月4日

其他

八问八答：开源大模型“二号羊驼”驾到，天下有变，到底怎么变？

开源江湖终于有钱人不负众望。Facebook母公司Meta发布其首个开源可商用大语言模型羊驼2（LLama2）。姑且叫它“二号羊驼”吧Meta内心OS：喂~OpenAI吗？这里有一个问题：谁才是真正open的AI？玩名称梗的游戏到此结束。我单方面宣布：Meta搅局者的“大名”，实至名归。漫画画友，你们怎么看？（完）One

2023年7月20日

其他

大模型“搅局”，数据湖，数据仓库，湖仓选型会先淘汰谁？

事情总是这样：压力初露端倪，暗自考虑改变。压力高能爆表，立马做出改变。我们从一家叫做Databricks的美国知名公司聊起。这家Databricks公司很有创新基因。其创始人阿里·戈西（Ali

2023年7月18日

其他

老店迎新客：向量数据库选型与押注中，没人告诉你的那些事

原创：谭婧（一）关键词：老店“迎”新客某家云计算厂商员工告诉我，拜访客户，刚坐下，客户说的第一句话就是：“你先给我推荐一个向量数据库吧。”大模型火了，把向量数据库带火了。向量数据库是小众技术，也是已有的成熟技术，突然间就出圈了。确实，数据库技术非常底层，极少蹭到热度。好不容易，天降流量。这得一顿猛吹，要不然怎么配得上热情的营销号和多金的投资人呢。客户迫切选型，融资烈火烹油。不过我一向认为不知深浅，光看钱多也没劲。这是一个“老店接新客”的故事。向量数据库不是一个新技术，而它要面对的新挑战是：如何服务好大模型这个“新客”。但凡知道向量数据库，几年前，不能不知道脸书公司的Faiss算法。几月前，不能不知道Pinecone公司。Pinecone公司凭借和大模型的“暧昧关系”，拉高估值，一跃成名。我先点一笔，Pinecone确实干了一件好事。它用一句话向全世界解释了向量数据库的用处，将大模型和向量数据库的关系，用一言概之：“为大模型提供长期记忆力。”这个说法非常巧妙，尤其是面对投资人和吃瓜群众的时候。建议轮次创业公司的创始人都好好参详。别光埋头苦干，教育市场重要。当然，还得有风口。顺承记忆力的逻辑。于是，向量数据库被推向人工智能重要基建的高位。于是，有人断言：“大模型和向量数据库的组合拳，会对传统数据库产生冲击。”猛一看，道理都对。在大模型到来之前，向量数据库虽是“区区小事”，但又“不可或缺”。要我说，这里并非AI的主战场，三千越甲可吞吴，二十精兵亦可挡。谁能料到，大模型来了。它的理解力被追捧，记忆力被吐槽。你上次和它交互的话，到了下次也不会是已知背景。槽点是，大模型没有长期记忆力。这是病，得治。有人认为解药是向量数据库。还有一句据说是红杉投资人也认可的说法：向量数据库是大模型的内存。（二）关键词：缘起要我说，向量数据库吧，起初就是互联网大厂里的一个秘密武器。我发现它的时候，它就已经在互联网大厂里存在了挺多年。谭老师我是怎么知道向量数据库的呢？那是2021年的冬天，我一不小心摔断了脚趾骨。拄着双拐在寒风中寻访科技大神非常困难，只好这样身残志坚地在一家互联网大厂里找了个工位，大概待了两个月。那段时间，我参观学习了AI软件栈、中台、中间件、编译器等秘密武器。时间一长，和他们研发团队上上下下都脸熟了。于是，我大声宣布，来吧，展示。你们都有什么秘密武器？以谭老师我口风紧、做事规矩的行事风格，我亲眼见过不少大厂AI软件栈的内部文件和秘密武器。一款向量数据库曾令我眼前一亮，居然还是开源的。我内心的OS是这句：像所有优秀的秘密武器一样，一开始都是低调研发，且专供内部使用。向量数据库在电商大厂诞生的时候，有其明确的场景需求——自用。用技术术语来说就是，针对业务中的相似性搜索（similarity

2023年7月7日

其他

紫东太初：造一个国产大模型，需用多少篇高质量论文？

原创：谭婧“视觉自监督算法这轮，你是不是没跟上？”我面前这位年薪近七十万，互联网大厂AI算法工程师的好友，他用一个反问句回答了我的关心：“自监督这个玩意咋跟上？”他抬了抬头，又补了一句，“自监督又不是直接落地业务的（技术）。”这是2023年6月的一天。天下有变，即便身处风暴，依然有“跟不上”风暴的可能。人人都担心落后，也确实有人落后了，就在ChatGPT发狠那几下子的瞬间。没机会实训大模型，转而读论文，看配套代码，是“跟上时代”“对抗焦虑”“应对领导”的标准动作。看论文是一件下功夫的事情，哪怕作为大模型的观察者、写作者的我也深深感受到，唯有研读论文，才不会让自己在下笔或者敲打键盘的时候显得像个傻瓜。市面上有很多大模型的名人名言，他们所说的，和揭示大模型本质并没有任何关系。下功夫是一件奢侈的事情，不下功夫绝无可能做出国产通用基础大模型。“功夫”是一个极具中国哲学的词汇，涵义可以很广：远见，创新，定力，团队，投入……大模型论文是很好的线索，于是，我翻看了多篇“紫东太初”大模型团队的学术论文。在此，感谢武汉人工智能研究院院长王金桥博士（中科院自动化所研究员），副院长张家俊博士（中科院自动化所研究员）。他们陆续回答了我百余个问题，有时微信回复问题的时间几近凌晨。如此，才让这个系列的文章成为可能。这篇文章的技术主题是视觉自监督。视觉自监督学习属于自监督学习技术的一个纵队。讲自监督学习，就绕不过杨立坤（Yann

2023年6月19日

其他

深聊丨“紫东太初”大模型背后有哪些值得细读的论文（一）

原创：谭婧没有人想等待，没有人想落伍。新鲜论文时兴火热，成为大模型发展迅猛的标志之一，人们用“刷论文”这个游荡意味的动词替代另一个颇为严肃的动作，“读论文”。论文被当作“教材”和“新知识”，在arXiv网站刷论文成为日常。不止于此，论文读者也从科研人员迅速扩大到投资人、投研、创业者、AI从业者和科技媒体。那些急切想入行的人“咸欲学死”；那些没用上大模型的人“怏怏不悦”；从甲方到乙方，人们把“不甘”写在脸上，有些甚至从“稳重型”变成“饥渴型”，从“观望型”变成“上手型”。北京西北方向某个国产智能云厂商已将“硬件+业务指标”捆绑标价，成了大模型的报价方式；某外资云厂商的解决方案架构师（Solutions

2023年6月5日

其他

开源“模仿”ChatGPT，居然效果行？UC伯克利论文，劝退，还是前进？

框架前传，大数据系统往事注：（三）和（四）现在并未公开发表，将会以图书出版的形式与各位见面。漫画系列1.

2023年5月29日

其他

一场九年前的“出发”：奠基多模态，逐鹿大模型

原创：谭婧全球AI大模型的技术路线，没有多少秘密，就那几条路线，一只手都数得过来。而举世闻名的GPT-4浑身上下都是秘密。这两件事并不矛盾。为什么呢？这就好比，回答“如何制造一台光刻机？”。“所需要的任何数学公式、物理学定律和工作原理，都可以在任何一所理工科大学的图书馆里找全，但是这距离制造出光刻机，完全是两码事，中间需要解决的工程问题是数以十万级。”光刻机的例子来自曾任微软雷德蒙德研究院深度学习技术中心的首席研究员，现任京东集团副总裁、京东科技智能服务与产品部负责人的何晓冬博士。将技术做到极致，人类智慧正在打开“机器智慧”的魔盒。极致背后的奥秘被多位科学家以毕生之经历数次总结。我于2021年7月收藏了何晓冬博士在京东AI研究院内部分享的九条经验，频频回顾，总有收获。分享得到了他的允许。在这九条经验中，何晓冬博士不仅再次强调了“工程能力”的重要性，而且毫无保留地将他心中的普世科研真谛递给麾下科研人员。如今，大模型的爆发将AI工程实践推向了一个崭新巅峰。在何晓冬博士看来，AI在科学原理意义上的进步，离不开工程的极致实现。这是一个“既要”“也要”的难题。历史反复证明，技术是创新的核心，但它也需要资源和管理的加持才能产生预期的成果。所以，创新不是技术的独角戏，而是与资源与管理的合奏曲。当今世上，一个人一支笔依然可以拿诺贝尔文学奖，但一个人就想造出有竞争力的千亿参数的AI大模型，已绝无可能。那些容易被忽略的细节，科技观察者应该重视。当某一技术路线蓄积爆发的力量，那么多年前这个技术路线上奠基论文的引用数量就会突然间增长。时隔五年，一篇完成于2018年，关于注意力机制的论文（“Bottom-up

2023年5月26日

其他

云从科技从容大模型：大模型和AI平台什么关系？为什么造行业大模型？

原创：亲爱的数据2023年5月18日，坐标广州南沙，来自云从科技的“云从从容大模型”正式亮相。自此，云从科技从CV四小龙“进阶”成为一家AI大模型公司，同时，别忘记云从还有一个身份常被人提起：首家登陆科创板的AI平台公司。在首发演讲中，云从科技董事长周曦带领技术管理部叶懋给现场带来了不少有趣的大模型测试。与此同时，周曦也公开表达，此前“多点技术闭环”阶段，项目定制化程度重，导致投入产出比不平衡，最终出现亏损的局面。好消息是，当前正在进入的大模型时代能够进一步推动人工智能技术的标准化，边际效应起来了，能够更快速高效地去实现海量现实场景智能化。在发布会现场，“从容大模型计划推出自主研发的通用多模态大模型以及语言、视觉、语音、代码生成、图像生成大模型等系列的行业大模型”的表述印刷在介绍背板上；将英文“Make

2023年5月19日

其他

深聊丨第四范式陈雨强：如何用AI大模型打开万亿规模传统软件市场？

框架前传，大数据系统往事注：（三）和（四）现在并未公开发表，将会以图书出版的形式与各位见面。漫画系列1.

2023年4月26日

其他

漫画：是喜，还是悲？AI竟帮我们把Office破活干完了

图文原创：亲爱的数据国产大模型烈火制造。阿里百度字节美团各科技大佬不等闲。大模型嘛，重大工程，对我等“怀保小民”来说，只关心怎么用，不关心怎么造。我来介绍一下自己，我是一个写稿男团组合的成员，组合的名字叫“五仁”。和中国传统糕点没有关系。原因是我们有五个人，且对老板和同事都不怎么“仁义”。老实说，我们也不是故事的主角，主角是谭老师，一位女性科技专栏作者。她是铁打的，我们是纸糊的。她能白天黑夜写稿，出租车上写稿，高铁飞机上写稿。她休息是保持写稿节奏，我们“五仁”就比较纯粹了，休息纯粹就是休息。我们“五仁”男团组合也是有目标的，地表最强科技写稿组，虽然看上去距离目标还比较遥远。谭老师一直在写稿，她顾不上思考。俗称战术勤奋，战略懒惰。最近，我们五仁却在思考。AI的才华全部要施展在办公室吗？AI为什么不去别的地方？难为我等office打工人。谁能料到……“谭婧老师为什么不让我们帮忙头脑风暴起文章标题了?”五仁同事：因为钉钉在帮她起标题。“这会她在干嘛？”“发起投票，午饭去哪吃。”“谭婧老师开了2个小时电话会议，谁去整理会议纪要？”五仁同事：不需要我们，因为在线会议时，钉钉用“/”唤起，可生成智能会议纪要，并提炼摘要、待办。“已经讨论了1000条群消息了，这篇策划还定不下来，拉谭婧老师入群吧？”“群消息让她重头看一遍？”“我听说她最近脾气不好。”五仁同事：不需要，因为海量群聊消息时，钉钉用“/”唤起，整理群聊关键信息，形成摘要。谭老师一直想要有一个群内智能问答机器人。总有读者索要文章链接，比如，“阿里巴巴”“智能供应链”“AI框架”的文章。五仁同事：我们只要把所有（二十万字）文章copy（拷贝）到知识库，就能自动给读者发文章链接了。这……真不妨碍我们五仁摸鱼了。周五，谭老师要一个应用，开发要写程序，我们“五仁”又不会coding(编程)。五仁同事：钉钉有了“/”功能，只要说自己想要什么呢，或者手绘表格，拍照生成应用程序。聊天式沟通，不用编程钉钉直接写一个应用出来吗？是的。钉钉本来就是低代码平台。或者说一行代码都不用写的原因是，千问大模型提供能力，生成代码之后，再往下一个环节也自动化了，直接生成应用并上线了，一键几连。这背后的技术原理是：大模型的下游，一般会给特定场景做定向训练。就算大模型会写代码，代码还是要放到开发工具里才能跑起来。这些“中间过程”，钉钉和背后的千问大模型帮我们干了。也就是说，大模型新增了一套逻辑（在指令层面），我们无需理会代码是哪种程序语言，如何运行。钉钉用户的常用需求，经过这个业务模型全部搞定了。是喜，还是悲？AI竟然帮我们把活干完了。转瞬间，钉钉个人版融合千问大模型能力。能文生文，能文生图，能对话查询各类知识，能辅助创作各类文案，能创作图片，能整合知识库、阿里云盘，即时通讯和钉钉视频会议。钉钉个人版，定位为每个人的数字化生产力工具。钉钉光速接千问大模型，玩出办公新花（助）样（理），钉钉用户可能是国内最先被普及大模型的人了呢。目前，钉钉个人版正在测试中，与大模型相关的能力，将在相关安全评估完成后上线。五仁男团不装了，摊牌了，接受了。AIGC是打工人的公敌，但是如果谭老师累坏了，我们五仁也失业了。做人还是要拥（保）抱（全）科（自）技（己）。于是，全体五仁男团热烈欢迎“钉钉大模型新功能”，距离地表最强科技写稿组，又进一步。我们的团队文化是豪杰文化，团队口号是人人争做懒中豪杰。最后，还是要奉劝一句。摸鱼党对生产率的负面影响很有限，大幅影响生产率的，是拍马屁的人精、抢功劳的绿茶、忽悠技术的骗子和愚蠢的老板。（完）更多阅读AI框架系列：1.搞深度学习框架的那帮人，不是疯子，就是骗子（一）2.搞AI框架那帮人丨燎原火，贾扬清（二）3.搞

2023年4月19日

其他

大模型“云上经济”之权力游戏

文丨谭婧光阴者百代之过客。世人皆过客，软件亦如此。人工智能已有新旧之分。网友戏称，新人工智能是ChatGPT，旧人工智能是“之前那些”。历史在重演。云计算在美国问世的时候，否定论调居多。一个常见的否定论调是「做生意不用上云」。接着，事态变化，否定论调则调整为「大企业永远不会上云」。接着，否定之声定调为「国家级机关单位永远不会上云」。美国五角大楼没有配合，一个著名的上云项目叫JEDI（联合企业国防基建）。网友吟诗曰：云深不知处。历史在重演。深度学习问世，否定论调居多。传统算法末日黄昏，深度学习颠覆革命。一开始，人们还不太相信，深度学习也许只能在语音上做好。很快发现，在计算机视觉分类问题上也可行。再后来，基本上起初认为做不了的事情，后来都能够做了。GPT-4也有否定者，也需要否定者。网友戏称，我已经等不及要看AI失控那一天了。历史在重演。强大的AI大模型，背后有微软云提供的澎湃算力，阿里版GPT通义千问的背后是国内最大云厂商阿里云。连百度都把摊在地上的百度云扶起来，称之为新型AI云。AI和云的关系变得既感性又性感，让我不得不思考：ChatGPT会让云发生什么？下文中AI大模型，简称大模型。第一，赢者通吃。假如全球只有一款傲人的大模型，那么一切想用大模型技术的企业均会成为附属在产业上的附属物。传统算法步入末法时代，云计算不可能独善其身。大模型手接权杖，嘶吼咆哮：赢家通吃。在权力游戏中，你不当赢家就只有死路一条，没有中间地带。第二，若云厂商大模型缺位，其他类型的大模型技术拥有者会带动生态迁移。“好用跟我走”是一种技术咒语，咒语已经施与大模型。传统掌权者依然存在，彻底衰败需要时间。他日，谁掌握了大模型的高地，谁就可以定义未来指令集。大模型的新生态如果不在云上，必然会削弱云厂商原有生态。云厂商制胜大模型，则强者更强。平台即服务（PaaS）尽管也很需要，也赚钱，可惜不能带动生态迁移。谁掌握了大模型，谁就可以定义未来科技生态。第三，大模型尚在早期，生态从出生到成熟，将会是一个漫长旅程。“窗口期”是对技术先行者的馈赠。大模型效果好到令人兴奋，但我们处在ChatGPT生态早期，又或者，更早期。即使是处于早期，作为科技巨头，你敢坐视不理，消极布局吗？ChatGPT生态将会是一个漫长旅程。这意味着，参与者会是种子阶段的选手。这也意味着，大部分参与者面目模糊，终会消失。看到ChatGPT确实把人工智能往前带动了一大步，就鼓吹ChatGPT万能万用可耻。云计算是庞大产业，大模型未来也会是庞大产业。但仍然不要忘了，我们正处在早期。已经有企业级客户跃跃欲试生成式大模型了，但需要更多的企业级客户用起来。当下，过度吹捧会导致市场失望和资本撤离。做好当下，更要想以后。第四，即使云上有了大模型，国内云厂商仍然会遭遇多形态的竞争对手。当“好用跟我走”的软件出现，硬件厂商会作何反应？对，在中国，这里提到的硬件厂商最典型的就是华为，尽管华为也有云业务。这次我们不讲通讯产业，讲AI产业。AI产业里，比华为云上的AI业务更出名的是华为昇腾系列AI芯片。假如我是华为，当我拥有一款傲人的大模型，我会把这款软件预装在数据中心级别的计算设备里一起售卖。反正都要用，预装抢市场。这就好比预装在手机里的APP，优势占了一大截。云厂商形势颇为严峻。假如没有大模型，阿里巴巴在中国会遇到不少于以下三种严峻而又强势的挑战。一、狙击。独立大模型开发商拿走云上AI计算业务的利润。这是结果，但过程绝不会简单，短时间也完成不了。二、截胡。国内数据中心，尤其是智算中心。当智算中心拥有大模型后，可以直接输出AI大模型能力，背后就是算力的输出。三、连锅端。独立大模型开发者和国内智算中心合力，联合围剿国内云厂商。阿里巴巴会坐以待毙吗？答案显然是否定的，尽管阿里大模型出发的时候对标的是谷歌。谷歌有TPU，阿里有平头哥。平头哥虽然不是天下第一，但是它能让阿里云成本降低，且不论全部替代，想想那些不能降成本的竞争对手。谷歌的AI生态建设得非常完整和领先，包括AI芯片TPU，端到端开源深度学习框架TensorFlow。与传统的CPU+GPU组合相比，TPU这类专业芯片在搜索、翻译、语音助手、图像识别等AI任务上有数量级的性能提升。百度也想全套对标，还比不上谷歌。结果，晴天里一个大霹雳，谷歌大模型输给了微软（和OpenAI）战队，尽管Bert模型对谷歌搜索引擎上的每一个基于英文的查询提供支持，效率提升10%以上。别人家大模型赢了，谷歌吃尾气了，还让大家都看到了。虽遭重击，但谷歌比别人更有翻盘的机会。以前都无法想象谁会超越谷歌的AI。我们聊回阿里巴巴。说阿里巴巴在NLP（自然语言处理）等前沿科研领域布局多年，这话没人反驳吧？阿里达摩院在2018年底启动研发，在超大模型、语言及多模态能力和训练、平台化服务、落地应用等多个方面，为中文大模型的发展做了一些前沿性、引领性的工作。-

2023年4月12日

其他

“重塑商汤研发体系”“动员整个公司”，我和商汤首席科学家王晓刚聊AI大模型

文丨谭婧原创丨亲爱的数据如今，大模型的故事，须写尽能写之事。越是如此，观点越犹如过江之鲫，难辨优劣。而大模型竞争犹如武火烹菜，顶级科学家没时间辟谣。拿一组仅供我自己参考的数字——全国做大模型的人才规模应该不是一个庞大数字——一百人左右。谭老师我特别希望围追堵截的专家亲身做过大模型。2023年4月第二个周五，我有幸和商汤王晓刚教授聊了聊大模型。作为商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁，王晓刚同时亦为香港中文大学电子工程系教授。话不多说，我来划聊天全程重点。首先，了解复杂事物很需要一个好比喻。王晓刚教授给我的比喻是这样的：“把通用人工智能大模型比喻成核聚变。先有核装置，其次有核原料。核装置就是我们已有的基础硬件系统。核原料就是非常丰富的数据，各个行业里丰富的任务。”我问王教授：“商汤多年人才和技术积累，对攻下大模型这个山头有什么样的积极作用？”还是核聚变那个比喻。他说道：“‘好的原材料’就是要深入到各个行业里积累非常多的know-how。美国公司OpenAI能够把ChatGPT做出来，背后也有多年积累，从小模型到大模型的研发，中间积累了非常多的know-how。”再聊回商汤，王教授认为商汤具有非常类似的优势，商汤有非常多的研发人员能深入到一线，用模型去解决实际问题，有很好的积累。他相信好的原材料，能帮助商汤大模型成功。关于第二点，他这样强调：“需要好的顶层设计，很好地把原材料设计成一个体系，能朝着通用人工智能的目标努力。除了大装置和基础设施以外，还要能从算法、框架上，把整个系统设计好，这样研发团队就能够专注在第一个方面。”如此，大模型成功这件事情才会发生。对ChatGPT的困惑与焦虑，绝不仅仅来自普通人，也来自科技从业者、研究人员。他们往往有较好的教育和研究背景。在GPT-4发布的那个清晨，北京一位国科大的研一学生梅灵睿同学（他也是我的读者）坦诚地和我分享了他的焦虑：“GPT-4秒杀的好多指标和领域可能都有无数科研工作者用其他方法耕耘了数十年。GPT-4出来后，这些东西似乎一瞬间就变成了技术发展走过的弯路了。”他说：“GPT-4发布那天上午，大学里那节《机器翻译》研讨课直接变成了GPT-4研讨课。”（这里需要解释一句，《机器翻译》课程是有关NLP中间任务的课程。）震撼与茫然同时袭来。这一幕在我脑海中久久不能淡忘。不成功并不可怕，可怕的是对手成功了。在GPT-4冲击而来的混沌中，很难保持清澈。我特意写下了如下的问题，请教王晓刚教授，也可以说这个问题是替“亲爱的数据”的读者问的。GPT-4问世。开发者齐声说：NLP中间任务is

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

亲爱的数据

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡