智能晚报｜Google测试对标GPT-4的模型；Wayve推出能解释其行为的自动驾驶系统；混元模型获批、天猫精灵将接入生成式AI

Original 徐弢、裘欢欣新皮层NewNewThing 2024-03-08

「每周一三五更新」

撰文：徐弢、裘欢欣

编辑：吴洋洋

Key Points

Google开始测试对标GPT-4的多模态模型「Gemini」

Wayve推出能解释其行为的自动驾驶系统Lingo-1

英伟达今年已在泛AI领域有20笔投资

台积电押注「硅光子」，以实现更强大的ChatGPT

混元大模型获批、天猫精灵将接入生成式AI

Google开始测试对标GPT-4的多模态模型「Gemini」

9月15日，Google被爆料已经向小部分公司开放了其多模态模型「Gemini」（双子星）的早期版本。

「Gemini」是Google对标GPT-4开发的多模态模型，最早在今年5月Google召开的全球开发者大会上被宣布。当时，Google发布了其第二代大语言模型PaLM 2，对标GPT-3.5。

「Gemini」背后的开发团队是Google DeepMind

4月20日，Google宣布将旗下两个AI团队Google Brain和DeepMind合并，成立名为「Google DeepMind」的新部门，由DeepMind创始人Demis Hassabis担任CEO，Google Brain负责人Jeff Dean则担任新部门的首席科学家。DeepMind是Google 2014年收购的人工智能初创公司，位于伦敦。

两个团队此前都想开发对标GPT-4的产品，因而都需要大量计算资源，两支团队最终决定合作开发。

目前正在测试的是「较大」版本的Gemini，但不是「最大」的那个版本

与大语言模型PaLM 2相同，Gemini也将提供多种规格和功能。信源消息称，Google向开发者提供的是相对较大的Gemini版本，但不是正在开发的最大版本，后者将更接近GPT-4。正在测试的Gemini提供了包括聊天机器人、代码编写工具，以及根据用户需求生成图像等。

6月，Demis Hassabis在接受采访时指出，Gemini将整合使用了强化学习和树搜索的AlphaGo。树搜索是一种算法，会通过随机模拟评估可能的决策，然后选择最优解。

7月的媒体报道称，Google联合创始人Sergey Brin与一组研究人员密切合作开发Gemini，每周有三四天到访加州山景城的办公室。在研发外，Brin还负责Gemini项目所需技术人才的招聘环节。

8月，有媒体爆料称，Google在使用YouTube视频脚本来训练Gemini。爆料人士还透露，计划在今年秋季推出的Gemini在文本生成、根据上下文生成图像等功能外，还可能实现流程图分析、通过语音控制软件等功能。

GPT-4的竞争对手正变得越来越多

今年9月，半导体研究公司SemiAnalysis报告称，Google即将推出的大语言模型Gemini将比GPT-4强大5倍，给出的依据是Google拥有充足的财务资源。也有人认为，Google有大量的专有训练数据可能让Gemini功能强大，包括Google搜索、YouTube视频、Google图书和Google学术搜索等。

此外，Meta也计划在2024年年初开始训练、并于同年推出对标GPT-4的模型，为此购买了大量英伟达H100芯片。

还有苹果公司。传闻苹果公司每天向自己的人工智能模型Ajax投入数百万美元。

参考链接：

https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai

Wayve推出能解释其行为的自动驾驶系统Lingo-1

7月14日，英国初创公司Wayve推出了新的用于自动驾驶的模型Lingo-1，该模型可以对驾驶场景做出分析，并通过回答问题来澄清和解释其决策依据。例如，当汽车接近斑马线时，发现有行人正通过斑马线，它会解释汽车为什么会放慢速度，并在斑马线前停止。

图片来源：Wayve官网

模型Lingo-1如何工作？

Lingo-1是一个将Wayve自研的自动驾驶系统与某种大语言模型（LLM）组成的混合模型，也就是视觉-语言-动作模型（visual-language-action，VLAM）。该模型可以将视频数据和驾驶数据（汽车每秒采取的动作），与捕捉汽车所看到的和所做的事情的自然语言描述进行同步。

新皮层曾报道过类似模型，Google DeepMind所推出的新款机器人Robotic Transformer 2 (RT-2)，就是将大语言模型作为一种「visual-language model」（VLM，视觉-语言模型），然后将基于真实物理环境训练的数据加载到该VLM上，由此获得「visual-language-action」（VLA，视觉-语言-动作模型）。相较于过去为特定任务编写指令、或者完全靠端到端强化学习训练的模型，混合模型能够让操作者通过自然语言指示RT-2机器人完成任务，哪怕是它未接受过训练的任务。

根据Wayve公司提供的演示案例，当测试车辆在T字路口尝试左拐时，Lingo-1对驾驶行为作出了解释：

-我正在保持静止，因为前方车辆也停了下来

-前方车道已经畅通，我现在正在加速

-我正在路口刹车

-我现在要走了，因为车道已经畅通了

-遵循路线完成左转

图片来源：Wayve官网

在根据路况进行评论外，Wayve公司还测试了该模型针对各种驾驶场景的问题，包括十字路口注意事项、天气对于驾驶的影响等。

在该公司本周提供给《麻省理工科技评论》的演示视频中，Wayve公司CEO Alex Kendall播放了一辆捷豹I-PACE测试车载摄像头拍摄的视频，他随机选中了视频节点，并在右侧输入框内输入问题，Lingo-1也能顺利完成对话。

不过，Lingo-1并不总是能回答对问题

当英国《金融时报》记者询问Lingo-1是否可以把车停在左边有公交车站的地方时，它说可以。在自动驾驶场景中，这种回答如果只是对行动后的「解释」，可能还造不成什么危害。但如果它代表的是行动前的「决策」，就会产生危险。

与人类答案相比，Lingo-1的准确率约为60%。但该公司没有披露Lingo-1模型所使用的大语言模型来源，也尚未给出该模型何时整合到其自动驾驶汽车中的时间表。

在Wayve公司之前，Google、机器人公司Covariant都在使用自然语言对机器人进行训练。Google今年7月推出了RT-2机器人，同样使用了视觉语言动作模型（VLAM）。

Wayve公司及其背景

Wayve公司由Alex Kendall、Amar Shah（2020年离开）联合创立于2017年的英国剑桥，他们都是剑桥大学博士毕业生。

目前，Wayve公司的深度学习模型采用强化学习和模仿学习相结合的方式训练，其中强化学习通过反复试错学习，模仿学习则复制人类驾驶员的行为。另外，Wayve公司使用深度学习和摄像头来引导车辆，而不是成本更高的激光雷达和其他传感器。该公司已经与英国在线杂货商Ocado、英国超市Asda、英国包裹递送公司DPD合作，从后者的城市送货车辆中收集数据。

自创立以来，Wayve吸引了包括微软、微软天使投资人Baillie Gifford、维珍集团、Meta Platforms公司AI首席科学家Yann LeCun（杨立昆）等投资方。根据创投数据库Crunchbase，Wayve公司在总共6轮融资中获得了超过2.57亿美元。2022年年初，CNBC估算Wayve公司当时的估值可能已经超过了10亿美元。

参考链接：

https://www.ft.com/content/a5a5f2ea-e95f-4358-9f80-d10c5ed90453

https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

英伟达今年已在泛AI领域有20笔投资

9月15日，根据金融数据公司PitchBook统计，英伟达在今年已经完成了近20笔风投交易，涉及生物技术、机器人、生成式AI等多个领域，成为人工智能的主要投资者之一。

英伟达疯狂押注人工智能

据统计，仅2023年第3季度，英伟达就参与了11 笔融资交易，其中大部分是与人工智能相关的初创公司。上一个季度，该公司进行了8笔风险投资交易。而从2005年开始，英伟达在任何一个季度的交易都没有超过4笔。

①2月，收购模型压缩公司OmniML，英伟达计划将该技术整合到英伟达软件中，这样大语言模型就能在英伟达芯片驱动的服务器上更高效地运行；
②3月11日，投资机器人公司Serve Robotics；
③3月14日，参与了生成式AI公司Adept的3.5亿美元B轮融资；
④4月20日，参与AI云计算公司CoreWeave的2.21亿美元B轮融资；
⑤6月8日，领投加拿大AI初创公司Cohere的2.7亿美元C轮融资；
⑥6月13日，投资数字人公司Synthesia 9000万美元；
⑦6月29日，参与文生视频公司Runway的1.41亿美元融资；
⑧6月29日，参与主打情感陪伴的AI公司Inflection的13亿美元融资；
⑨6月29日，参与文生图/视频公司Stability的1.4美元融资；
⑩7月8日，参投德国生成式AI公司Aleph Alpha 1.12亿美元，Aleph Alpha正在开发大语言模型Luminous；
⑪7月14日，投资基于AI的药物研发公司Recursion 5000万美元；
⑫7月19日，与云服务初创公司Lambda Labs谈判收购后者价值3亿美元的股份；
⑬8月23日，参与AI社区Hugging Face的2.35亿美元D轮融资；
⑭8月29日，参与AI制药公司Superluminal Medicines的3300万美元的种子轮融资；
⑮8月31日，参与以色列生成式AI初创公司AI21 Labs的1.55亿美元融资；
⑯8月29日，参与GPU.Net种子轮融资，GPU.Net通过提供去中心化的GPU 基础设施来满足生成式AI；
⑰9月7日，参与初创公司Inceptive的1亿美元融资，Inceptive将人工智能用于mRNA疫苗开发；
⑱9月7日，参与智能体开发公司Imbue的2亿美元B轮融资；
⑲9月12日，参与硅谷AI芯片初创公司Enfabrica的1.25亿美元融资；
⑳9月14日，参与数据分析和人工智能软件制造商Databricks的5亿美元新融资。

英伟达为什么要这么做？

1．押注并推动生成式AI

英伟达创始人兼CEO黄仁勋曾表示，一个新的计算时代已经开始。全球各地的公司正在「从通用计算向加速计算和生成式人工智能转型」。从财报上看也是如此，在2023年第二季度，英伟达数据中心相关业务（即向各云计算公司销售AI芯片）的营收达到了103.23亿美元，环比增长141%，同比增长171%，远高于上一财季的42.84亿美元。

不过，伴随着生成式AI的不断发展，GPU供需会趋于平衡，英伟达的增长也会一定程度放缓。而英伟达在这个过程中能做的是，投资更多的生成式AI公司——让生成式AI停留在青春期。此外，英伟达投资初创公司，同时也从这些公司身上获得收入。被投资的生成式AI公司大多数也是英伟达的客户，对GPU芯片有大量需求。

2. 涉猎云计算业务

在生成式AI的大时代，英伟达并不满足仅作为提供GPU的上游供应商，它同时也在觊觎下游的云计算业务——正是包括微软Azure、Google、亚马逊AWS、阿里云等在内的云计算平台，推升了英伟达今年以来的业绩。

新皮层曾报道，今年3月，英伟达就面向市场推出了一项名为「DGX Cloud」的AI云计算服务。该服务提供英伟达AI芯片和英伟达AI软件，使企业不需要部署成本昂贵的设备，仅通过浏览器就可以访问自己的AI超级计算机。英伟达称，这是一个价值3000亿美元的机会。

英伟达开展这项服务的方式就是在微软、Google和甲骨文等云计算公司的数据中心租用服务器，由英伟达提供芯片，然后由英伟达负责将服务器租给AI开发者。迫于压力，微软、Google和甲骨文都同意了此项计划，但亚马逊的云计算平台AWS拒绝了。

参考链接：

https://www.crunchbase.com/organization/nvidia/company_financials

https://foresightnews.pro/article/detail/38166

台积电押注「硅光子」，以实现更强大的ChatGPT

9月6日的国际半导体展硅光子论坛上，台积电副总经理余振华表示：「如果能提供一个良好的硅光子整合系统，就能解决能源效率和AI运算能力两大关键问题。」

市场传闻，台积电、英伟达以及博通正合作开发以「硅光子」为基础的超高速运算芯片，台积电已经投入了超过200人的前期研发团队。

硅光子技术由英特尔在2010年推出，结合硅及镭射技术，透过将电转换成光，让原本由铜线传输资料转换成传输距离更快速、更稳定的光纤。

相较于「微电子」芯片，硅基光电子芯片既可利用微电子技术在低成本、大规模CMOS集成方面的优势，又兼具光信号在传输过程中衰减小、传输带宽高、传输速率快、抗干扰性能强、功耗低等优点，最终改善人工智能、移动计算应用。

参考链接：

https://www.ft.com/content/4e37f5b1-1364-4e35-a7bd-decb190e1bd3

Adobe旗下生成式AI应用Firefly全面商用

9月13日，全球最大设计软件公司Adobe宣布AIGC工具Firefly现已在全面商用，意味着由Firefly支持的功能，如Photoshop的「生成填色」、Illustrator的「矢量重新着色」以及Express中的「文本到图像效果」，可供大多数用户使用。此外，Adobe还推出了一款独立的Firefly Web应用程序，允许用户无需订阅特定的Adobe Creative Suite应用程序就可以使用Firefly。

据Adobe官网显示，Firefly采用点数制收费，用户使用AI作图时消耗点数，每个点数对应一张图，每月可免费获得25点生成点数，同时可以付费购买额外点数。财报数据显示，Adobe第三财季销售额增长10%，达到48.9亿美元。分析师预计，新的AIGC工具将带动其收入进一步增长。William Bair分析师Jake Roberge估计Adobe明年收入增长将超过6亿美元。

Bonus

混元大模型获批

9月15日，腾讯宣布旗下的腾讯混元大模型已通过《生成式人工智能服务管理暂行办法》备案，将正式上线，并陆续面向公众开放。腾讯于9月7日的全球数字生态大会上发布了该大模型，并称该大模型已经接入腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品展开测试。此前一天，9月6日，微信已开始在小程序中上架和测试类ChatGPT产品「腾讯混元助手」。

参考链接：

https://mp.weixin.qq.com/s/iWmH17xgP6eUeu8nkcuYDA

天猫精灵改名「未来精灵」，还将接入大模型

9月15日，《中国证券报》报道称，天猫精灵将于9月19日发布新品牌和新产品，至少千万台已发售终端将通过线上升级接入大模型和多项AIGC能力。在今年3月阿里组织变革后，天猫精灵所属的智能互联业务已经开始公司化运作，运营主体是浙江艾克斯精灵人工智能科技有限公司。根据天眼查显示，该公司已经申请了多个XGENIE、未来精灵大模型相关商标。而在京东平台上也已经有了XGENIE旗舰店，销售蓝牙音响产品，声称已经连接超过4.6亿智能设备，也与天猫精灵此前数据相符。

参考链接：

https://news.cnstock.com/news,bwkx-202309-5123416.htm

Arm上市首日涨25%，市值约650亿美元

9月15日，软银旗下芯片设计公司Arm成功登陆纳斯达克，收盘时股价上涨25%，公司市值约650亿美元，成为今年全球最大规模的IPO，也是美国自电动汽车制造商Rivian 2021年10月上市以来最大规模的IPO。此次IPO，Arm公司筹集了48.7亿美元。软银于2016年以320亿美元收购了Arm公司，持有该公司约90%的股份。上市前，Arm为英特尔、苹果、英伟达、三星和台积电等公司预留了超过7亿美元的股票，这些公司都是Arm的大客户。不过，Arm距离生成式AI的距离比英伟达远得多，在其IPO文件中，预计到2025年，其设计产品的潜在市场将从去年的2025亿美元增至2466亿美元，年增长率仅为6.8%。

参考链接：

https://www.bloomberg.com/news/articles/2023-09-14/softbank-s-arm-indicated-to-open-higher-in-new-york-debut?srnd=premium-asia

Meta推出元宇宙社交应用Horizon Worlds的网页版和手机版

9月15日，Meta旗下元宇宙社交应用Horizon Worlds已经面向部分用户提供网页版和Android手机版的抢先体验，iOS版将在后续数周推出。此前，该应用仅限Meta旗下虚拟现实头盔Quest VR体验，用户可以选择虚拟角色玩游戏，也可以创建商品进行销售。2022年4月，Meta公司表示在开发Horizon Worlds的网页版和移动版，但没有披露过Horizon Worlds的用户数量。

参考链接：

https://www.meta.com/blog/quest/horizon-worlds-web-mobile-social-vr-free/

-END-

我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。

和每一位关心技术、关注人类命运的读者一样，我们希望在这个充满不确定性的时代，更好地理解快速变化的科技世界，也更好地理解生而为「高级智能」的我们自己。

在这个目标下，我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意，我们说的智能，不只是 AI。

与记者交流，可添加微信（请备注公司名称和姓名）：

王杰夫微信号: wjfsty

张司钰微信号: helianthus351

吴洋洋微信号: qitianjiuye

喜欢就关注我们吧，记得「设为星标」

继续滑动看下一个

智能晚报｜Google测试对标GPT-4的模型；Wayve推出能解释其行为的自动驾驶系统；混元模型获批、天猫精灵将接入生成式AI

Original 徐弢、裘欢欣新皮层NewNewThing

新皮层NewNewThing

向上滑动看下一个

常德悲剧：让谴责无差别杀戮之声更加响亮一点

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

这家头部券商资管总经理"迎新"

智能晚报｜Google测试对标GPT-4的模型；Wayve推出能解释其行为的自动驾驶系统；混元模型获批、天猫精灵将接入生成式AI

智能晚报｜Google测试对标GPT-4的模型；Wayve推出能解释其行为的自动驾驶系统；混元模型获批、天猫精灵将接入生成式AI

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

这家头部券商资管总经理"迎新"

生成图片，分享到微信朋友圈

智能晚报｜Google测试对标GPT-4的模型；Wayve推出能解释其行为的自动驾驶系统；混元模型获批、天猫精灵将接入生成式AI

智能晚报｜Google测试对标GPT-4的模型；Wayve推出能解释其行为的自动驾驶系统；混元模型获批、天猫精灵将接入生成式AI

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时