查看原文
其他

智能晚报|Google测试对标GPT-4的模型;Wayve推出能解释其行为的自动驾驶系统;混元模型获批、天猫精灵将接入生成式AI

徐弢、裘欢欣 新皮层NewNewThing 2024-03-08

「每周一三五更新」


撰文:徐弢、裘欢欣

编辑:吴洋洋

Key Points


Google开始测试对标GPT-4的多模态模型「Gemini」


Wayve推出能解释其行为的自动驾驶系统Lingo-1


英伟达今年已在泛AI领域有20笔投资


台积电押注「硅光子」,以实现更强大的ChatGPT


混元大模型获批、天猫精灵将接入生成式AI



Google开始测试对标GPT-4的多模态模型「Gemini」

9月15日,Google被爆料已经向小部分公司开放了其多模态模型「Gemini」(双子星)的早期版本。

「Gemini」是Google对标GPT-4开发的多模态模型,最早在今年5月Google召开的全球开发者大会上被宣布。当时,Google发布了其第二代大语言模型PaLM 2,对标GPT-3.5。

「Gemini」背后的开发团队是Google DeepMind

4月20日,Google宣布将旗下两个AI团队Google Brain和DeepMind合并,成立名为「Google DeepMind」的新部门,由DeepMind创始人Demis Hassabis担任CEO,Google Brain负责人Jeff Dean则担任新部门的首席科学家。DeepMind是Google 2014年收购的人工智能初创公司,位于伦敦。

两个团队此前都想开发对标GPT-4的产品,因而都需要大量计算资源,两支团队最终决定合作开发。

目前正在测试的是「较大」版本的Gemini,但不是「最大」的那个版本

与大语言模型PaLM 2相同,Gemini也将提供多种规格和功能。信源消息称,Google向开发者提供的是相对较大的Gemini版本,但不是正在开发的最大版本,后者将更接近GPT-4。正在测试的Gemini提供了包括聊天机器人、代码编写工具,以及根据用户需求生成图像等。

6月,Demis Hassabis在接受采访时指出,Gemini将整合使用了强化学习和树搜索的AlphaGo。树搜索是一种算法,会通过随机模拟评估可能的决策,然后选择最优解。

7月的媒体报道称,Google联合创始人Sergey Brin与一组研究人员密切合作开发Gemini,每周有三四天到访加州山景城的办公室。在研发外,Brin还负责Gemini项目所需技术人才的招聘环节。

8月,有媒体爆料称,Google在使用YouTube视频脚本来训练Gemini。爆料人士还透露,计划在今年秋季推出的Gemini在文本生成、根据上下文生成图像等功能外,还可能实现流程图分析、通过语音控制软件等功能。

GPT-4的竞争对手正变得越来越多

今年9月,半导体研究公司SemiAnalysis报告称,Google即将推出的大语言模型Gemini将比GPT-4强大5倍,给出的依据是Google拥有充足的财务资源。也有人认为,Google有大量的专有训练数据可能让Gemini功能强大,包括Google搜索、YouTube视频、Google图书和Google学术搜索等。

此外,Meta也计划在2024年年初开始训练、并于同年推出对标GPT-4的模型,为此购买了大量英伟达H100芯片。

还有苹果公司。传闻苹果公司每天向自己的人工智能模型Ajax投入数百万美元


参考链接:

https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai




Wayve推出能解释其行为的自动驾驶系统Lingo-1

7月14日,英国初创公司Wayve推出了新的用于自动驾驶的模型Lingo-1,该模型可以对驾驶场景做出分析,并通过回答问题来澄清和解释其决策依据。例如,当汽车接近斑马线时,发现有行人正通过斑马线,它会解释汽车为什么会放慢速度,并在斑马线前停止。

图片来源:Wayve官网

模型Lingo-1如何工作?

Lingo-1是一个将Wayve自研的自动驾驶系统与某种大语言模型(LLM)组成的混合模型,也就是视觉-语言-动作模型(visual-language-action,VLAM)。该模型可以将视频数据和驾驶数据(汽车每秒采取的动作),与捕捉汽车所看到的和所做的事情的自然语言描述进行同步。

新皮层曾报道过类似模型,Google DeepMind所推出的新款机器人Robotic Transformer 2 (RT-2),就是将大语言模型作为一种「visual-language model」(VLM,视觉-语言模型),然后将基于真实物理环境训练的数据加载到该VLM上,由此获得「visual-language-action」(VLA,视觉-语言-动作模型)。相较于过去为特定任务编写指令、或者完全靠端到端强化学习训练的模型,混合模型能够让操作者通过自然语言指示RT-2机器人完成任务,哪怕是它未接受过训练的任务。

根据Wayve公司提供的演示案例,当测试车辆在T字路口尝试左拐时,Lingo-1对驾驶行为作出了解释:

-我正在保持静止,因为前方车辆也停了下来

-前方车道已经畅通,我现在正在加速

-我正在路口刹车

-我现在要走了,因为车道已经畅通了

-遵循路线完成左转

图片来源:Wayve官网

在根据路况进行评论外,Wayve公司还测试了该模型针对各种驾驶场景的问题,包括十字路口注意事项、天气对于驾驶的影响等。

在该公司本周提供给《麻省理工科技评论》的演示视频中,Wayve公司CEO Alex Kendall播放了一辆捷豹I-PACE测试车载摄像头拍摄的视频,他随机选中了视频节点,并在右侧输入框内输入问题,Lingo-1也能顺利完成对话。

不过,Lingo-1并不总是能回答对问题

当英国《金融时报》记者询问Lingo-1是否可以把车停在左边有公交车站的地方时,它说可以。在自动驾驶场景中,这种回答如果只是对行动后的「解释」,可能还造不成什么危害。但如果它代表的是行动前的「决策」,就会产生危险。

与人类答案相比,Lingo-1的准确率约为60%。但该公司没有披露Lingo-1模型所使用的大语言模型来源,也尚未给出该模型何时整合到其自动驾驶汽车中的时间表。

在Wayve公司之前,Google、机器人公司Covariant都在使用自然语言对机器人进行训练。Google今年7月推出了RT-2机器人,同样使用了视觉语言动作模型(VLAM)。

Wayve公司及其背景

Wayve公司由Alex Kendall、Amar Shah(2020年离开)联合创立于2017年的英国剑桥,他们都是剑桥大学博士毕业生。

目前,Wayve公司的深度学习模型采用强化学习和模仿学习相结合的方式训练,其中强化学习通过反复试错学习,模仿学习则复制人类驾驶员的行为。另外,Wayve公司使用深度学习和摄像头来引导车辆,而不是成本更高的激光雷达和其他传感器。该公司已经与英国在线杂货商Ocado、英国超市Asda、英国包裹递送公司DPD合作,从后者的城市送货车辆中收集数据。

自创立以来,Wayve吸引了包括微软、微软天使投资人Baillie Gifford、维珍集团、Meta Platforms公司AI首席科学家Yann LeCun(杨立昆)等投资方。根据创投数据库Crunchbase,Wayve公司在总共6轮融资中获得了超过2.57亿美元。2022年年初,CNBC估算Wayve公司当时的估值可能已经超过了10亿美元。


参考链接:

https://www.ft.com/content/a5a5f2ea-e95f-4358-9f80-d10c5ed90453

https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/




英伟达今年已在泛AI领域有20笔投资

9月15日,根据金融数据公司PitchBook统计,英伟达在今年已经完成了近20笔风投交易,涉及生物技术、机器人、生成式AI等多个领域,成为人工智能的主要投资者之一。

英伟达疯狂押注人工智能

据统计,仅2023年第3季度,英伟达就参与了11 笔融资交易,其中大部分是与人工智能相关的初创公司。上一个季度,该公司进行了8笔风险投资交易。而从2005年开始,英伟达在任何一个季度的交易都没有超过4笔。

英伟达为什么要这么做?

1.押注并推动生成式AI  

英伟达创始人兼CEO黄仁勋曾表示,一个新的计算时代已经开始。全球各地的公司正在「从通用计算向加速计算和生成式人工智能转型」。从财报上看也是如此,在2023年第二季度,英伟达数据中心相关业务(即向各云计算公司销售AI芯片)的营收达到了103.23亿美元,环比增长141%,同比增长171%,远高于上一财季的42.84亿美元。

不过,伴随着生成式AI的不断发展,GPU供需会趋于平衡,英伟达的增长也会一定程度放缓。而英伟达在这个过程中能做的是,投资更多的生成式AI公司——让生成式AI停留在青春期。此外,英伟达投资初创公司,同时也从这些公司身上获得收入。被投资的生成式AI公司大多数也是英伟达的客户,对GPU芯片有大量需求。

2. 涉猎云计算业务

在生成式AI的大时代,英伟达并不满足仅作为提供GPU的上游供应商,它同时也在觊觎下游的云计算业务——正是包括微软Azure、Google、亚马逊AWS、阿里云等在内的云计算平台,推升了英伟达今年以来的业绩。

新皮层曾报道,今年3月,英伟达就面向市场推出了一项名为「DGX Cloud」的AI云计算服务。该服务提供英伟达AI芯片和英伟达AI软件,使企业不需要部署成本昂贵的设备,仅通过浏览器就可以访问自己的AI超级计算机。英伟达称,这是一个价值3000亿美元的机会。

英伟达开展这项服务的方式就是在微软、Google和甲骨文等云计算公司的数据中心租用服务器,由英伟达提供芯片,然后由英伟达负责将服务器租给AI开发者。迫于压力,微软、Google和甲骨文都同意了此项计划,但亚马逊的云计算平台AWS拒绝了。


参考链接:

https://www.crunchbase.com/organization/nvidia/company_financials

https://foresightnews.pro/article/detail/38166




台积电押注「硅光子」,以实现更强大的ChatGPT

9月6日的国际半导体展硅光子论坛上,台积电副总经理余振华表示:「如果能提供一个良好的硅光子整合系统,就能解决能源效率和AI运算能力两大关键问题。」

市场传闻,台积电、英伟达以及博通正合作开发以「硅光子」为基础的超高速运算芯片,台积电已经投入了超过200人的前期研发团队。

硅光子技术由英特尔在2010年推出,结合硅及镭射技术,透过将电转换成光,让原本由铜线传输资料转换成传输距离更快速、更稳定的光纤。

相较于「微电子」芯片,硅基光电子芯片既可利用微电子技术在低成本、大规模CMOS集成方面的优势,又兼具光信号在传输过程中衰减小、传输带宽高、传输速率快、抗干扰性能强、功耗低等优点,最终改善人工智能、移动计算应用。


参考链接:

https://www.ft.com/content/4e37f5b1-1364-4e35-a7bd-decb190e1bd3




Adobe旗下生成式AI应用Firefly全面商用

9月13日,全球最大设计软件公司Adobe宣布AIGC工具Firefly现已在全面商用,意味着由Firefly支持的功能,如Photoshop的「生成填色」、Illustrator的「矢量重新着色」以及Express中的「文本到图像效果」,可供大多数用户使用。此外,Adobe还推出了一款独立的Firefly Web应用程序,允许用户无需订阅特定的Adobe Creative Suite应用程序就可以使用Firefly。

据Adobe官网显示,Firefly采用点数制收费,用户使用AI作图时消耗点数,每个点数对应一张图,每月可免费获得25点生成点数,同时可以付费购买额外点数。财报数据显示,Adobe第三财季销售额增长10%,达到48.9亿美元。分析师预计,新的AIGC工具将带动其收入进一步增长。William Bair分析师Jake Roberge估计Adobe明年收入增长将超过6亿美元。




Bonus

混元大模型获批

9月15日,腾讯宣布旗下的腾讯混元大模型已通过《生成式人工智能服务管理暂行办法》备案,将正式上线,并陆续面向公众开放。腾讯于9月7日的全球数字生态大会上发布了该大模型,并称该大模型已经接入腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品展开测试。此前一天,9月6日,微信已开始在小程序中上架和测试类ChatGPT产品「腾讯混元助手」

参考链接:

https://mp.weixin.qq.com/s/iWmH17xgP6eUeu8nkcuYDA


天猫精灵改名「未来精灵」,还将接入大模型

9月15日,《中国证券报》报道称,天猫精灵将于9月19日发布新品牌和新产品,至少千万台已发售终端将通过线上升级接入大模型和多项AIGC能力。在今年3月阿里组织变革后,天猫精灵所属的智能互联业务已经开始公司化运作,运营主体是浙江艾克斯精灵人工智能科技有限公司。根据天眼查显示,该公司已经申请了多个XGENIE、未来精灵大模型相关商标。而在京东平台上也已经有了XGENIE旗舰店,销售蓝牙音响产品,声称已经连接超过4.6亿智能设备,也与天猫精灵此前数据相符。

参考链接:

https://news.cnstock.com/news,bwkx-202309-5123416.htm


Arm上市首日涨25%,市值约650亿美元

9月15日,软银旗下芯片设计公司Arm成功登陆纳斯达克,收盘时股价上涨25%,公司市值约650亿美元,成为今年全球最大规模的IPO,也是美国自电动汽车制造商Rivian 2021年10月上市以来最大规模的IPO。此次IPO,Arm公司筹集了48.7亿美元。软银于2016年以320亿美元收购了Arm公司,持有该公司约90%的股份。上市前,Arm为英特尔、苹果、英伟达、三星和台积电等公司预留了超过7亿美元的股票,这些公司都是Arm的大客户。不过,Arm距离生成式AI的距离比英伟达远得多,在其IPO文件中,预计到2025年,其设计产品的潜在市场将从去年的2025亿美元增至2466亿美元,年增长率仅为6.8%。

参考链接:

https://www.bloomberg.com/news/articles/2023-09-14/softbank-s-arm-indicated-to-open-higher-in-new-york-debut?srnd=premium-asia


Meta推出元宇宙社交应用Horizon Worlds的网页版和手机版

9月15日,Meta旗下元宇宙社交应用Horizon Worlds已经面向部分用户提供网页版和Android手机版的抢先体验,iOS版将在后续数周推出。此前,该应用仅限Meta旗下虚拟现实头盔Quest VR体验,用户可以选择虚拟角色玩游戏,也可以创建商品进行销售。2022年4月,Meta公司表示在开发Horizon Worlds的网页版和移动版,但没有披露过Horizon Worlds的用户数量。

参考链接:

https://www.meta.com/blog/quest/horizon-worlds-web-mobile-social-vr-free/

-END-

了解更多当日资讯,请点击

智能晚报|阿里通义大模型获批;华为发布新车,称不再需要高精地图;Google面临20年来最大反垄断审查...

了解更多当日头条,请点击

大公司|iPhone 15和Apple Watch都没有大创新,不过都有Vision Pro的影子

我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。 

和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。

在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。


与记者交流,可添加微信(请备注公司名称和姓名):

王杰夫 微信号: wjfsty

张司钰 微信号: helianthus351

吴洋洋 微信号: qitianjiuye

喜欢就关注我们吧,记得设为星标」

继续滑动看下一个

智能晚报|Google测试对标GPT-4的模型;Wayve推出能解释其行为的自动驾驶系统;混元模型获批、天猫精灵将接入生成式AI

徐弢、裘欢欣 新皮层NewNewThing
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存