智能晚报|Google测试对标GPT-4的模型;Wayve推出能解释其行为的自动驾驶系统;混元模型获批、天猫精灵将接入生成式AI
「每周一三五更新」
撰文:徐弢、裘欢欣
编辑:吴洋洋Key Points
Google开始测试对标GPT-4的多模态模型「Gemini」
Wayve推出能解释其行为的自动驾驶系统Lingo-1
英伟达今年已在泛AI领域有20笔投资
台积电押注「硅光子」,以实现更强大的ChatGPT
混元大模型获批、天猫精灵将接入生成式AI
Google开始测试对标GPT-4的多模态模型「Gemini」
9月15日,Google被爆料已经向小部分公司开放了其多模态模型「Gemini」(双子星)的早期版本。
「Gemini」是Google对标GPT-4开发的多模态模型,最早在今年5月Google召开的全球开发者大会上被宣布。当时,Google发布了其第二代大语言模型PaLM 2,对标GPT-3.5。
「Gemini」背后的开发团队是Google DeepMind
4月20日,Google宣布将旗下两个AI团队Google Brain和DeepMind合并,成立名为「Google DeepMind」的新部门,由DeepMind创始人Demis Hassabis担任CEO,Google Brain负责人Jeff Dean则担任新部门的首席科学家。DeepMind是Google 2014年收购的人工智能初创公司,位于伦敦。
两个团队此前都想开发对标GPT-4的产品,因而都需要大量计算资源,两支团队最终决定合作开发。
目前正在测试的是「较大」版本的Gemini,但不是「最大」的那个版本
与大语言模型PaLM 2相同,Gemini也将提供多种规格和功能。信源消息称,Google向开发者提供的是相对较大的Gemini版本,但不是正在开发的最大版本,后者将更接近GPT-4。正在测试的Gemini提供了包括聊天机器人、代码编写工具,以及根据用户需求生成图像等。
6月,Demis Hassabis在接受采访时指出,Gemini将整合使用了强化学习和树搜索的AlphaGo。树搜索是一种算法,会通过随机模拟评估可能的决策,然后选择最优解。
7月的媒体报道称,Google联合创始人Sergey Brin与一组研究人员密切合作开发Gemini,每周有三四天到访加州山景城的办公室。在研发外,Brin还负责Gemini项目所需技术人才的招聘环节。
8月,有媒体爆料称,Google在使用YouTube视频脚本来训练Gemini。爆料人士还透露,计划在今年秋季推出的Gemini在文本生成、根据上下文生成图像等功能外,还可能实现流程图分析、通过语音控制软件等功能。
GPT-4的竞争对手正变得越来越多
今年9月,半导体研究公司SemiAnalysis报告称,Google即将推出的大语言模型Gemini将比GPT-4强大5倍,给出的依据是Google拥有充足的财务资源。也有人认为,Google有大量的专有训练数据可能让Gemini功能强大,包括Google搜索、YouTube视频、Google图书和Google学术搜索等。
此外,Meta也计划在2024年年初开始训练、并于同年推出对标GPT-4的模型,为此购买了大量英伟达H100芯片。
还有苹果公司。传闻苹果公司每天向自己的人工智能模型Ajax投入数百万美元。
参考链接:
https://www.theinformation.com/articles/google-nears-release-of-gemini-ai-to-rival-openai
Wayve推出能解释其行为的自动驾驶系统Lingo-1
7月14日,英国初创公司Wayve推出了新的用于自动驾驶的模型Lingo-1,该模型可以对驾驶场景做出分析,并通过回答问题来澄清和解释其决策依据。例如,当汽车接近斑马线时,发现有行人正通过斑马线,它会解释汽车为什么会放慢速度,并在斑马线前停止。
图片来源:Wayve官网
模型Lingo-1如何工作?
Lingo-1是一个将Wayve自研的自动驾驶系统与某种大语言模型(LLM)组成的混合模型,也就是视觉-语言-动作模型(visual-language-action,VLAM)。该模型可以将视频数据和驾驶数据(汽车每秒采取的动作),与捕捉汽车所看到的和所做的事情的自然语言描述进行同步。
新皮层曾报道过类似模型,Google DeepMind所推出的新款机器人Robotic Transformer 2 (RT-2),就是将大语言模型作为一种「visual-language model」(VLM,视觉-语言模型),然后将基于真实物理环境训练的数据加载到该VLM上,由此获得「visual-language-action」(VLA,视觉-语言-动作模型)。相较于过去为特定任务编写指令、或者完全靠端到端强化学习训练的模型,混合模型能够让操作者通过自然语言指示RT-2机器人完成任务,哪怕是它未接受过训练的任务。
根据Wayve公司提供的演示案例,当测试车辆在T字路口尝试左拐时,Lingo-1对驾驶行为作出了解释:
-我正在保持静止,因为前方车辆也停了下来
-前方车道已经畅通,我现在正在加速
-我正在路口刹车
-我现在要走了,因为车道已经畅通了
-遵循路线完成左转
在根据路况进行评论外,Wayve公司还测试了该模型针对各种驾驶场景的问题,包括十字路口注意事项、天气对于驾驶的影响等。
在该公司本周提供给《麻省理工科技评论》的演示视频中,Wayve公司CEO Alex Kendall播放了一辆捷豹I-PACE测试车载摄像头拍摄的视频,他随机选中了视频节点,并在右侧输入框内输入问题,Lingo-1也能顺利完成对话。
不过,Lingo-1并不总是能回答对问题
当英国《金融时报》记者询问Lingo-1是否可以把车停在左边有公交车站的地方时,它说可以。在自动驾驶场景中,这种回答如果只是对行动后的「解释」,可能还造不成什么危害。但如果它代表的是行动前的「决策」,就会产生危险。
与人类答案相比,Lingo-1的准确率约为60%。但该公司没有披露Lingo-1模型所使用的大语言模型来源,也尚未给出该模型何时整合到其自动驾驶汽车中的时间表。
在Wayve公司之前,Google、机器人公司Covariant都在使用自然语言对机器人进行训练。Google今年7月推出了RT-2机器人,同样使用了视觉语言动作模型(VLAM)。
Wayve公司及其背景
Wayve公司由Alex Kendall、Amar Shah(2020年离开)联合创立于2017年的英国剑桥,他们都是剑桥大学博士毕业生。
目前,Wayve公司的深度学习模型采用强化学习和模仿学习相结合的方式训练,其中强化学习通过反复试错学习,模仿学习则复制人类驾驶员的行为。另外,Wayve公司使用深度学习和摄像头来引导车辆,而不是成本更高的激光雷达和其他传感器。该公司已经与英国在线杂货商Ocado、英国超市Asda、英国包裹递送公司DPD合作,从后者的城市送货车辆中收集数据。
自创立以来,Wayve吸引了包括微软、微软天使投资人Baillie Gifford、维珍集团、Meta Platforms公司AI首席科学家Yann LeCun(杨立昆)等投资方。根据创投数据库Crunchbase,Wayve公司在总共6轮融资中获得了超过2.57亿美元。2022年年初,CNBC估算Wayve公司当时的估值可能已经超过了10亿美元。
参考链接:
https://www.ft.com/content/a5a5f2ea-e95f-4358-9f80-d10c5ed90453
https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/
英伟达今年已在泛AI领域有20笔投资
9月15日,根据金融数据公司PitchBook统计,英伟达在今年已经完成了近20笔风投交易,涉及生物技术、机器人、生成式AI等多个领域,成为人工智能的主要投资者之一。
英伟达疯狂押注人工智能
据统计,仅2023年第3季度,英伟达就参与了11 笔融资交易,其中大部分是与人工智能相关的初创公司。上一个季度,该公司进行了8笔风险投资交易。而从2005年开始,英伟达在任何一个季度的交易都没有超过4笔。
①2月,收购模型压缩公司OmniML,英伟达计划将该技术整合到英伟达软件中,这样大语言模型就能在英伟达芯片驱动的服务器上更高效地运行;
②3月11日,投资机器人公司Serve Robotics;
③3月14日,参与了生成式AI公司Adept的3.5亿美元B轮融资;
④4月20日,参与AI云计算公司CoreWeave的2.21亿美元B轮融资;
⑤6月8日,领投加拿大AI初创公司Cohere的2.7亿美元C轮融资;
⑥6月13日,投资数字人公司Synthesia 9000万美元;
⑦6月29日,参与文生视频公司Runway的1.41亿美元融资;
⑧6月29日,参与主打情感陪伴的AI公司Inflection的13亿美元融资;
⑨6月29日,参与文生图/视频公司Stability的1.4美元融资;
⑩7月8日,参投德国生成式AI公司Aleph Alpha 1.12亿美元,Aleph Alpha正在开发大语言模型Luminous;
⑪7月14日,投资基于AI的药物研发公司Recursion 5000万美元;
⑫7月19日,与云服务初创公司Lambda Labs谈判收购后者价值3亿美元的股份;
⑬8月23日,参与AI社区Hugging Face的2.35亿美元D轮融资;
⑭8月29日,参与AI制药公司Superluminal Medicines的3300万美元的种子轮融资;
⑮8月31日,参与以色列生成式AI初创公司AI21 Labs的1.55亿美元融资;
⑯8月29日,参与GPU.Net种子轮融资,GPU.Net通过提供去中心化的GPU 基础设施来满足生成式AI;
⑰9月7日,参与初创公司Inceptive的1亿美元融资,Inceptive将人工智能用于mRNA疫苗开发;
⑱9月7日,参与智能体开发公司Imbue的2亿美元B轮融资;
⑲9月12日,参与硅谷AI芯片初创公司Enfabrica的1.25亿美元融资;
⑳9月14日,参与数据分析和人工智能软件制造商Databricks的5亿美元新融资。
英伟达为什么要这么做?
1.押注并推动生成式AI
英伟达创始人兼CEO黄仁勋曾表示,一个新的计算时代已经开始。全球各地的公司正在「从通用计算向加速计算和生成式人工智能转型」。从财报上看也是如此,在2023年第二季度,英伟达数据中心相关业务(即向各云计算公司销售AI芯片)的营收达到了103.23亿美元,环比增长141%,同比增长171%,远高于上一财季的42.84亿美元。
不过,伴随着生成式AI的不断发展,GPU供需会趋于平衡,英伟达的增长也会一定程度放缓。而英伟达在这个过程中能做的是,投资更多的生成式AI公司——让生成式AI停留在青春期。此外,英伟达投资初创公司,同时也从这些公司身上获得收入。被投资的生成式AI公司大多数也是英伟达的客户,对GPU芯片有大量需求。
2. 涉猎云计算业务
在生成式AI的大时代,英伟达并不满足仅作为提供GPU的上游供应商,它同时也在觊觎下游的云计算业务——正是包括微软Azure、Google、亚马逊AWS、阿里云等在内的云计算平台,推升了英伟达今年以来的业绩。
新皮层曾报道,今年3月,英伟达就面向市场推出了一项名为「DGX Cloud」的AI云计算服务。该服务提供英伟达AI芯片和英伟达AI软件,使企业不需要部署成本昂贵的设备,仅通过浏览器就可以访问自己的AI超级计算机。英伟达称,这是一个价值3000亿美元的机会。
英伟达开展这项服务的方式就是在微软、Google和甲骨文等云计算公司的数据中心租用服务器,由英伟达提供芯片,然后由英伟达负责将服务器租给AI开发者。迫于压力,微软、Google和甲骨文都同意了此项计划,但亚马逊的云计算平台AWS拒绝了。
参考链接:
https://www.crunchbase.com/organization/nvidia/company_financials
https://foresightnews.pro/article/detail/38166
台积电押注「硅光子」,以实现更强大的ChatGPT
9月6日的国际半导体展硅光子论坛上,台积电副总经理余振华表示:「如果能提供一个良好的硅光子整合系统,就能解决能源效率和AI运算能力两大关键问题。」
市场传闻,台积电、英伟达以及博通正合作开发以「硅光子」为基础的超高速运算芯片,台积电已经投入了超过200人的前期研发团队。
硅光子技术由英特尔在2010年推出,结合硅及镭射技术,透过将电转换成光,让原本由铜线传输资料转换成传输距离更快速、更稳定的光纤。
相较于「微电子」芯片,硅基光电子芯片既可利用微电子技术在低成本、大规模CMOS集成方面的优势,又兼具光信号在传输过程中衰减小、传输带宽高、传输速率快、抗干扰性能强、功耗低等优点,最终改善人工智能、移动计算应用。
参考链接:
https://www.ft.com/content/4e37f5b1-1364-4e35-a7bd-decb190e1bd3
Adobe旗下生成式AI应用Firefly全面商用
9月13日,全球最大设计软件公司Adobe宣布AIGC工具Firefly现已在全面商用,意味着由Firefly支持的功能,如Photoshop的「生成填色」、Illustrator的「矢量重新着色」以及Express中的「文本到图像效果」,可供大多数用户使用。此外,Adobe还推出了一款独立的Firefly Web应用程序,允许用户无需订阅特定的Adobe Creative Suite应用程序就可以使用Firefly。
据Adobe官网显示,Firefly采用点数制收费,用户使用AI作图时消耗点数,每个点数对应一张图,每月可免费获得25点生成点数,同时可以付费购买额外点数。财报数据显示,Adobe第三财季销售额增长10%,达到48.9亿美元。分析师预计,新的AIGC工具将带动其收入进一步增长。William Bair分析师Jake Roberge估计Adobe明年收入增长将超过6亿美元。
Bonus
混元大模型获批
9月15日,腾讯宣布旗下的腾讯混元大模型已通过《生成式人工智能服务管理暂行办法》备案,将正式上线,并陆续面向公众开放。腾讯于9月7日的全球数字生态大会上发布了该大模型,并称该大模型已经接入腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品展开测试。此前一天,9月6日,微信已开始在小程序中上架和测试类ChatGPT产品「腾讯混元助手」。
参考链接:
https://mp.weixin.qq.com/s/iWmH17xgP6eUeu8nkcuYDA
天猫精灵改名「未来精灵」,还将接入大模型
9月15日,《中国证券报》报道称,天猫精灵将于9月19日发布新品牌和新产品,至少千万台已发售终端将通过线上升级接入大模型和多项AIGC能力。在今年3月阿里组织变革后,天猫精灵所属的智能互联业务已经开始公司化运作,运营主体是浙江艾克斯精灵人工智能科技有限公司。根据天眼查显示,该公司已经申请了多个XGENIE、未来精灵大模型相关商标。而在京东平台上也已经有了XGENIE旗舰店,销售蓝牙音响产品,声称已经连接超过4.6亿智能设备,也与天猫精灵此前数据相符。
参考链接:
https://news.cnstock.com/news,bwkx-202309-5123416.htm
Arm上市首日涨25%,市值约650亿美元
9月15日,软银旗下芯片设计公司Arm成功登陆纳斯达克,收盘时股价上涨25%,公司市值约650亿美元,成为今年全球最大规模的IPO,也是美国自电动汽车制造商Rivian 2021年10月上市以来最大规模的IPO。此次IPO,Arm公司筹集了48.7亿美元。软银于2016年以320亿美元收购了Arm公司,持有该公司约90%的股份。上市前,Arm为英特尔、苹果、英伟达、三星和台积电等公司预留了超过7亿美元的股票,这些公司都是Arm的大客户。不过,Arm距离生成式AI的距离比英伟达远得多,在其IPO文件中,预计到2025年,其设计产品的潜在市场将从去年的2025亿美元增至2466亿美元,年增长率仅为6.8%。
参考链接:
https://www.bloomberg.com/news/articles/2023-09-14/softbank-s-arm-indicated-to-open-higher-in-new-york-debut?srnd=premium-asia
Meta推出元宇宙社交应用Horizon Worlds的网页版和手机版
9月15日,Meta旗下元宇宙社交应用Horizon Worlds已经面向部分用户提供网页版和Android手机版的抢先体验,iOS版将在后续数周推出。此前,该应用仅限Meta旗下虚拟现实头盔Quest VR体验,用户可以选择虚拟角色玩游戏,也可以创建商品进行销售。2022年4月,Meta公司表示在开发Horizon Worlds的网页版和移动版,但没有披露过Horizon Worlds的用户数量。
参考链接:
https://www.meta.com/blog/quest/horizon-worlds-web-mobile-social-vr-free/
-END-
了解更多当日资讯,请点击
智能晚报|阿里通义大模型获批;华为发布新车,称不再需要高精地图;Google面临20年来最大反垄断审查...
了解更多当日头条,请点击
大公司|iPhone 15和Apple Watch都没有大创新,不过都有Vision Pro的影子
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。
和每一位关心技术、关注人类命运的读者一样,我们希望在这个充满不确定性的时代,更好地理解快速变化的科技世界,也更好地理解生而为「高级智能」的我们自己。
在这个目标下,我们计划从学术、商业、伦理、监管等多个角度报道和讨论与「智能」相关的议题。请注意,我们说的智能,不只是 AI。
与记者交流,可添加微信(请备注公司名称和姓名):
王杰夫 微信号: wjfsty
张司钰 微信号: helianthus351
吴洋洋 微信号: qitianjiuye
喜欢就关注我们吧,记得「设为星标」