查看原文
其他

智能晚报|OpenAI的新品列表来了,既有视频生成、还有智能体和AI搜索;传月之暗面估值25亿美元……

张司钰、江睿杰等 新皮层NewNewThing 2024-03-08

撰文:张司钰、江睿杰、杨秋秋

编辑:王杰夫

Key Points


OpenAI的计划是通吃整个生成式AI的软硬件基础设施;


Google推出了Gemini 1.5,能力可能强过GPT-4;


英伟达市值超过亚马逊和Google;


微软更新Copilot,能力更强也更有存在感;


AI创企月之暗面完成新一轮超10亿美元融资;


华为小米均定档2月22日举行新品发布会;


Arm股价翻倍,软银成大赢家;


软银孙正义筹资1000亿美元也要建AI芯片企业;


Stability AI推出非商用文生图模型Stable Cascade。


OpenAI的计划是通吃整个生成式AI的软硬件基础设施

在国内沉浸于春节假期时,OpenAI依旧是全球最活跃的AI公司。

其中最重磅的消息自然是它发布的文生视频模型Sora,该模型不仅将生成视频的长度从业内常见的5到10秒一下子提升到1分钟,而且还表现出模拟现实世界物体运动、碰撞、光影的能力。Sora再次震惊了整个AI圈,它之于视频模型领域的意义丝毫不亚于ChatGPT之于文本模型领域的意义。

不过,除了Sora,围绕OpenAI还有不少关于未来规划的消息,它们展露出的OpenAI的野心令人心惊。

一方面,有消息称OpenAI准备推出智能体(Agent)和AI搜索工具,前者的代表产品是AutoGPT,后者的代表产品是Perplexity,它们是目前聊天机器人应用最广泛的两个场景,而OpenAI的加入必然会引发市场格局变化。届时,OpenAI将完成对生成式AI主流模型和产品的全方位覆盖,包括文本模型GPT、文生图模型DALL·E、文生视频模型Sora、聊天机器人ChatGPT、智能体、AI搜索工具等等。

另一方面,OpenAI还在向产业链上游进发。CEO Sam Altman近期透露了一个高达7万亿美元(几乎是英国GDP的两倍)的芯片产业重构计划,他认为AI将成为未来一切产业的基础设施,这个基础设施需要巨大的算力,也就是芯片的支撑,OpenAI自然将成为这个计划的中心。当然,Altman这一计划由来已久,自去年10月开始就不断有OpenAI准备投资芯片的消息传出,Altman本人也同包括G42、软银、英特尔、台积电和三星电子等公司谈判过合作。

有不少观点认为这个7万亿美元的计划有些异想天开,Altman不过是在为OpenAI下一步的融资画饼,但随着OpenAI的业务不断横向扩张,未来它借此向上游整合并非没有可能,毕竟生成式AI天然就有赢者通吃的属性。

1. OpenAI计划开发智能体产品与网络搜索产品

2月7日,有报道称OpenAI正在开发一款新型智能体,该软件能够通过控制用户的电脑或移动设备,自动完成一系列复杂任务。2月14日,又有报道称该公司还在开发一款网络搜索产品,意图与Google和Perplexity竞争。

AI智能体(Agent)

OpenAI正在开发中的智能体软件像是一个与微软Copilot产品竞争的操作系统,它能模拟人类用户操作设备的行为,如点击、滑动、输入文本等,在没有人工干预的情况下执行特定的任务。

该智能体的操作不仅限于简单的命令执行,还可以处理包括从网页上收集数据、管理电子邮件、安排日程等在内,需要在不同应用程序之间交互的复杂任务。比如,用户可以让这个智能体从一个文档中提取数据并将其导入到电子表格中分析。

此举是OpenAI在利用AI自动化和简化日常工作流程方面的探索,CEO Sam Altman一直专注于将ChatGPT变成一个「超级智能工作的个人助理」。

不同于不依赖本地设备的存储能力与用户交互、所有的计算处理都在云端完成的ChatGPT,,智能体可能需要部分安装或存储在用户的设备上,这也将减轻OpenAI对微软Azure服务器的依赖。

AI搜索

OpenAI正在开发一款搜索产品,目前不确定该产品是否会集成在ChatGPT中,但该产品将部分依赖微软的Bing搜索引擎。由于在回答时效性问题方面,ChatGPT的响应速度不及Google搜索,OpenAI希望通过该产品在与Google的竞争中获得优势。

不过,OpenAI不是第一个尝试在搜索市场有所作为的AI公司。由前OpenAI研究员研发的Perplexity就是通过AI生成回答来回应用户的搜索。Perplexity目前的估值为5.2亿美元,截至2024年1月,其年订阅服务收入约为800万美元。

OpenAI将如何基于搜索服务盈利暂不可知,但微软的广告业务每年产生超过180亿美元的收入,其中大部分来自Bing,而Google每年通过搜索广告获得的收入超过1500亿美元。


参考链接

https://www.theinformation.com/articles/openai-shifts-ai-battleground-to-software-that-operates-devices-automates-tasks?rc=sjcmfl

https://www.theinformation.com/articles/openai-develops-web-search-product-in-challenge-to-google?rc=th6t9mChatGPT

2. ChatGPT将拥有记忆功能

2月13日,OpenAI发布的一篇文章显示,该公司正在测试ChatGPT的「记忆」功能。在「记忆」功能启用时,ChatGPT能够根据用户的指令记住特定信息或自动捕捉对话中的细节,这样用户就无需反复输入同样的信息,比如ChatGPT可以记住用户的语言风格、文本格式要求等。同时,用户可以随时关闭记忆功能,并通过设置选项查看、删除指定的记忆,或一次性清空所有记忆数据。不希望对话内容被记忆的用户可以选择使用临时聊天模式,该模式下的聊天不会被保存,也不会被用来训练ChatGPT。

此外,开发者也可以为他们自定义的GPTs开启记忆功能。不过这些GPTs的记忆不会共享给其他开发者。


参考链接

https://openai.com/blog/memory-and-new-controls-for-chatgpt

3. Sam Altman计划筹资7万亿美元制造芯片

2月9日,有消息称Sam Altman正在考虑启动一个增加全球芯片制造能力的项目,并与包括阿拉伯联合酋长国政府在内的不同投资者谈判。Altman可能需要为该计划筹资5万亿到7万亿美元。

2月14日阿联酋迪拜的第七届世界政府峰会上,Sam Altman在视频聊天中发表讲话。

作为AI芯片市场的主导者,英伟达的市值在2023年翻了三倍多,约为1.72万亿美元,它也控制着约80%的AI芯片市场。长期以来,Altman一直试图解决AI芯片的供需矛盾,其野心不仅仅是解决资金问题,他还希望公司能在AI算力上保持领先。

2018年,Altman以个人的名义投资了一家名为Rain Neuromorphics的AI芯片初创公司。2019年,OpenAI签署了一份意向书,计划花费5100万美元购买这家公司的芯片。不过去年12月,美国政府迫使一家由沙特阿美支持的风险投资公司出售其握有的Rain Neuromorphics股份。

在Altman看来,通过无限的计算能力,可以实现全能的AI,甚至解决移民火星或全球变暖等问题。他在X上发帖称,OpenAI相信「世界需要比当前计划中更多的人工智能基础设施——晶圆厂产能、能源、数据中心等」。


参考链接

https://www.wsj.com/tech/ai/sam-altman-seeks-trillions-of-dollars-to-reshape-business-of-chips-and-ai-89ab3db0

4. 创始成员Andrej Karpathy二度离开OpenAI

2月14日,AI界领军人物Andrej Karpathy以探索个人项目为由,宣布离开OpenAI,这也是他第二次离开OpenAI。

Karpathy是OpenAI的创始成员之一,2015年至2017年在OlenAI担任研究科学家。2017年,他首次离开OpenAI加入特斯拉,担任自动驾驶部门(Autopilot)负责人,直接向马斯克汇报。

2022年7月,Karpathy离开特斯拉并在2023年2月再次加入OpenAI。此后,除了完成OpenAI的研究工作,Karpathy还在做包括录制教育视频、开发关于Llama 2的开源项目「llama2.c」等在内的个人项目。


参考链接

https://www.theverge.com/2024/2/13/24072627/ai-expert-andrej-karpathy-confirms-hes-left-openai

5. OpenAI为「GPT」注册商标被拒

2月18日,美国专利及商标局拒绝了OpenAI将「GPT」这个词注册为商标的申请,理由是该术语过于通用,无法专为商标注册。美国专利及商标局在裁决中指出,GPT已被广泛理解为指代一类软件技术,而非仅限于OpenAI的产品。这是美国专利及商标局第二次拒绝OpenAI关于「GPT」商标的申请,但OpenAI仍有机会向商标审判和上诉委员会提出上诉。


Google推出了Gemini 1.5,能力可能强过GPT-4

Google或许是今年春节假期内最「倒霉」的技术公司,不仅公司市值被英伟达超越,而且连续发布了Gemini商业上和技术上的两大更新,希冀能稳占热搜,却被OpenAI新发布的Sora把风头全部抢走。

不过,虽然缺少热度,借助新一代模型Gemini 1.5,Google还是证明了自己是AI领域除了OpenAI最强大的公司。Google表示Gemini 1.5同样拥有从小到大的Nano、Pro、Ultra 3个版本其中Gemini 1.5 Pro的能力可以匹敌Gemini 1.0 Ultra。在官方表述中,Gemini 1.0 Ultra的能力基本对标GPT-4,据此推测Gemini 1.5 Ultra的能力很可能超越GPT-4——在这种压力之下,GPT-5的推出时间应该也不会太远了。

1. Google推出Gemini Advanced,月费19.99美元

2月8日,Google宣布旗下AI聊天机器人Bard改名为Gemini,并推出由其最新研发的生成式AI模型Gemini 1.0 Ultra所支持的高级服务Gemini Advanced,费用与ChatGPT Plus几乎相同,为每月19.99美元。此外,Gemini还为安卓手机推出了独立应用,而在iPhone上,Gemini功能被整合到了Google应用内。

Gemini Advanced的服务有何竞争力?

Gemini Advanced目前还不兼容第三方应用生态,但很快将兼容Google自家的产品,比如Gmail和Google文档。用户在写文章或者回邮件时可以直接利用Gemini生成文本。

为进一步提高产品的吸引力,Gemini Advanced还包括2TB的Google网盘空间和Google ONE云端服务,该项目此前单独销售的价格为9.99美元/月。此外,自Gemini Advanced发布之日起两个月内,用户还可以免费试用。


参考链接

https://blog.google/products/gemini/bard-gemini-advanced-app/

https://blog.google/products/gemini/google-bard-try-gemini-ai/

2. Google发布Gemini 1.5,架构升级、效率提升

2月15日,Google发布了新一代AI模型Gemini 1.5,使用了新的MoE架构,在运算效率、支持上下文长度方面有明显突破。

什么是MoE架构?

MoE的全称是「Mixture-of-Experts」,意为「混合专家架构」,指的是在建构模型时,用一个个小的专家网络来组合成一个大的模型,这样在处理特定问题时仅需激活相关的小网络,而不需要经由整个大模型来执行一个完整的全局运算。采用这种技术能够以更少的能耗、更快的速度执行单次运算。目前采用MoE架构的Gemini 1.5 Pro模型已经能够达到Gemini 1.0 Ultra的性能,但使用的参数和计算量更少。 

新模型支持长达100万个token的上下文窗口

上下文窗口指的是AI模型的记忆容量,即模型能够基于多大的信息量来处理任务。此前Gemini Pro 1.0和GPT-4的上下文窗口是3.2万个token,GPT-4 Turbo是12.8万个token,而Gemini 1.5 Pro将这个容量扩大到了100万个,这意味着Gemini Pro 1.5能够处理的最大信息量达到70万字,或者3万行代码。如果转化为音视频,相当于1个小时的视频或者11个小时的音频。该模型能够读取输入的电影(哪怕是默片)并总结其情节。

此外新版Gemini能够直接从上下文中学习技能,不需要二次调校。比如直接将一种Gemini没有学过的语言的教材输入给它,它能自动达到与人类学习者相当的水平。

Gemini 1.5 Pro自发布之日起向开发者和企业用户提供有限试用。


参考链接

https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/


英伟达市值超过亚马逊和Google

当地时间2月14日,美股收盘时,英伟达的股价达到739美元,市值首次突破1.8万亿美元,超过亚马逊和Google,成为美股第三大公司,仅次于微软和苹果。此前英伟达发布了自己的AI聊天机器人,并被曝光正在建立定制芯片部门。

1. 开年不到3个月,英伟达市值已涨近50%

2023年年初英伟达股价从150美元左右一路上涨至400美元以上,6月之后便在400到500美元区间波动,直到2024年1月又出现大幅拉升。2024年以来其股价累计涨幅接近50%。而近期华尔街投行Rosenblatt甚至将英伟达的股票目标价上调至1100美元,其分析师认为随着1万亿美元服务器市场中的大部分转向加速计算,英伟达还有进一步上升的空间。

2. 发布Chat with RTX,下场参与AI产品竞赛

2月13日,英伟达发布了一款可以在个人PC端运行的AI聊天机器人Chat with RTX。该产品的早期版本目前已提供下载,用户可在搭载 NVIDIA GeForce RTX 30 系列或更高版本 GPU(至少 8GB显存)的本地电脑上部署该模型,并离线使用其功能。

该产品并非独立的大语言模型,而是通过快速读取和检索用户的个人文档信息,然后与本地电脑上的其他大语言模型建立连接,从而满足用户的个性化信息需求。由于Chat with RTX和其对接的开源大语言模型都能够在本地电脑上离线运行,其安全性优于ChatGPT、Copilot等竞品。

3. 正在筹建新部门,将拓展定制芯片业务

据路透社报道,英伟达正在建立一个新部门,旨在专门为云计算公司和其他公司设计定制芯片,包括高端AI芯片。

目前英伟达提供的H100和A100两款高端芯片售价高昂且供不应求,即使大批量采购,一块H100的价格也超过1.6万美元。技术公司在大规模采购的同时也在考虑根据自身特定需求定制芯片,以降低能耗、提高运算效率。

英伟达正在和亚马逊、Google、Meta、微软以及OpenAI讨论为它们定制芯片,包括数据中心芯片,以及电信、汽车和视频游戏相关芯片。定制芯片市场2023年的市场规模约300亿美元,占全球芯片年销售额的5%,相当于英伟达大半年的营收。这一市场目前最大的玩家是博通公司和Marvell Technology公司,两者的市占率合计约40%。


参考链接

https://www.reuters.com/technology/nvidia-chases-30-billion-custom-chip-market-with-new-unit-sources-2024-02-09/

https://www.reuters.com/technology/nvidia-outstrips-alphabet-third-largest-us-company-by-market-value-2024-02-14/

https://blogs.nvidia.cn/2024/02/13/chat-with-rtx-available-now/

微软更新Copilot,能力更强也更有存在感

1. Copilot增加图片编辑能力,并测试应用新模型

2月8日,微软宣布更新聊天机器人Copilot,不仅支持图像编辑,并使其交互界面变得更加简洁易懂,还新增了一个AI模型为其提供动力。

Copilot新增图像编辑功能

更新后的Copilot支持在线直接编辑图像,包括给图像中的对象上色、模糊图像背景或更改图像的风格,比如将其转换为像素艺术风格;Copilot Pro订阅者可以享受额外的图像调整功能,即根据需求调整图像尺寸,比如在方形(纵向)和横向格式之间调整和重新生成图像。

修补Designer工具的漏洞

本次更新还解决了微软Designer工具在处理不适当内容时的一些漏洞。Microsoft Designer于去年11月推出,基于DALL·E 2,能够为社交媒体帖子生成相关的文字标题和标签,并创建动画视觉效果。但之前,一些用户利用其漏洞恶意生成了深度伪造的色情图像等不适当的内容。通过改进内容过滤算法,以及限制特定类型的图像生成,本次漏洞修补后,Designer将无法生成名人图像。

此外,即将推出的Designer GPT将进一步提升AI的语义理解能力与创造力,以发掘DALL·E 3的潜力。

测试新AI模型Deucalion,增强「平衡」模式

微软还计划推出新的AI模型Deucalion,Deucalion这个名字源自希腊神话中大洪水中的幸存者,该模型增强了Copilot的「平衡」模式,可以快速且全面地回应用户的需求,适用于学术研究、专业咨询等既需要创新又要求精确的任务。

虽然微软并没有透露太多Deucalion的技术细节,有消息称它与OpenAI的GPT-4有联系。目前该模型还在测试阶段,根据初步反馈,「平衡」模式不仅能提供更高质量的答案,还在翻译任务上表现得不错。


参考链接

https://isp.page/news/microsoft-raises-the-ai-bar-with-deucalion-introducing-novel-capabilities/

2. Windows 11里的Copilot存在感更强了

2月10日,微软宣布将AI功能更深入地整合到Windows 11中,包括在任务栏中添加一个动态的Copilot图标,该图标会在用户复制文本或图片时出现,并通过动画效果提示Copilot可以提供帮助。

当用户悬停鼠标在该图标上时,将看到一个操作菜单,提供如总结或解释复制文本的选项。虽然目前仅支持对文本内容的编辑总结,但图片复制的相关功能正在开发中,未来还将支持图片编辑。此外,记事本应用也将很快集成Copilot AI。

Copilot是微软AI品牌战略的重要部分,几个月来,微软一直在向Windows 11中添加更多AI功能。该公司的目标是推动2024年成为「AI PC的年份」,今年1月,微软曾宣布Windows 11 PC的键盘上将新增Copilot按键。


参考链接

https://www.theverge.com/2024/2/9/24067505/microsoft-windows-11-copilot-feature-changes

3. 微软年度Build开发者大会将于5月举行

2月15日,微软宣布其年度Build开发者大会将于5月21日至23日在西雅图举行。活动将围绕AI、Copilots等主题展开,包括为开发者推出Copilot Studio和Windows AI Studio等工具。同时,微软还将分享有关Xbox的更多信息,并发布新的Surface硬件产品。


参考链接

https://www.theverge.com/2024/2/14/24073220/microsoft-build-event-schedule-may-21

AI创企月之暗面完成新一轮超10亿美元融资

今日,AI创业公司月之暗面(Moonshot AI)已完成新一轮超10亿美元融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投。这是生成式AI热潮来中国创业公司拿到的最大单笔融资,推动「月之暗面」估值上涨至25亿美元。月之暗面尚未官宣该轮融资,信息若属实,将推升其成为国内估值最高的生成式AI创业公司,反超此前位列榜单前两名的MiniMax和智谱。

月之暗面成立于2023年3月,入局虽晚,但核心人才拥有丰富的大模型开发经验,是一家以人才密度著称的AI创业公司。创始人杨植麟以及联合创始人周昕宇和吴育昕都曾就读于清华,因此也被认为是清华系AI公司。目前公司员工80人左右。

2023年10月公司发布了首个模型 Moonshot 和智能助手 Kimi ,特点是能支持 20 万汉字长文本输入。有消息称,公司目前正在研发多模态大模型,将于今年推出。

华为小米均定档2月22日举行新品发布会

2月18日,小米官宣将于2月22日晚7点举行小米14 Ultra 暨「人车家全生态」新品发布会,推出新款小米14 Ultra机型。根据已经披露的真机外观图以及部分配置信息来看,小米14 Ultra采用全等深微曲屏,有黑白两款素皮配色,但没有玻璃版本。影像方面,小米表示该机型搭载了5000万像素索尼LYT900主摄,以及两个长焦镜头和一个广角镜头。根据爆料,小米14 Ultra预计搭载高通骁龙8Gen3处理器和 5300mAh容量电池,支持90W有线快充和50W无线快充。

2月19日,华为也官宣将于2月22日14:30举办华为Pocket 2时尚盛典,届时将发布华为小折叠Pocket 系列的第二款手机。据爆料,新款华为Pocket 2将延续前代设计,搭载麒麟 9000S 5G 芯片和4520mAh 电池,支持66W 快充,并提供紫色素皮和灰色玻璃版本可供选择。

Arm股价翻倍,软银成大赢家

2月7日,Arm公布了2023年第三财季财报,表现超出普遍预期。根据财报数据,公司第三财季实现营收8.24亿美元,同比增长14%,超出分析师预期的7.6亿美元;净利润8700万美元,调整后每股盈利为0.29美元。财报还显示,公司专利许可收入增长强劲,授权销售额增长18%至3.54亿美元;特许权使用费收入增长11%至4.7亿美元。Arm在致投资者信中表示,「Arm继续在云服务器和汽车等增长市场中获得市场份额,这推动了新的特许权使用费增长」。与此同时,Arm预计第四财季营收将达到8.5亿至9亿美元,也超出了华尔街的普遍预期。

财报公布后,Arm股价大涨,截至2月15日收盘报价128.34美元/股,较2月7日上涨66.65%。从2月7日开始,Arm在5个交易日内已实现股价翻倍,目前市值已超过1500亿美元。从估值角度看,目前Arm的预期市盈率高达99倍,约为英伟达的3倍左右,这表明了投资者普遍看多Arm的未来走势,预期该公司将开启一轮新的上涨周期。另一方面,Arm仅有约10%的股份可公开交易,软银仍持有该公司约90%的股份。根据LSEG的数据,该公司的前十大股东控制了95%的股份。可交易的股票供应量稀少也推动了Arm股票价格的持续上行。


参考链接

https://www.reuters.com/breakingviews/arms-weirdly-high-valuation-has-legs-2024-02-13/

https://www.reuters.com/technology/arm-forecast-beats-estimates-ai-spurs-chip-upgrades-2024-02-07/

软银孙正义筹资1000亿美元也要建AI芯片企业

据报道,软银集团创始人孙正义正在寻求筹集1000亿美元的资金来成立一家芯片合资企业,该企业将与Arm形成互补并共同与英伟达展开竞争。该项目的代号为Izanagi伊邪那岐,这个名字来自日本的创世神。

据知情人士透露,软银将考虑出资300亿美元,另外700亿美元可能来自中东的机构。如果该项目成立,将成为自ChatGPT问世后AI领域最大的一笔投资,但目前该项目将如何获得资金、资金将用于何处等细节尚未确定。目前,软银和 Arm并没有对此作出回应。


参考链接

https://www.bloomberg.com/news/articles/2024-02-16/masayoshi-son-seeks-to-build-a-100-billion-ai-chip-venture

Stability AI推出非商用文生图模型Stable Cascade

近期,Stability AI推出了新的文生图模型Stable Cascade,它建立在Würstchen架构上,号称可以在消费级硬件上完成简单的训练和微调。目前,Stable Cascade模型已经登陆GitHub,仅允许非商业用途使用。

在Stable Cascade的文生图流程中,用户输入的文字会被转化成24×24 像素的小型数据集合,此后模型将解码这些小型图像数据并生成图片,然后将图片放大为高分辨率图像。Stability AI表示,Stable Cascade模型采用了「模块化」设计,可以有效降低对显存的需求,最低仅需20 GB显存即可运行。

Stability AI在对比试验中将Stable Cascade与Playground v2、SDXL、SDXL Turbo、Würstchen v2等竞品比较,Stable Cascade在提示词对齐和生成的图片细节上都有较为良好的表现。此外,Stable Cascade也具有生成图像变体和图生图的能力。


参考链接

https://stability.ai/news/introducing-stable-cascade

-END-


人工智能的「资本游戏」

11家中美科技巨头,谁拥有AI年度气象的晴天?

继续滑动看下一个

智能晚报|OpenAI的新品列表来了,既有视频生成、还有智能体和AI搜索;传月之暗面估值25亿美元……

张司钰、江睿杰等 新皮层NewNewThing
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存