查看原文
其他

A𝕀²ℙarad𝕚g𝕞范式智库认知构建路径|AI商业新范式“智能即服务”解读

ai汤源 AI2Paradigm
2024-10-07


图|汤源

文|汤源

“ 

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。


正在搬之前的长文到新公众号,一般来说,对于新现象的认知有个滞后效应,每个人的进度不一样,半年前的文章对刚接触这波AI的朋友来说现在读起来仍然有参考意义。按道理,范式研究框架应该迭代到至少V4.5,增加最近的以视觉为中心的多模态的大模型进展;整理完这批长文后,以𝕀²·ℙarad𝕚g𝕞智能平方范式智库的名义,继续前行...

A𝕀²·ℙarad𝕚g𝕞大模型投资创业应用方向研究框架 

导读

本文之所以成文,是为了对这波AI万象的研究做一个综述,并说清楚范式框架的缘起与来历。
公众号文章中从V1到V4都有类似综述,而且内容上是一个累积叠加,最早的内容会下沉到文章底部的章节,也就是说:对于一直跟踪范式研究的群友来说,只要看最新版本综述的前面章节就能了解范式框架全貌;而对于新加入的群友,则可以按照以下的导读章节,从后往前读。

A𝕀²·ℙarad𝕚g𝕞范式框架综述章节导引


A𝕀²·ℙarad𝕚g𝕞范式框架解析简介版

💡精华总结;方便快速获得范式框架全貌;


A𝕀²·ℙarad𝕚g𝕞 V4版解读正文

💡框架内容在商业范式V4版的更新细节


A𝕀²·ℙarad𝕚g𝕞范式底层逻辑构建

💡底层逻辑直接在旧版既有内容上更新迭代


A𝕀²·ℙarad𝕚g𝕞价值模型V1-V3版迭代路径

💡V1-V3版迭代主要是基于范式价值模型,V4版明确为商业范式


A𝕀²·ℙarad𝕚g𝕞缘起与研究路径解读

💡范式初心以及现象与工程两个研究路径


A𝕀²·ℙarad𝕚g𝕞范式案例研究(待更新)

💡目前大部分案例散在范式形成的描述中,未来会整理范式落地案例

A𝕀²·ℙarad𝕚g𝕞范式框架解析简介版


“A𝕀²·ℙarad𝕚gm商业范式v4.0内容导图”

💡 A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1~v4范式迭代简介

A𝕀²·ℙarad𝕚g𝕞从V1到V4的迭代,是一种全新的尝试,基本是沿着:“从GPT现象·看Prompt本质·找创投应用方向“这样的路径,在社区一众群友prompt下共创并逐步思考探索的过程。当前v4.0版本涵盖如下内容:1*整体框架与范式路径:(human level)Intelligence as a Service整体框架,与炼丹、挖矿、化身、具生4种原生商业范式迭代路径2*服务路径:模型原生(models native)服务路径与卖铲子(shovels selling)服务路径

3*智能发展路径:通用人工智能(AGI)发展路径、面向个人智能伴侣(PIA)发展路径以及硅基原生(Silicon Stack)智能发展路径

范式思维升级:v4版A𝕀²·ℙarad𝕚gm范式框架一个重大升级就是思维范式的变化,研究对象从GPT现象上升到智能现象,同时纳入了和人类及其组织智能对等的硅基原生智能及其生态,甚至在具有某种自主意识的AI智能体“具生”范式里,考虑在world of bits的纯数字世界里,和人类无关(no human in loop)的agent形态。对等智能体分别为Human Intelligence Species(含群体组织)与 Silicon Native Entities(含群体生态),区别为human是否in loop。因此对等智能体之间的价值交互可分为:
  • AI对于人类智能的增强
  • AI对于人类智能的替代
  • AI智能本体的自主化

四个GPT原生范式:及其对应的工程范式,版本迭代路径以及商业范式

▩炼丹(pre-training) (v1. AIGC) - tokens as a service

▩挖矿(prompting) (v1. AIGC) - prompts as a service

▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service

▩具生(agents) (v3&v4. Promptless) - agents as a service
△附:A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1-v4范式迭代路径简介版
▩A𝕀²·ℙarad𝕚g𝕞整体框架示意图
说明:转发传播请注明出处,A𝕀²·ℙarad𝕚gm-Intelligence as a Service商业范式研究框架版权归A𝕀²ℙarad𝕚g𝕞范式智库tyCPO所有。

“A𝕀²·ℙarad𝕚gm商业范式v4.0视频解读版”

A𝕀²·ℙarad𝕚g𝕞V4版解读正文

A𝕀²·ℙarad𝕚g𝕞从V1到V4的迭代,是一种全新的尝试,基本是沿着:

从GPT现象->看Prompt本质->找创投应用方向

这样的路径,在社区一众群友prompt下共创并逐步思考探索的过程。

对于社区资深群友,可能看完简介就可以了;而对于初接触这波AI现象的读者,笔者作为主导A𝕀²·ℙarad𝕚g𝕞范式的社区首席提示官CPO(Chief Prompt Officer),则试图降低本文阅读门槛,针对所有的名词术语(jargon)都像我当初第一次接触AI现象一样做出解释,尽量使得每一位读者从本文范式的解读中获益。

💡 范式命名及名词解读▩A𝕀²·ℙarad𝕚g𝕞A𝕀²,使用二次方标志,主要是区别于上一波以感知智能为主的AI现象,进入认知智能为本底的这波基于大语言模型(LLM)的智能现象。ℙarad𝕚g𝕞,通常翻译为:范式,意思是一种典型的样本(sample)或模式(pattern),也可以理解为模型(model)。这里借用这个单词,也是为了表示智能现象的范式研究,本身也应该是一种模型,除了对现象的概括与解读,可以具备某种智能特性般的生长与扩展。使用𝕀、𝕚、ℙ、和𝕞等特殊Unicode编码字体,是借鉴了Elon Musk最近将原Twitter替换启用新品牌𝕏的字体用法:Mathematical Double-Struck Capital X。之所以只选取这几个字母使用Double-Struck字体,则考虑𝕀、𝕚表示了高低不等的智能(Intelligence)生态;ℙ代表了四范式中最重要的Pre-training炼丹,也表示了未来GPT最有可能获得突破的科学领域方向物理Physics;𝕞则暗指数学math,GPT智能的神秘本质获得某种解释可能是需要通过数学,这也是Elon Musk最近成立xAI的一个突破方向。▩GPTGPT即Generative Pre-training Transformer的缩写,用来指代以OpenAI的一系列基于Transformer的大语言模型(LLM)服务以及应用。GPT还有另外一种解释就是在Transformer出现以前的生成式预训练-Generative Pre-Training,一种机器学习方法。▩PromptPrompt,本意非常丰富,动名词用法有导致、引发、提示、提醒和计算机提示输入的意思;作为形容词有立即马上,毫不迟疑采取行动的意思。自从GPT服务出现后,Prompt主要指用户与GPT服务之间的以自然语言为主的交互方式,和engineering一起用,则表示提示工程,用来从GPT服务获得相对复杂的输出而采取的一种自然语言编程方法。Prompt在社区则泛化指代人与人,人与GPT等智能体之间的交互方式。
▩A𝕀²·ℙarad𝕚g𝕞 v4版整体框架升级了什么?
A𝕀²·ℙarad𝕚g𝕞里对于这波AI现象的总结,都有来历,而且都可以在公众号文章里找到相关论述。早在v3版,也做过解读:
V3版解读:A𝕀²ℙarad𝕚g𝕞范式智库认知构建路径|AI²Paradigm范式V3解读暨转译:蒸馏模型和开源的LLM革命
首先一个本质的改变是范式思维的升级:v4版A𝕀²·ℙarad𝕚gm范式框架一个重大的迭代就是思维范式的变化,研究对象从GPT现象上升到智能现象,同时纳入了和人类及其组织智能对等的硅基原生智能及其生态;甚至在AI智能体范式里,具有某种自主意识的“具生”作为范式终极形态,同时考虑在纯数字世界(world of bits)里,和人类无关(no human in loop)的agent形态。对等智能体分别为Human Intelligence Species(含群体组织)与 Silicon Native Entities(含群体生态),区别为human是否in loop。
因此对等智能体之间的价值交互可分为以下3个范畴:
  • AI对于人类智能的增强;
  • AI对于人类智能的替代;
  • AI智能本体的自主化。
相比V3版,V4版中A𝕀²·ℙarad𝕚g𝕞范式研究关注范围正式确立为:
  • 1*整体框架&GPT原生范式路径 - (human level)智能即服务 Intelligence as a Service,及模型原生范式路径-炼丹、挖矿、化身与具生
  • 2*服务路径-模型原生(models native)服务路径与卖铲子(shovels selling)服务路径
  • 3*发展路径-通用人工智能AGI(生物智能替代)、PIA(面向人类智能伴侣)与硅基原生(纯数字智能对等体)
V4相比V3(详见以上公众号解读文章)的其它进化主要体现在:
  • 整体框架研究对象由GPT现象上升为智能现象,商业范式命名为:Intelligence as a Service,智能即服务。
  • models as a service模型即服务的范式中文命名由“蒸馏”改为“化身”,底层工程范式由distillation改为fine-tuning,对于AI开源力量驱动的models anywhere&anyone的范式概括性更强。
  • 智能体范式改为“具生“(突出智能体一定程度的自主性),并且有具身(embodied)和具神(基于LLM的纯数字场景)的两种形态别名。商业范式也正式确定为agents as a service,将Nvidia最近在gaming agent方向的探索也纳入范式研究范畴。
另外更新了AGI发展路径的新进展,纳入了OpenAI最近推出并广受好评的代码解释器:code interpreter,作为AGI大章鱼之前的触达(reach)能力之外的消化处理(digest)功能;还突出了硅基智能的对等地位,将硅基原生智能对等体放到与人类智能同等对待,分为human in loop和no human in loop两类范式应用模式。

▩GPT炼丹的商业模式

炼丹作为一种独立的范式,有着其深度学习LLM工程上本质的一面。作为商业范式,预训练只是具备了基座模型能力,但商业变现,则需要对齐和微调后通过API服务转为tokens as a service、直接把推理模型开源、或推出现象级超级应用:

  • 基座模型+对齐 = API服务(OpenAI/Anthropic)
  • 基座模型+对齐+会话增强微调 = ChatGPT(OpenAI/InflectionAI)
  • 基座模型+微调(对齐+会话增强)= 开源(Meta)
“OpenAI 类JARVIS项目负责人Andrej的演讲-GPT现状中的GPT助手训练过程”
如何训练以及prompt你的GPT助手-二进宫OpenAI创始人Andrej倾情奉献「GPT现状」

要说清楚大模型“炼丹”的商业模式,绕不开商业化后闭源的OpenAI GPT服务。

OpenAI在2020年中某个时候就完成了其大语言模型(LLM)GPT-3的预训练(GPT-4的预训练据称于2022年10月完成),预训练完成后的GPT-3部署运行后,就是一个1750亿参数的可以根据输入(prompt)文本(tokens)输出生成文本(tokens)的推理大语言模型。

💡 炼丹预训练后的GPT价值空间体现在3个维度▩理解与生成人类语言▩压缩了人类文本知识精华▩具备人类语言类似的思维用具特征

OpenAI的GPT商业模式在今年5月的MS Build大会上的一篇名为:State of GPT的演讲渐渐显露成型。就是:

为啥把大模型预训练叫“炼丹”?

因为类似OpenAI的GPT服务API计费模式都是按文本理解、生成的过程中的token数量来计费的(通常以1k tokens为计量单位)。这个预训练后的模型token的含金量,比如交互能力/知识含量/思维链能力,决定了“丹”的基本成色。而且token的含金量随着训练数据集、模型参数容量和训练算力千变万化,非常难以琢磨;所以称之为炼丹也隐含其过程之艰辛,投入之大之难,这么多年也就OpenAI目前炼出GPT-4“真丹”智能含量最高,1k token可以卖比自家的GPT-3.5还要贵10倍左右。

当然GPT某种意义上是积累了全网数字化文本精华和基于ANN深度学习的数十年工程技术探索后的全人类的巨大AI宝矿,仅靠OpenAI官方自己推出一些现象级应用,还不足以发挥其巨大潜力,肯定挖不完的,尤其是To B场景,所以OpenAI也通过API方式对外提供GPT服务,并以文本理解与生成过程中的tokens数量作为计费单位。(笔者注:API服务也需要经过预训练后续的微调,其开发推出也算自采矿)

“OpenAI 官网 2023年3月份的计费信息:

gpt-3.5-turbo API服务-上下文窗口2k tokens,1k tokens $0.002”
所以LLM工程上的预训练就是“炼丹”,而后续的一系列微调(fine-tuning),为了具体的应用如ChatGPT,则可以认为是“挖矿”,不过是官方为了抢夺现象级应用先机而采取的“自采矿”行为。
我们可以把“炼丹“卖token的生意称之为:TaaS(Tokens as a Service),理论上是卖token(智能计算量)即”丹“,而不是知识本身,否则生成的内容是否涉及版权问题会比较麻烦。

“炼丹”的TaaS生意是前所未有的新模式,前景广阔且确定性非常高的蓝海市场;风险在于有人已经炼出成色很好的准仙丹如GPT-4,除非你炼出来的“丹”更好或者成色相当但成本更优。而且这个TaaS生意更具有唯一性,智能作为服务一旦客户用过最聪明的那个,肯定不太会多看第二聪明的一眼。

大模型技术工程化经过“炼丹”形成了具有增值空间的大金矿,搞不定炼丹炉的个人或公司可以付费买token(丹),用prompt方式来挖掘大模型的交互能力增强、或解压储存的知识或利用其思维能力等来做价值变现,俗称“挖矿”。
延伸商业模式(大模型软、硬件基础设施服务):
围绕“炼丹”服务的数据合成、标注、基准测试以及微调服务,MLOps或模型开发的工具类等等。当前最好的生意当属炼丹炉算力,详见本文相关章节内容:AI²Paradigm价值模型迭代路径。无论是买GPU硬件建集群,还是租用算力云服务商的服务,是上半年已经开始并延续到明年的AI大模型算力军备竞赛催生的,可以说是当前最好的算力生意。
就大模型算力服务路径,AI范儿公众号曾发布新观察-上、下篇做了深度解读:
新观察-上篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-AI²Paradigm之“Shovels”服务路径范式解读
新观察-下篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-A𝕀²ℙarad𝕚gm之“Shovels”服务路径范式解读

▩GPT挖矿的商业模式

基于现有的GPT厂商TaaS(Tokens as a Service)服务,采用提示工程(Prompt Engineering)增强交互能力、或解压储存的知识或利用其思维能力等等,俗称“挖矿”,只要应用实现后的价值增长空间足够覆盖购买厂商的token成本,原则上都是可行的。
目前大部分的AI的应用都在挖矿范式范围内。可以简单分为以下几类场景:
  • 套壳(wrapper):利用其会话与自然语言交互能力,做信息获取增强(信息搜索、各类基于prompt模版的会话类应用、一些企业信息获取增强类应用)

  • 副驾(copilot):github copilot X,各类面向个人效能提升的AI工具类产品

  • GPT原生(native):plugin store,function call,code interpreter等遵循GPT智能边界扩张规律的应用

由此,当前挖矿的应用层出不穷,一份截至2023年Q1末的生成式AI创业融资图谱可以看出,生成式AI又可以细分为:
音乐、代码、营销BI&网页设计、搜索、通用效率提升、3D/模拟以及XR、视频、图片/视觉和设计、文本、聊天与翻译、以及语音和音频生成。

“截至2023年3月份的生成式AI融资图谱“
以围绕OpenAI GPT生态的提示工程“挖矿”应用来说,有2个方面要时刻注意,或者要做一定的前瞻性思考:
1、你做的应用方向是否会被OpenAI未来主流原生应用扩展所覆盖?
比如:在OpenAI推出ChatGPT的iOS/Android之前,有一众App生产者做的聊天工具App,在官方iOS版本推出后,基本灭迹了。这里可能要排除一众把免费访问ChatGPT降低访问门槛等作为引流工具的流量玩法。
2、你做的应用方式是否会被OpenAI的平台能力扩展所降维打击或取代?
比如:很多以LangChain作向量embedding的应用方向,可能随着API的上下文窗口的扩大,以及plugin store的推出,很多场景依托官方插件生态就可以更轻易的满足了。
另外近期推出的function call,更是可以使得调用本地应用接口集成GPT的能力变得更简单。
总之,OpenAI的GPT这样一种商业模式如同一个超级大章鱼,从早先就有的plugin store到最近推出的function call,如果前者plugin是借数字世界生态应用嫁接的触手,现在则是通过function call把无数吸盘的构建直接交到了最终的用户手上;最近推出的代码解释器-code interpreter,则更是提供了代码运行环境沙箱,大大扩展了GPT-4的能力范围,目标是正在一点一点吞噬整个数字世界(world of bits)。
在OpenAI的GPT平台之上创业,有点与虎谋皮的意味,做2B业务GPT增强项目快速变现,也许只能算是个暂时的生存之道。最近OpenAI CEO Sam Altman在专访时曾表态,“与AI聊天”类超级App除ChatGPT之外不会有其它(个人智能助理是另外一个方向)。
长期创业方向则需要走差异化的路线,比如1V1教育场景、或者像MidJourney这样面向视觉创意变现的方向、甚至早期可以利用GPT的文本会话创意能力做类似Character.AI的虚拟角色社交App等等。
总之要尽量将GPT文本能力作为应用的一部分,无论是GPT native,还是GPT作为copilot,多模态生成能力结合的应用相对较难被取代。最后,一个知识图谱与LLM结合的发展路径也许可以给到在“挖矿”领域寻找方向的朋友们参考:
“知识图谱与LLM结合的发展路径:通常都还在a阶段,尤其是在KG已有投入“
▩化身微调的商业模式解读
在开源模型的基础上微调成“化身”模型应用到各类场景,尤其是集中式的AGI大模型无法触达的领域,目前主要有以下三类:
  • Models for anyone:在线或私有伴侣

  • Models anywhere:in-devices场景

  • Models anywhere:on-premises场景(尤其是to bussiness)

对大模型化身微调范式的关注,源自硅谷天使投资DG&Nat的引领的开源大模型创投“第3极”。
💡 DG&Nat早期投资组合+AI创投3基石=大模型创投第3极▩大模型炼丹炉(AI Training Cluster)-andromedacluster.com▩大模型试验场(AI Deployment Playground)-nat.dev▩大模型孵化器(AI Product Incubater)-aigrand.org
△DG&Nat引领的开源大模型创投“第3极“,详见公众号文章:新范式创投秘笈解读-引领硅谷开源大模型创投范式“第3极” -「AI²Paradigm」:暨DG&Nat专访-有关AI民主化
这背后的推手则是meta AI的大模型开源战略,如同去年夏天 Stable Diffusion 社区发生的一样,LLaMA开源后,社区开始fine-tuning,以及各种尝试。其中一件大事是索非亚大学的 Georgi Gerganov,在github发布了 llama.cpp项目( https://github.com/ggerganov/llama.cpp ), 与他之前发布了针对 Whisper 优化的推理引擎名为 Whisper.cpp一样,采用了一些相同技术以及LLM的四位量化(4INT() quantization)技术,这是他从 Fabrice Bellard 的TextSynth项目那里学到的,使得 LLaMA 在 MacBook、M1 MacBook ,以及最终在 iPhone 和 Raspberry Pi也能运行。这为models anywhere创造了基础条件,使得in-device inference成为可能。
因此,结合了最先进的语言模型和可用的权重以及开源社区的创造力,斯坦福大学的一些人使用 RLHF 和一些可用的人类反馈数据集将其微调为一个称为羊驼(Alpaca)的大语言模型。这时候微软也适时开源了用来快速微调模型的lora项目(low rank adaptation),这更使得整个开源大模型社区掀起了一片大模型"化身"的热浪。

“苹果公司软件工程高级副总裁Craig Federighi在WWDC上谈Transformer驱动的智能键盘“
在2023年6月5日 WWDC的 iOS 17演示期间,苹果公司软件工程高级副总裁Craig Federighi谈到了对自动更正和听写的改进:“自动更正是由设备上的机器学习提供的,多年来,我们一直在不断推进这些模型。键盘现在利用了Transformer语言模型,这在单词预测方面是最先进的,使自动更正比以往更加准确。借助Apple Silicon的力量,iPhone可以在你每次点击按键时运行这个模型。”
显然,苹果在iOS 17中的新Transformer模型允许句子级别的自动更正,当你按下空格键时,它可以完成一个单词或整个句子。它也会从你的写作风格中学习,从而指导其建议。所有这些设备上的人工智能处理对苹果来说相当容易,因为苹果硅芯片(以及早期的苹果芯片,从2017年的A11开始有一个特殊的部件,称为神经引擎,旨在加速机器学习应用。苹果还说,听写 "得到了一个新的基于Transformer的语音识别模型,利用神经引擎使听写更加准确"。
在主题演讲中,苹果还多次提到了 "机器学习":在描述一个新的iPad锁屏功能时("当你选择实时照片时,我们使用先进的机器学习模型来合成额外的框架");iPadOS的PDF功能("由于新的机器学习模型,iPadOS可以识别PDF中的字段,因此你可以使用AutoFill来快速填写联系人的姓名、地址和电子邮件等信息。");AirPods自适应音频功能("通过个性化音量,我们使用机器学习,随着时间的推移了解你的听觉偏好");以及名为Smart Stack的苹果手表小工具功能("Smart Stack使用机器学习,在你需要时向你显示相关信息")。
微调的化身模型在终端上的应用不仅限于系统功能,苹果还首次推出了一款名为Journal的新应用,允许在你的iPhone上锁定和加密个人文字和图片日记(有点像互动日记)。苹果公司表示,人工智能起到了一定作用,但它没有使用 "人工智能 "一词。"利用设备上的机器学习,你的iPhone可以创建个性化的时刻建议,以激发你的写作灵感,这些建议将从你的iPhone上的信息中智能地策划出来,如你的照片、位置、音乐、锻炼和更多。当你启用建议时,你可以控制要包括哪些内容,以及哪些内容要保存在你的日记中"。
在之前DG&Nat的专访中,DG作为前Apple负责AI项目的高管,提到过去苹果为了提高终端的智能特性一直在努力,包括键盘和输入法。显然llama.cpp以及whisper.cpp这类基于transformer架构的化身模型的开源与社区流行,也使得苹果公司终端上的神经引擎(Neural Engine)终于能发挥更智能的作用。
这也是我看到大模型化身在终端智能提升上最全面也是最合适的应用,可以想像一个为你度身定制的智能输入法,晚上充电的时候会根据你白天的输入使用类似Lora的微调模型更新权重,第二天你会发现用起来更懂你了,这样的iOS 17值得期待。
当然这也可以为所有终端厂商在利用大模型蒸馏提升终端智能水平做一个很好的参考。另外最近meta CEO Zuckerberg的访谈里也提到,meta自身的一些产品也将作大模型增强,比如最近就有计划基于llama.cpp在whatsapp中为每个用户提供一个个人智能助理(personal assistant)。
笔者认为大模型微调出的化身模型完全可以用于终端推理,在一些细分场景,为个人或用户提供独有的数据与模型飞轮迭代,使得终端设备智能能自我学习进化,从而越来越比用户更懂用户。
对于投资人,DG&Nat这个专注开源大模型社区和大模型算力服务结合的创投新范式值得借鉴;终端大厂与互联网厂商当然可以学习苹果和Meta的做法;对于寻找这个方向的创业者来说,细分场景的终端智能将会是一个很好的选择。
就在笔者更新v4的范式解读的这几天,meta在开源战略动作连连,推出Llama 2以及Llama 2-chat的开源,并且可以商用。
确实开源模式里面的小把戏还很丰富,开源不等于免费,就大模型的开源来说,化身与炼丹在工程上的一个区别是能不能接触到模型本身以及能不能动模型权重。
2022年底以来,尤其是LLaMA开源后,Huggingface LLM社区上已经发布了15821个大语言模型。
💡 On the Origin of LLMs: An Evolutionary Tree and Graph for 15,821 Large Language Models▩论文摘要:自 2022 年底以来,大型语言模型(LLM)变得非常突出,ChatGPT 和 Bard 等 LLM 获得了数百万用户的青睐。每周都有数以百计的新 LLM 发布,其中许多都存入了机器学习模型和数据集存储库 Hugging Face。迄今为止,已有近 16000 个文本生成模型上传到该网站。鉴于大量 LLM 的涌入,人们有兴趣了解哪些 LLM 骨干、设置、训练方法和族是流行或趋势。然而,目前还没有全面的 LLM 索引。我们利用 "hugging face "LLM 相对系统的命名法进行分层聚类,并使用 n-grams 和词频-反文档频率识别 LLM 之间的群落。我们的方法成功地识别了 LLMs 家族,并准确地将 LLMs 聚类为有意义的子群。我们展示了一个公共网络应用程序,用于浏览和探索 Constellation,即我们的 15,821 LLMs 地图集。Constellation 可快速生成各种可视化图像,包括树枝图、图形、词云和散点图。Constellation 可通过以下链接访问:https://constellation.sites.stanford.edu/。
△ https://arxiv.org/pdf/2307.09793 [Submitted on 19 Jul 2023]

▩大模型具生(神/身)的商业模式
"具生"范式的商业模式,可分别区分为:个人,家庭与企业服务的智能体三个层面,而涉及人类创造活动则包括社交、生产或商业活动。
在个人领域,OpenAI除了前文提到的ChatGPT现象级超级App之外,会发展通用个人智能体如类似电影钢铁侠里的主角无所不能的助手JARVIS,我们今天看到的更多是细分领域的个人智能助理或副驾copilot。
就GPT agents而言,在A𝕀²·ℙarad𝕚g𝕞范式中也可以称之为具神,意为具备人类语言能力的数字行为主体。
“OpenAI负责开发者关系的@OfficialLoganK整理的GPT agents现状“
Modrona则扩大了agents范围,列了一个这个领域的开放式机会。大模型原生的方向,一些浅层的社会活动类agents如订餐、购物、预定、个人生产力提升、虚拟角色社交等,可能会被OpenAI的通用智能体所覆盖。但像教育、健身等需要深度垂直内容的,可能是创业的好方向;另一个方面,就是内容创意类,如目前MidJourney的个人图片创意生成,商业营销创意图片生成等等,也会是可行的选择。

“Madrona提出的个人智能体领域的开放机会“
而现有应用增强类则是既有应用厂商的天下,如前面说的Whatsapp,Snapchat,当然具体实现是有可能用到大模型化身微调范式。
家庭服务智能体目前还没有看到成型的产品,从Tesla今年股东大会放出的Optimus人形具身机器人已经上街学习建立世界模型来看,这一天也不是遥不可及。
同时坚持开源战略的Meta最近也放出了I-JEPA-自监督计算机视觉预测大模型,开源、论文和代码&模型一键三连,当然一如既往没有说可以开源商用,但无疑又会借社区力量大力推进world model的进展。相信未来每个家庭都可以有一个具身机器人,运行开源world model微调模型,会学习家务、能操作家电的智能体管家。
企业服务智能体则需要从HuggingGPT和Gorrila的发展路径来探索。像Gorilla、HuggingGPT这样的类似LLM集成器的应用框架,可以整合通用GPT和垂直模型,应用到B端场景,无疑给一众以大模型重构企业B端服务的ISV提供了一个非常好的方向和应用基础。
HuggingGPT 最适合像 ChatGPT 这样的强大闭源模型;如果我们想教开源模型(例如LLaMA)在解决复杂问题时调用深度学习模型API,我们需要采用Gorilla提出的微调方法。
无论哪种方式,这些技术都非常强大,因为它们在狭义的专家和基础模型的优势之间取得了平衡。我们可以依靠LLM来执行高级推理并形成解决问题的计划,同时将某些子任务委托给更可靠和准确的专业模型,从而利用两者的力量,服务于企业所需的复杂场景。而随着企业生产自动化的发展,以及企业服务智能体应用深入,未来会有更新模式的企业服务智能体型态出现也未可知。
从当前能看到的agents应用来说,又可以分为3个方向:
  • OpenAI致力于在ChatGPT现象级超级应用之后的类似JARVIS的agent服务,可以理解为AGI的一种应用产品形式。

  • Inflection AI推出的面向人类陪伴的PI-personal intelligence agents。某种意义上是人人都有一个agents的愿景打动了Bill Gates跟投了新一轮的融资。

  • Nvidia最近一直在发力的Voyage项目,一种纯数字世界的gaming agents,也是其未来算力消耗最大的场景。

A𝕀²·ℙarad𝕚g𝕞范式底层逻辑构建

在GPT横空出世之前,几乎所有的人类活动,都是大脑生物神经网络智能的行动产物。直到人类掌握了让机器操纵人类语言,并学习与思考,日前OpenAI的CEO发推文:
我们熔化了岩石,应用了电子,获得了智能。

当前人类的机器学习工程科学精英们,以前所未有的热情,将几乎所有的人类知识与文明精华,毫无保留的教会机器智能。

创造机器智能,让每一个参与其中的人,无疑有种自己是上帝的错觉!

我们孜孜以求、为之疯狂的这波AI狂潮中的商业机会,催生的是一种怎样的硅基新智能之火?是新文明希望之火?还是被替代宿命之火?

是GEB作者侯世达眼中的人类文明未开化之前的恐惧之火?还是Netscape之父老安德森眼中的为人类带来光明的生存优化之火?(详情可参考以下公众号文章)

创造机器智能,是像希腊神话中的普罗米修斯为人类盗取硅基新文明之火?还是最终导致人类只是作为无限计算硅基智能新文明启动器的一种玩火?

慢思考系列| G.E.B作者侯世达改变了对深度学习和人工智能风险的看法?

▩范式认知升级
正所谓“不识庐山真面目,只缘身在此山中”;理解这波AI狂潮万象,也需要认清机器智能通过LLM预训练突破“认知(cognition)”极限的本质,甚至要将个人认知前提建立在以下两个更高的维度:
  • 智能,人类不再是宇宙间已知的唯一代表。并可能在3-5年间最高等智能体的地位会被机器智能超越。

  • 思维范式的改变,主导现象的背后是智能,而不仅仅是技术。机器智能不仅仅是工具,更可能是人类智能的替代。

炼丹、挖矿、化身与具生,四种范式,炼丹是决定性的基础,而具生智能,形成的与人类智能对等的硅基智能对等体,是最终的必然。

▩从GPT走向AGI/ASI

OpenAI一直是奔着AGI甚至ASI而去,GPT在NLP领域的突破某种意义上是一种捷径。

语言的文明积累以及语言的数字化进程尤其是信息化,加上算力的进化与LLM参数的突破,使得NLP领域的GPT方向,能够理解与生成人类语言,压缩几乎全网的数字化知识,并且在注意力机制上,硅基ANN几乎与人类BNN在数学原理与运行机制上达成一致。

语言本身的符号功能形成了对于文本描述的世界的表征与知识的压缩,而语言与身俱来的思维用具功用使得GPT具备了CoT逻辑推理能力。这种基于Auto-Regressive LLM语言的GPT机器智能,一直被meta的Yann LeCun为代表的world model路径机器学习群体称之为随机鹦鹉。

笔者从智能维度研究这波AI现象以来的一个直觉,LLM是通往AGI/ASI的一种捷径,其中最大的变量就是语言及其哲学上的内涵。当前的GPT-4还只是在通用语言领域有所成就,而接下来的GPT-5无疑会在某个科学领域取得突破,而最有可能的是物理与数学。

最近在OpenAI CEO Sam Altman的推文中,对于物理显示了非同寻常的兴趣;而Elon Musk则刚刚招募数据与AI科学家成立了xAI,主攻mathGPT。

▩从Prompt走向Promptless

基于当前GPT的三个能力衍生的三种应用场景:

  • 语言的理解与生成:基于语言表达能力
  • 知识的压缩与解压:语言表达+知识储存与释放
  • 任务执行能力:语言表达+知识储存与释放+CoT逻辑推理能力

在实现方式上,通常也有三类:

套壳(wrapper):这种形式最薄,随时可以被GPT的能力扩张吞噬

副驾(copilot):通常还有现有产品场景与用户习惯门槛保护,但也有被GPT的扩展能力取代。

GPT原生(native):通常由厂商针对应用场景微调达成,是前所未有的GPT原生服务。

语言的Prompt方式挖掘三种能力,是智能体之间信息交互、知识传递与任务执行所必须的。当前人类的机器学习工程科学精英,以前所未有的热情,将几乎所有的人类知识与文明精华,毫无保留的教会机器智能。从挖矿范式的prompt,到具生范式的promptless,是一种硅基智能发展的必然。

▩从AIGC走向Models Anywhere for Anyone
A𝕀²·ℙarad𝕚g𝕞范式短短数月,从V1到V4的迭代,蕴含着不以个人或个别团队意志为转移的趋势。对于AGI的形态上是巨石式(monolith )的GPT大章鱼,还是遍地LLaMA羊驼的开源大模型智能大生态,业界看法不一,但无疑都在各自的范式方向上夜以继日的做出突破。
相比OpenAI一家独大的领先,在大模型应用模式创新上,笔者更看好开源力量源源不断的创新力。尤其是最近Llama 2及chat开源并且可以商用后,整个LLM应用一片繁荣,遍地开花的景象,更让人坚信正如地球上的生物智能是一个大生态一样,硅基智能也会是通过智能等级不一的应用深入到无处不在、无人不及。
就在最近,AI 模型社区魔搭 ModelScope 上架两款开源模型 Qwen-7B 和 Qwen-7B-Chat,阿里云确认其为通义千问 70 亿参数通用模型和对话模型,据初步测试反馈,这个在2.2T Token上预训练的开源模型,中文能力很香,这无疑在国内缺乏强大的基座模型的炼丹界无奈现状之外,掀起一股“化身”微调做企业垂直模型应用的热潮!Models are eathing software!


▩......(GPT在科学领域的发展如physics与math将纳入下一个版本研究范围)

AI²Paradigm价值模型V1-V3版迭代路径

下一章节说的通过“现象”与“工程”两个系列,来跟进这波AI范式的研究路径,也算是我个人入局这波AI狂潮的价值模型迭代路径。

最初通过Ilya的访谈知道了GPT预训练(俗称炼丹)探索过程的艰辛与不易,转而研究如何与GPT 简单prompt交互问答(通过ChatGPT,BingChat以及其它类似集成Claude等的App如PoE),后来看到国内一众大佬纷纷入局,尤其是奇迹创坛陆奇博士的北上广深的“新范式”巡回演讲,将我的兴趣点(attention),在跟进GPT现象2个月后,逐步转到考虑在这波AI狂潮中,自己能做些什么的思考上(投资、创业与应用方向),形成第一版的AI²范式:

AI²Paradigm v1

▩大模型炼丹(pre-training)

▩大模型挖矿(prompting)

💡 AI²Paradigm v1(AIGC)▩最初的版本很简单,就是炼丹与挖矿;就炼丹范式,那个时候清华科技园开始火起来,王慧文和王小川算是根据OpenAI的范式,先后入局。当然各个大厂则仿照Google、Meta和微软,纷纷匆匆推出自己的大语言模型。而随着对prompt的理解从GPT交互工程层面,泛化延展到智能体(含人类)之间,以及对于GPT突破人类语言的理解与生成本质的思考,使得我们将AI范儿的slogan改为-智能未来,始于Prompt!并迅速引导社区交流的prompt风格,认为这是attention注意力最好的内在价值变现,也能在与这波通用人工智能甚至超级人工智能(AGI/ASI)的赛跑中不至于掉队太远。同时也迅速转译了prompt工程的一系列论文解读。

v1形成线索在访谈系列终结篇里可以找到一些:从「维特根斯坦」哲学“语言游戏”到「伊利亚」的 大语言模型“GPT智能体” (三)

AI²Paradigm v1版说的预训练,当前阶段主要考虑的是最有可能通往通用人工智能/超级人工智能(AGI/ASI)路径的大语言模型(LLM);笔者隐隐觉得语言应该有超模态地位,某种意义上是人类生物神经网络对环境感知到认知的必然产物,文生图(text2image)如Stable Diffusion和MidJourney目前只是阶段性产物;

“从'感知'到'语言'的产生及从‘语言’到‘文明’的必然性”

以GPT-4为代表的基于人工神经网络(ANN)的AGI/ASI路径,则直接从语言入手,取得学习、理解与生成突破后,然后向左往感知层面的多模态覆盖、往右则直奔AGI/ASI,这基本也是从2个系列Ilya访谈解读中可以得到印证,通过AI范儿的群友prompt逐步浮现在我脑海里的OpenAI AGI/ASI发展路径。

如果把预训练过程形象的比作“矿脉“的形成,可能现阶段的文生图模型预训练后可以算“玛瑙矿”,在视觉创意生成方面有一定价值;而以GPT-4为代表的LLM预训练后,则形成了巨量多层次的语言矿脉,功用与价值空间表现在3个层次:

  • 理解与生成人类语言 ---> 通过prompt方式实现与系统或应用的自然语言交互价值
  • 人类文本知识精华的压缩 ---> 通过prompt方式的解压知识或fine tune对齐用于具体任务
  • 具备人类语言类似的思维链能力 ---> 通过复杂prompt工程,利用其直觉推理能力解决复杂任务

总之,炼丹过程非常艰辛,这一点可以从NLP领域的LLM科技树可以看出,从这波生成式AI的工程实现关键:Transformer架构2017年发布以来,LLMs领域纷繁的科技树里面,也只有OpenAI的GPT系列取得了最先也是目前最好的突破。


图片来源:

https://github.com/Mooler0410/LLMsPracticalGuide

https://arxiv.org/pdf/2303.18223.pdf

参考人类生物神经网络(BNN)的ANN概念早在上世纪60年代就已经提出,60年代末Minsky断言认为单层感知器(perceptron)在表征能力上存在局限,人工智能进入了长达近20年的冰河期;不过期间人们在ANN训练的基础算法 - 反向传播(Back-Propagation)并没有停止探索的步伐:

💡 反向传播(Back-Propagation)算法▩反向传播算法是训练神经网络的经典算法。在20世纪70年代到80年代被多次重新定义。它的一些算法思想来自于60年代的控制理论。在输入数据固定的情况下、反向传播算法利用神经网络的输出敏感度来快速计算出神经网络中的各种超参数。「在David Rumelhart 之前,很多人提出了不同版本的反向传播。其中大部分是独立提出的,我觉得我承受了过多的赞誉。我看到媒体说我提出了反向传播,这是完全错误的。科研人员认为他因为某事获得了过多赞誉,这样的情况不常见,但这就是其中之一!我的主要贡献是展示如何使用 BP算法学习分布式表征,因此我要做出澄清。」by Hinton in Martin Ford's《Architects of Intelligence》显然,反向传播算法的故事本身是相对复杂的,而关于「反向传播之父」的争议也还没有定论。正如 DeepMind 科学家 Oriol Vinyals 所建议的:「我们应当把荣耀归于思想本身,而不是人。」

 by Hinton in Martin Ford's《Architects of Intelligence》

并且多次在工程实现上被重新定义,直到Geoffrey Hinton与David在1986年的Nature上发布论文:

图片来源:https://www.nature.com/articles/323533a0 

《Learning representations by back-propagating errors》

提出「通过让神经网络学习词向量表征,使之基于之前词的向量表征预测序列中的下一个词实现了这一点」。

到了 1986 年,计算成本几乎仅有 1970 年的千分之一,于是 Hinton、Rumelhart 等人的计算实验证明了反向传播可以在神经网络的隐藏层中产生有用的内部表征。这本质上是对已知方法的实验分析,同时也使得人工智能逐步走出冰河期。

之所以再次赘述回顾这段历史,主要是想说明人工智能走到今天初现AGI/ASI曙光,而今天以GPT-4为代表的大语言矿脉形成,实属无数人的前仆后继以及那些在工程上的天才般的灵光一现都密不可分。

近期笔者在保持跟进硅谷的最新范式进展之余,将更多的关注国内清华科技园及一众大厂的千模大战,显然乱花渐欲迷人眼,如何看一个团队或者公司是不是真在炼丹?或者能不能形成品相好的大矿脉?

除了亮出可用的GPT产品,试用和做基准测试比较之外,还有一个拨云见日的好方法:请亮出炼丹炉的配置:训练集群有多少A100或A800卡?或者亮出向Nvidia的PO订单也行。

像前面DG和Nat亮出的仙女座算力集群-2512片H100(训练必备的3.2T IB配置),还只是供开源社区初创企业用作搞models anywhere的,但算力也接近1万片A100了;前一段时间说的Elon Musk搞的1万片H100大炼丹炉据说货还没到齐。

💡 Models Anywhere创投现象-AI税▩2022 年下半年,生成式 AI 爆火的同时,硅谷著名风险资本 a16z 走访了数十家 AI 创业公司和大科技公司。他们发现,创业公司转手就把 80%-90% 的早期融资款送给了云计算平台,以训练自己的模型。他们估算,即便这些公司的产品成熟了,每年也得把 10%-20% 的营收送给云计算公司。相当于一笔 “AI 税”。这带来了在云上提供模型能力和训练服务,把算力租给其它客户和创业公司的大市场(这是DG&Nat搞算力集群的原因)。仅在国内,现在就至少有数十家创业公司和中小公司在自研复杂大语言模型,他们都得从云计算平台租 GPU。据 a16z 测算,一个公司一年的 AI 运算开支只有超过 5000 万美元,才有足够的规模效应支撑自己批量采购 GPU。

 来自互联网

国内情况是,今年春节后,拥有云计算业务的中国各互联网大公司都向英伟达下了大单。字节今年向英伟达订购了超过 10 亿美元的 GPU,另一家大公司的订单也至少超过 10 亿元人民币。据一位接近英伟达的人士称,字节到货和没到货的 A100 与 H800 总计有 10 万块。

最近离职京东回澳洲的陶大程院士,前两年在京东科技探索研究院曾经搞了个当时国内最大的基于Nvidia原厂A100的2个SuperPoD,每个SuperPoD 70台DGX A100,用来搞可信AI,听说原来已经拆散的集群最近又复原了,交给何晓东博士炼丹大模型。

据了解,字节、腾讯、阿里、百度这四家中国投入 AI 和云计算最多的科技公司,过去 A100 的积累都达到上万块。其中字节的 A100 绝对数最多。不算今年的新增订单,字节 A100 和前代产品 V100 总数接近 10 万块。

成长期公司中,商汤今年也宣称,其 “AI 大装置” 计算集群中已总共部署了 2.7 万块 GPU,其中有 1 万块 A100。连看似和 AI 不搭边的量化投资公司幻方之前也购买了 1 万块 A100(注:笔者看好幻方投资复制DG&Nat模式)。

仅看总数,这些 GPU 供各公司训练大模型似乎绰绰有余——据英伟达官网案例,OpenAI 训练 1750 亿参数的 GPT-3 时用了 1 万块 V100 ,训练时长未公开;英伟达测算,如果用 A100 来训练 GPT-3 ,需要 1024 块 A100 训练 1 个月,A100 相比 V100 有 4.3 倍性能提升。但中国大公司过去采购的大量 GPU 要支撑现有业务,或放在云计算平台上售卖,并不能自由地用于大模型开发和对外支持客户的大模型需求。

这也解释了中国 AI 从业者对算力资源估算的巨大差别。清华智能产业研究院院长张亚勤 4 月底参加清华论坛时说,“如果把中国的算力加一块,相当于 50 万块 A100,训练五个模型没问题。”AI 公司旷视科技 CEO 印奇接受《财新》采访时则说:中国目前可用作大模型训练的 A100 总共只有约 4 万块。

据笔者了解,大模型算力应区分为预训练算力与推理算力。前者需要组成集群使用,节点内8卡NVLink是标配,节点间用高速InfiniBand互联,而且集群需要同一配置才能发挥整体优势;推理算力要求会低一些,甚至pcie的GPU也可以使用,而且可以随着应用的需求随时正确部署的推理模型数量。

从全球对于市场占优势软硬件垄断地位的Nvidia的GPU需求量和台积电的封装产能现状来看,预计GPU算力紧俏会持续到明年。

无疑对于整个生态链上的玩家来说,GPU算力生意是一桩好生意。据说现在最有含金量的人际关系是和英伟达老黄的关系。

近期AI范儿针对“卖淘金铲子”服务路径做了专门的观察与分析:

新观察-上篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-AI²Paradigm之“Shovels”服务路径范式解读

新观察-下篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-A𝕀²ℙarad𝕚gm之“Shovels”服务路径范式解读

AI²Paradigm v2

▩大模型炼丹(pre-training)
▩大模型挖矿(prompting)
▩大模型蒸馏(distillation)
💡 AI²Paradigm v2 (Models Anywhere)▩业界对于OpenAI从初期开源,到OpenAI LP的闭源,一直颇有微词。虽然GPT-3以后的预训练确实需要巨量的GPU训练算力开销使得继续开源无法维系,但Elon Musk的退出以及微软布局投资OpenAI LP的一进一出中,无疑微软是100倍OpenAI LP投资收益Cap内的最大赢家,投资资金大部分应该都是自家AzureCloud的代金劵,用于GPT系统的预训练和后续ChatGPT及GPT-4的服务云消耗。社区那些曾经嘲讽Ilya在玩随机鹦鹉游戏的NLP大拿们,只能眼睁睁的看着OpenAI炼丹,个中滋味暂且不表,大概随着另一个AI元宇宙玩家-meta的大动作而稍有缓解。Meta开源了LLaMA(Large Language Model Meta AI),虽然没说可以商用,但确实也有意无意泄漏了7B,13B,30B和60B的权重文件(共200多G)。社区沸腾了,在非常快的时间内,一长串通过各种fine-tunning手段(lora快速微调模型也适时开源了-low rank adaptation by miscorsoft)的开源LLMs纷纷推出。当然笔者认为这些模型能力拿来和OpenAI的ChatGPT竞争都是不现实的,更不用说GPT-4了。随着笔者关注的硅谷天使投资组合DG&Nat,投资了llama.cpp项目,一个利用cpp重构llama的开源可以运行在PC和终端设备的推理模型,这使得终端推理(in-device inference),成为可能;这里不得不佩服DG&Nat对于AI背景以及行业趋势的深度认知,也使得笔者的AI²范式迭代到第二个版本:即引入models anywhere理念,通过大模型蒸馏(distilling)一个个小模型,拓展出另一片广阔的应用天地。比如6月5日 Apple WWDC大会上,展示了基于类似llama+lora可以在手机终端上运行的新功能,即一个由大型语言模型(LLM)驱动的键盘,这种键盘使用了Transformer模型,并可以在终端设备上进行运行和学习用户的打字输入模式,这个学习过程可能是在夜间通过LoRA(一种开源的LLM微调模型)完成的。同时在前几天,知名油管大V也是MIT教授-Lex,放出了对meta CEO Mark Zuckerberg的长达数小时的专访,Zuckerberg也提到Meta也受益于llama开源,并计划使用基于llama.cpp的个人助理嵌入自家的WhatApp等应用中。就在笔者撰写这篇文章的同时,DG&Nat更进一步,宣布为初创公司建立一个顶级大炼丹炉-仙女座星系(Andromeda Cluster):一个由2512 H100 (314节点+3.2T IB网络互连)组成的GPU算力集群,提供10exaflops算力。足以训练65B的llama,而且比meta当初用的21天预训练时间减少到约10天。DG&Nat这对天使组合无疑打开了大模型创投新格局,看来要引领AI开源及初创业界啊,非常令人期待!应该也会给注意力在大模型创投的朋友提供一个极好的新模式参考,大模型GPU算力集群,某种意义上,DG&Nat学习吸收了微软投资OpenAI的模式,在大模型开源社区创业界搞了个复制。

 来自公众号文章:新范式创投秘笈解读-引领硅谷开源大模型创投范式“第3极” -「AI²Paradigm」:暨DG&Nat专访-有关AI民主化

“硅谷天使投资组合DG&Nat推出的为初创企业服务的顶级GPU集群”

AI²Paradigm v2版的迭代动力来自大模型开源社区,meta AI的开源策略是背后推手,使得Models Anywhere成为一种可能和趋势。而DG&Nat引领的创投新范式,无疑可以算作这波AI创投范式“第3极”。(笔者注:从大模型创投以Google/Meta/Miscrosoft等传统大厂为1极,以OpenAI LP/Anthropic等新创AGI/ASI独角兽为另1极)

OpenAI的ChatGPT&GPT-4,本质上还是基于炼丹之后形成的预训练矿体,针对具体任务通过自身微调对齐或为大众挖矿提供token算力,OpenAI的GPT这样一种商业模式如同一个超级大章鱼,从早先就有的plugin store到最近推出的function call,如果前者plugin是借数字世界生态应用嫁接的触手,现在则是通过function call把无数吸盘的构建直接交到了最终的用户手上,目标是正在一点一点吞噬整个数字世界(world of bits)。

但构建于GPT之上应用的接纳与推广传播需要一个过程,而且当前的GPT大章鱼的运行成本相对较高(尤其是GPT-4)不一定适用所有的场景,以及应用构建还需要复杂的提示工程门槛,所以开源社区的力量与智慧在models anyhere范式上必然会有一片可以施展的广阔天地。

附v2创投范式参考:新范式创投秘笈解读-引领硅谷开源大模型创投范式“第3极” -「AI²Paradigm」:暨DG&Nat专访-有关AI民主化


AI²Paradigm v3

▩大模型炼丹(pre-training)
▩大模型挖矿(prompting)
▩大模型蒸馏(distillation)

▩大模型智能体(promptless)

💡 AI²Paradigm v3 (Intelligent Agents)▩就在AI²范式v2迭代的同一周,看到卡梅隆·沃尔夫博士(CAMERON R. WOLFE, PH.D.)在他的Deep(Learning)Focus博客放出了:LLM和它的朋友们(https://cameronrwolfe.substack.com/p/language-models-and-friends-gorilla)这篇文章,之前也注意到了像HuggingGPT、Gorilla这样的类似LLM集成器的应用框架,可以整合通用GPT和垂直模型,应用到B端场景,无疑给一众以大模型重构企业B端服务的ISV提供了一个非常好的方向和应用基础。虽然随着OpenAI下一个GPT版本的迭代,预计达到通用人工智能(AGI)并逐步到超级人工智能(ASI),并在一定程度上吞噬专业深度模型,但正如在终端智能及个人模型方面大模型蒸馏的存在,随着模型无处不在的浪潮席卷而来,未来无论是个人还是企业无疑也会面临同时使用多个模型的情况。笔者由此判断“模型的模型,从而形成面向复杂商业场景的B端智能体”作为一种创业投资方向,必不可少。这实际上就是完全可以独立运行(这里是否自主不确定)的大模型智能体的需求,而且与人类的交互甚至是完全自然语言或者能预测人类行为而采取计划与行动(promptless)。面向个人,就是OpenAI请回Andrej负责的类似Javis的ChatGPT升级版的人类助手;面向家庭,就是智能体管家;面向复杂的企业场景,需要的则是类似HuggingGPT,Gorrila等整合社区的大量专业模型应用升级而来的商业智能体agent由此,完成笔者当前阶段AI²Paradigm迭代,形成在投资创业应用方向的初步范式框架。

 V3迭代线索公众号文章:从“强化学习代理”到“人工智能代理”的演变:来自OpenAI的故事|AI²Paradigm之终极范式-个人“智能体”首谈

AI²Paradigm v3版的迭代背后预示了一种趋势:从人类面向机器编程计算,到人类面向模型Prompt,最后到硅基计算智能体为人类有生计算智能体的对等服务(也就是prompless)。

笔者预计最先看到的应该是OpenAI继ChatGPT后的另一个现象级产品-个人智能体助手。这一点从今年2月份刚从Tesla离开二进宫OpenAI的原创始成员Andrej Karpathy的个人简介可以看出。

“Andrej的个人介绍显示正在OpenAI构建类似JARVIS的项目”

至于家用场景,甚至更复杂的企业级场景,笔者认为还需要继续观察,但趋势必定是向智能体方向演进,会有越来越多可以自我学习的大模型深入到具体场景为人类服务。


AI²Paradigm缘起与研究路径解读

时值ChatGPT公开发布半年之际,面对GPT引发的这波AI狂潮,作为AI范儿CPO(Chief Prompt Officer),在社区内外不停prompt下,沿着“GPT现象”和“相关arXiv论文”并行的两条研究轨道,循迹而行,快速跟进:
▩研究路径一:“关键GPT现象系列” [附部分公众号沉淀内容导读]
前者主要是以GPT背后的灵魂人物Ilya(OpenAI联合创始人兼首席科学家)为焦点,通过:
  • 两个系列的关键访谈材料解读;

  • 语言的功用参考;

  • GPT与人类之间交互prompt现象;
快速建立了对GPT现象的直觉认识;
▩访谈系列一:以2023/03/14(GPT-4发布前一日)英伟达老黄与OpenAI Ilya的访谈内容线索做了解读,主要是访谈内容基本按顺序覆盖了Ilya从1993年入学深度学习教父Hinton门下到2022年ChatGPT发布的20年生涯,共分为3个时间段:

“2023/03/14 英伟达老黄与OpenAI Ilya的访谈视频截图”
[E01S01] 解读内容时间覆盖[1993-2017]
访谈系列·E01S01|AI大神Ilya访谈揭秘GPT-4成功背后的关键,20年如一日的AGI坚守终惊艳世界
[E02S01] 解读内容时间覆盖[2017-2020]

访谈系列·E02S01|llya的AGI信念:为伊消得人憔悴,十年终迎GPT震撼崛起

[E03S01] 解读内容时间覆盖[2020-2025]

访谈系列·E03S01|GPT-4成功背后灵魂人物Ilya访谈解读——从预训练模型到可靠可用AGI

▩GPT现象的语言本质思考引入:语言功用及交互Prompt现象
互为Prompt|大型语言模型的预训练 · GPT智能到底意味着什么?

“Diffusing Hands by Andrew Krill:一次“AI Art”尝试”
▩访谈系列二:则分别选取从2023/04/19倒推自2022/10/27的3篇不同风格的访谈,结合维特根斯坦的“哲学研究”中的“语言游戏”概念(受到复旦哲学系徐英瑾教授所著《心智语言与机器》prompt),做了第2季的3篇解读。一个有趣的现象是Ilya的访谈内容明显受到ChatGPT商业化后公司PR的微调限制,有趋向保守的现象,所以在3篇解读顺序上采取访谈时间倒叙成文,以涉及细节较多的ChatGPT发布前夕的访谈做了4万字的终结篇解读。

“左:伊利亚;右:维特根斯坦-笔者理解GPT现象本质的路标”

[E01S02] Inside OpenAI [Entire Talk] by Stanford eCorner [2023/04/19]

‍从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” (一)

[E02S02] Building AGI, Alignment, Spies, Microsoft & Enlightenment by Dwarkesh Patel@The Lunar Society [2023/03/27]

从「维特根斯坦」“语言游戏”到「Ilya」的 “LLM GPT智能体” (二)

[E03S02]What, if anything, do AIs understand? by Spencer Greenberg @Clearer Thinking - the podcast about ideas that matter [2022/10/27]

从「维特根斯坦」哲学“语言游戏”到「伊利亚」的 大语言模型“GPT智能体” (三)

现象系列也许只能了解过去的GPT,当前整个AI范式狂潮仍旧快速发展,奔涌而来,席卷而去,要跟进的话还需要时刻关注领军人物如:

2018图灵奖得主、深度学习三巨头Hinton、Bengio、LeCun的youtube访谈或者在Twitter等知识流平台的发声;
AGI大厂google、meta和microsoft的发展和OpenAI这些直奔AGI/ASI而去独角兽的发展动向;

Transformer论文8作者的去向选择;等等这些都是需要关注的对象。

▩研究路径二:“SOTA工程技术系列” [附部分公众号沉淀内容导读]

后者所谓工程系列是通过转译卡梅隆·沃尔夫博士的Deep(Learning)Focus的有关LLM思维树以及提示工程相关arXiv论文总结,以及相关技术论文的阅读,尝试建立工程与应用上的由浅入深的递次认知。

提示工程系列·转译(1)|思维链(CoT)提示-一种实用而简单的LLM“推理”方法

提示工程系列·转译(2)|实用提示工程-成功提示 LLM 的提示和技巧

提示工程系列·转译(3)|提示工程进阶-当小样本学习还不足以解决问题怎么办?

提示工程系列·转译(4):提示合奏使LLM更可靠-简单策略挖掘更多LLM潜能

提示工程系列·转译(5)|从PaL到PoT,用程序辅助语言模型,释放大语言模型推理潜能

原作者作为专业PhD,每篇文章都是直接从十数篇相关arXiv论文总结而来,从思维链(CoT 转译1)到提示工程的进阶三部曲(转译2/3/4),如果加上前一段时间出现的ToT(Tree of Thoughts,笔者未做转译看自行参考相关arXiv论文),有关提示工程的arxiv论文总结基本告一段落,原作者后来提出程序辅助语言模型(基于PaL的PoT)无疑更高阶,笔者理解与最近OpenAI官方推出的code interpreter思路上是类似的。

微调工程研究系列E01S02|开源LLM的历史:早期
微调工程研究系列E02S02|开源LLM的历史:更好的基础模型

微调工程研究系列E03S02|开源LLM的历史:微调与对齐

“卡梅隆·沃尔夫博士的Deep(Learning)Focus”

另有以下公众号资源未覆盖,但确实是工程技术相关盲点理解需要,笔者自行阅读的arXiv论文及其概要介绍:

GPT-4技术报告:https://arxiv.org/pdf/2303.08774 [last revised 27 Mar 2023 (this version, v3)]

💡 GPT-4 Technical Report▩论文摘要:我们报告了GPT-4的开发情况,这是一个大规模的多模态模型,可以接受图像和文本输入并产生文本输出。虽然在许多现实世界的场景中,GPT-4的能力不如人类,但在各种专业和学术基准上表现出人类水平的性能,包括在模拟的律师考试中,以大约前10%的考生的分数通过。GPT-4是一个基于Transformer的模型,经过预先训练,可以预测文档中的下一个token。训练后的对齐过程使事实性和期望行为的衡量标准测试上的表现得到改善。这个项目的一个核心部分是开发基础设施和优化方法,这些方法在广泛的尺度上表现得可预测。这使我们能够根据以不超过GPT-4计算量的1/1000的训练模型准确地预测GPT-4的某些方面的性能。

 https://arxiv.org/pdf/2303.08774 [last revised 27 Mar 2023 (this version, v3)]

GPT-3论文: https://arxiv.org/pdf/2005.14165 [last revised 22 Jul 2020 (this version, v4)]

💡 Language Models are Few-Shot Learners▩论文摘要:最近的研究表明,在许多NLP任务和基准上,通过对大型文本语料库进行预训练,然后在特定任务上进行微调,可以获得巨大的收益。虽然在结构上通常是任务无关的,但这种方法仍然需要特定任务的微调数据集,包括几千或几万个例子。相比之下,人类通常可以从几个例子或简单的指令中完成一项新的语言任务--而目前的NLP系统在很大程度上仍然难以做到这一点。在这里,我们展示了扩大语言模型的规模,大大改善了与任务无关的、少量的性能,有时甚至达到了与之前最先进的微调方法的竞争力。具体来说,我们训练了GPT-3,一个具有1750亿个参数的自回归语言模型,比以前的任何非稀疏语言模型多10倍,并测试了它在少数情况下的性能。对于所有的任务,GPT-3的应用没有任何梯度更新或微调,纯粹通过与模型的文本互动来指定任务和少量演示。GPT-3在许多NLP数据集上取得了强大的性能,包括翻译、回答问题和cloze任务,以及一些需要即时推理或领域适应的任务,如解读单词、在句子中使用一个新词或进行3位数的算术。同时,我们也发现了一些数据集,在这些数据集中,GPT-3的少样本学习仍然很困难,还有一些数据集,GPT-3面临着与大型网络语料库训练有关的方法学问题。最后,我们发现,GPT-3可以生成人类评价者难以区分的新闻文章样本。我们讨论了这一发现和GPT-3总体上的更广泛的社会影响。

 https://arxiv.org/pdf/2005.14165 [last revised 22 Jul 2020 (this version, v4)]

Scaling Law论文:https://arxiv.org/pdf/2001.08361 [Submitted on 23 Jan 2020]

💡 Scaling Laws for Neural Language Models▩论文摘要:论文研究了语言模型(LLMs)性能在交叉熵损失(the cross-entropy loss)上的经验扩展规律。损失随着模型大小、数据集大小和用于训练的计算量的增加而呈幂律变化,有些趋势跨越了七个数量级。其他架构细节,如网络宽度或深度,在很大范围内影响很小。简单的方程控制着过拟合对模型/数据集大小的依赖性以及训练速度对模型大小的依赖性。这些关系使我们能够确定固定计算预算的最佳分配。较大的模型明显地更有样本效率,因此,最佳计算效率的训练包括在相对较少的数据量上训练非常大的模型,并在收敛之前明显停止。

△ https://arxiv.org/pdf/2001.08361 [Submitted on 23 Jan 2020]

Transformer论文:https://arxiv.org/pdf/1706.03762 [last revised 6 Dec 2017 (this version, v5)] 

💡 Attention is all you need▩论文摘要:占主导地位的序列转导模型是基于复杂的递归或卷积神经网络的编码器-解码器配置。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了一个新的简单的网络结构--Transformer,它只基于注意力机制,完全不需要递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更胜一筹,同时也更容易并行化,需要的训练时间也大大减少。我们的模型在WMT 2014英德翻译任务中达到了28.4 BLEU,比现有的最佳结果(包括合集)提高了2 BLEU以上。在WMT 2014英法翻译任务中,我们的模型在8个GPU上训练了3.5天后,建立了新的单模型最先进的BLEU得分,即41.8分,只是文献中最佳模型的训练成本的一小部分。我们通过将其成功地应用于有大量和有限训练数据的英语选区解析,表明Transformer可以很好地推广到其他任务。

△ https://arxiv.org/pdf/1706.03762 [last revised 6 Dec 2017 (this version, v5)] 

Multi-modal DL会议文集:https://arxiv.org/pdf/2301.04856.pdf [Submitted on 12 Jan 2023]

💡 Multimodal Deep Learning▩论文摘要:本书是一个研讨会的成果,在这个研讨会上,我们回顾了多模态方法,并试图创建一个坚实的领域概述,从深度学习的两个子领域的当前最先进的方法开始。此外,我们还讨论了将一种模式转化为另一种模式的建模框架,以及利用一种模式来加强另一种模式的表达学习的模型。在第二部分的最后,我们介绍了侧重于同时处理两种模态的架构。最后,我们还介绍了其他模态以及通用的多模态模型,它们能够在一个统一的架构中处理不同模态的不同任务。一个有趣的应用(艺术生成)最终为这本小册子画上句号。

△ https://arxiv.org/pdf/2301.04856.pdf [Submitted on 12 Jan 2023]

LLM当前挑战与应用:https://arxiv.org/pdf/2307.10169.pdf [Submitted on 19 Jul 2023]

💡 Challenges and Applications of Large Language Models▩论文摘要:大语言模型(LLM)在短短几年内就从不曾存在到在机器学习领域无处不在。由于该领域的快速发展,我们很难确定仍然存在的挑战和已经取得成果的应用领域。在本文中,我们旨在建立一套系统的开放性问题和成功应用案例集,以便机器学习研究人员能更快地了解该领域的现状,并取得丰硕成果。

△ https://arxiv.org/pdf/2307.10169.pdf [Submitted on 19 Jul 2023]

LLM对齐问题:https://arxiv.org/pdf/2307.15217[Submitted on 27 Jul 2023]

💡 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback▩论文摘要:从人类反馈中强化学习(RLHF)是一种训练人工智能系统使其符合人类目标的技术。RLHF 已成为对最先进的大型语言模型(LLM)进行微调的核心方法。尽管这种方法很受欢迎,但将其缺陷系统化的公开工作却相对较少。在本文中,我们(1)调查了 RLHF 和相关方法的公开问题和基本限制;(2)概述了在实践中理解、改进和补充 RLHF 的技术;(3)提出了审计和披露标准,以改善社会对 RLHF 系统的监督。我们的工作强调了 RLHF 的局限性,并突出了开发更安全的人工智能系统的多层面方法的重要性。

△ https://arxiv.org/pdf/2307.10169.pdf [Submitted on 19 Jul 2023]

当然,这波GPT-4为代表的AI现象,一个显著的特征就是每天都有大量的arXiv的论文提交,以及在社区内传阅讨论;

随着个人对现象本质理解的递次深入,以上所列的论文是远远不能覆盖的。好在GPT已经突破人类语言理解与生成并广泛通过ChatGPT等应用传播的今天,我们只要紧紧跟进代表最领先技术发展水平(State-of-the-Art)的技术路线,就可以把前期论文阅读量降到最优,而不至于陷入前20年深度学习的工程文档泥潭。

另外,以上这些论文,除了自己阅读,在油管上也有非常多的工程大佬放出了详细的解读视频,可以一并参考,以及很多GPT工具如chatPDF,chatYoutube可以帮助快速提高论文学习效率。

对于NLP和图像生成扩散模型方向的最新突破,要有更深层次原理或本质理解,还需要更多的阅读。比如Sanjeev Arora and Tengyu Ma写得BP的原理介绍文章、stephenwolfram写的chatgpt长文、lesswrong的博客,@benthompson的Stratechery博客含金量也非常高,波炙手可热的这波AI投资机构a16z的AI圣经集(AI Canon)更是需要AI信仰才能全部读完吧......

凡此种种,不一而足;某种意义上,是为了理解人工神经网络(ANN),对人类生物神经网络(BNN)的预训练。从今天GPT理解生产人类语言的程度来看,ANN和BNN的底层数学原理和计算逻辑已经非常类似。

AI²Paradigm(案例)(待更新)


参考

-社区Prompts

附录:𝕀²·ℙarad𝕚g𝕞智能平方范式研究

H𝕀:Humanity Intelligence [Sys1&2@BNN] 

A𝕀:Artifical Intelligence [LLM@ANN] 

𝕀²:H𝕀 𝕩 A𝕀 [bio- | silico-] 

ℙarad𝕚g𝕞:认知范式或BNN认知大模型 

A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白外的未知的黑;H𝕀最大的问题是不断演进的sys2理性白中的sys1的黑




往期推荐



微调工程研究系列·转译(3) | 开源LLM的历史:模仿与对齐(三)

AI平方范式智库·数学系列E03S01 | 神经网络背后的数学

AI平方范式智库·访谈系列E03S02|从语言游戏到LLM智能体

AI平方范式智库·访谈系列E03S01 | 从预训练模型到可靠可用AGI



扫码加群,

链接智库!


AI平方范式智库




修改于
继续滑动看下一个
AI2Paradigm
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存