重磅:盘点7大方向,谁将诞生ChatGPT领域的尤里卡时刻
小科普:尤里卡,希腊词汇,是发现真相时的感叹词,在游戏文明6中,当你触发尤里卡,你的科技会缩短40%的研究时间(中国文明缩短50%)
再小科普:AI绘画的尤里卡时刻有两个,Stable Diffusion让成本下降到可用,ControlNet让绘画可控性大大提升,踏入更广阔的应用领域。
前言
在前面的系列文章中,我们讲了LLM的技术原理、商业应用、社会影响等方面。但这些都是聚焦当下或较近的未来,那么更遥远的趋势呢?
就像Diffusion的ControlNet模型一样,如果你更早发现他的趋势,你就不会花费精力在语义理解、稳定控制等方面,而是直奔可控性(我与很多朋友聊天,发现他们的团队或多或少都有可控性方面的尝试,但因为趋势错判,而没有全力All IN)。
或者哪怕你不是做技术的,你提前预判到,你也能在产品角度、商业角度做前置的思考和布局。
不过接下来我的分析不会那么偏技术(因为不懂),而是从更商业的角度来看这些方向。毕竟商业利益催生应用,应用催生技术涌现,有时候跳出技术思维(刚好我没有),或许更能看到一些盲生的华点。
希望对大家有所启发,也欢迎拍砖讨论。
以下是全部内容:
降低门槛 ⭐️⭐️
万物终端 ⭐️⭐️⭐️
思维链CoT ⭐️⭐️
反作弊 ⭐️
文本外应用 ⭐️
私有化 ⭐️⭐️
GPT4来了? ⭐️⭐️⭐️
下面每个方向的介绍都比较简洁:第一,不会穷举所有案例(最近很忙);第二,不会长篇大论讲解原理(真的很忙)。不过最后也写了4697个字……很抱歉,慢慢读把。
顺便打个硬广:有好的创业公司或大厂核心AI方向JD欢迎私信我,最近忙于找一个能做好产品的地方。
正文开始
方向一:降低门槛 ⭐️⭐️
我说过技术涌现是需要“人数基础”的,参与的玩家越多,这个领域的发展才会越快。同时我们本身也需要关注门槛的降低速度,以预判更多玩家涌入对商业生态的影响。基于这两个因素,重要性2星。
第一个例子以FlexGen为例,目前GitHub 5K Stars,实现了大模型推理中的显卡平替(推理就是回答问题)。
简单介绍:1. 用更大的吞吐量掩盖低延迟(你可以慢,但做多一点);2. 工程上优化了效率,不仅可以用16GB T4 的显卡去替代又贵又稀缺的80G A100。并且实现了这种方式相较以往框架的100倍效率提升。——说白了,推理的时候你不一定要用A100了!喜大普奔!
如果需要比较通俗的科普,看这个:
https://zhuanlan.zhihu.com/p/608279479
如果需要看GitHub原链接,看这个:
https://github.com/FMInference/FlexGen
第二个例子是ColossalAI(看名字就知道,专门对付大模型),Github上17.5K Stars,他在解决训练成本、推理成本的问题。
他的实现方案太复杂了,大概是更高效的并发策略、更好的工程结构等我还没深入研究的东西哈哈。大家感兴趣follow下面链接做深入学习。
科普性报道(可能有PR成分)如下:
https://zhuanlan.zhihu.com/p/606397774
GitHub链接如下:
https://github.com/hpcaitech/ColossalAI#GPT-3
第三个例子是各类开源组织,例如EleutherAI(Stable Diffusion,GPT-3的开源组织),LAION(数据开源组织)等,他们对模型或者对数据的开源,推动了更多参与者加入这个方向的研究。
整体来看,有非常多关于降低门槛方面的努力,包括模型开源、模型优化、工程优化、算力降低、显卡平替等,说不定有一些我没发现但正在进行中的(例如定制芯片、稀疏化模型等等)。
方向二:万物终端 ⭐️⭐️⭐️
我们现在使用ChatGPT可以让帮我们生成视频脚本,甚至按API字段要求生成一个可执行的入参命令。但是这种生成永远停留在文字程度,我们要做最终的生产,只能自己打开其他的应用(如PS、如其他APP的API接口)才能将生成结果转变为最终产物。
如果ChatGPT能够使用工具呢?当我让他帮我收集海外SaaS公司2022年财报,他将结果整理为列表,同时标识引用的财报PDF,并将PDF下载到我的桌面(且新建文件夹并自动重命名)。你觉得如何?想要吗?
甚至更复杂一点(短期不太现实哈哈),你跟他说帮我画一张“醉后不知天在水,满船星梦压清河”的水墨画(用AI绘画),并在右上角用草书写上这两句古诗(用PS)。你想要吗?
这将是颠覆式的开始,就像当初IOS诞生一样,围绕一个终端,全世界的应用都会按照他的标准接入,并涌现出无穷的智慧。GPT不再是一种工具,而是新时代人人都离不开的终端——替代手机/电脑,更强大的虚拟终端。
在这种刺激下,巨头对LLM的争夺会进入一个更剧烈的,更白热化的阶段:新时代的诺亚方舟,不上船者必死。
这一切的开始,来自Meta AI发布的Toolformer,他让LLM连接工具成为可能。
简单介绍:1. 让AI明确有些问题,可以调用工具(例如知识,计算,查询日程);2. 让AI合理地转化自然语言命令为API命令(即调用工具的入参);3. 让AI在组织回答时,正常回答,但部分需获取的答案,去调用API获得结果后再嵌入回答中
下面是一个论文中的例子(括号内即API命令+调用后的结果):
Q:拜登在哪里出生
A:拜登在(调用搜索引擎查询“拜登在哪里出生”,获得答案斯克兰顿)斯克兰顿出生。
当然论文中的例子还较为简单,离我的狂想还有一段距离。但这种思路揭示了一种未来:我们可以训练LLM模型对工具使用的理解,包括何时应该使用工具,自然语言如何转化为使用工具的API命令。
等他进一步完善之后,所有的应用都必须按照LLM定义的标准提供接口,并跪着求LLM收录他们作为可调用工具(例如都是查询日历行程,我是查Google日历,还是查滴答清单呢?)
科幻未来就在眼前,三星好评!
简单科普看这个:
https://www.zhihu.com/question/583924233/answer/2900129018
论文看这个:
https://arxiv.org/pdf/2302.04761.pdf
方向三:思维链CoT ⭐️⭐️
第一个例子有点搞笑,但我发誓是真的:
第一步,让AI回答最终答案之前先拆解问题:“Think step by step”
第二步,然后再让AI基于这个推理结果给出最终答案:“so the answer is ?”
拆成两步后,准确率从17.1%飙升到78.7%
无图无证据,论文《Large Language Models are Zero-Shot Reasoners》原图
第二个例子来自小冰的X-CoTA
直接上图,大家仔细看看
在图中,小冰面对问题“北京到苏州相当于跑了多少个马拉松”,他拆解成了“北京和苏州的距离”,“一个马拉松有多长”两个问题进行推理。并最终基于两个小问题的答案给出最后答案。
一方面,复杂问题拆解为多个子问题提升了最终回答的正确率,另一方面,更加关键的是——这让AI的推理过程可视化。而可视化,就意味着人类可以进行过程纠错,接下来请看第三个例子。
第三个例子:LangChain 的memory功能
下图中右侧,模型弄错了Similar to的意思,被用户教育校正。这个校正会存入Memory中,当AI下次在遇到累死问题,他就会来寻找曾经的memory并避免犯错。
这个功能本身是和CoT思维链毫无关系的。
但是如果你把LangChain的这个功能,与第二个例子结合起来。
你就会发现,所谓的用户反馈(即大名鼎鼎的RLHF)不仅仅能够出现在训练/微调环节,更能直接在用户使用过程中发挥作用,快速积攒大量的优质人类反馈,从而进一步提升模型效果。
这个方向一方面本身就可以提升模型效果,另一方面为强化版的用户反馈机制提供了可能,因此给2星。
方向四:反作弊 ⭐️
大家可能看到过最近的这个新闻:《科幻世界禁止使用ChatGPT投稿》,或者更早之前的大学禁止ChatGPT的一些新闻。还有针对GPT监测的工具,例如GPT-Zero,OpenAI自己开发的AI-Text-Classifier等。
我的看法是:政治噱头。
第一,AI生成的本质是什么?就是洗稿,例如我写作中会阅读大量的报道、文章、论文,然后总结归纳后转写出来——是的,技术侧的知识我毫无产出,一行代码也没敲过,我只是在学习总结而已。
但这种洗稿问题,在内容时代从来没被解决过,不要说我这种高级洗稿,就算是低级洗稿也是毫无办法。
第二,目前的检测方式是基于模型有监督学习的文本分类模型,在现在LLM模型起步初期,行文还有点生硬时,准确率都不高,何况更进步更拟人的未来?
第三,还有一些从源头控制的方法,例如添加密码水印(例如h字符的出现率比平均值高11%~13%),例如应用侧主动标识“来自LLM”的证明。但这些手段仍然可以通过多段拼凑,黑市LLM,离线二次处理等方法绕开。
这个领域是政治、商业上推行下去必须解决的问题,但他的解决方式很可能是表面解决——LLM公司出存在性手段(AI-Text-Classifier),应用侧公司做保证性声明,政府拟定生成类内容法规,但一切对现实毫无影响。
方向五:文本外应用 ⭐️
经过很长一段时间的狂欢后,大部分人(或许只有我哈哈),可能都忘记了LLM的一个颠覆性变革——AGI通用人工智能的雏形。
这个雏形怎么往下推进呢?他势必要将当前集中在文本领域的能力向更大范围辐射。
典型的例子如ProGen,用大规模语言模型来定向预测蛋白质结构
简单介绍:1.复习一下预训练语言模型,把N多语料喂给他,让它自己学习世界知识、语法知识、代码知识。2. 好,模仿这个过程,现在我把蛋白质的结构喂给ProGen,让它自己学习,让它明白原来要具备杀菌性,结构是这样的,具备耐寒性,结构得是这样的;3. 现在我可以要求他定向预测蛋白质结构了——例如我要杀菌性好的蛋白质。
这个模型现在的参数规模是12 亿,使用包含2.8 亿个蛋白质序列的公开数据集——如果他像GPT一样不停地往上堆数据呢?是不是也会像GPT模型一样实现能力的涌现?
科普性文章看这篇:
https://zhuanlan.zhihu.com/p/603784945
那么其他领域呢?图像、视频、3D?很抱歉,我觉得很难看到突破。
我的判断和技术一点关系都没有(我不懂),纯粹从商业角度、利益角度看这个事情。
第一,Diffusion在多模态领域狂飙突进,他的爆发远不到停止的时候,在这个阶段,由于他的前景明确、介入成本低,集中了大量的研究人员在推进技术发展。
第二,GPT为代表的LLM,他现在也不太关心文本外应用,他有更着急的事情要去做(例如我前面说的那几个方向)。——并且,由于他的介入门槛高,在这个领域能够实操的研究人员还远远比Diffusion少。
这就像特斯拉的交流电遇到爱迪生的直流电一样,当你有一个还不错,甚至很不错的竞争对手时,你不能只是优秀一点,你必须优秀非常多!
在产品领域有一个公式描述这种现象:产品价值=(新体验-旧体验)-迁移成本。
综上,对于广阔的图像、视频等领域,我不是特别看好LLM短期内在这个方向的发展。
方向六:私有化 ⭐️⭐️
我之前有一个判断,LLM的诞生不会摧毁小模型公司,这里的小模型公司指以前靠卖模型服务吃饭的企业,因为他们的模型比起1750亿参数实在太小了,就叫小模型公司哈哈。
这方面的考虑来自几个方面:实时性(车载/直播等),安全性(金融),成本敏感(客服),答案稳定(金融),道德风险(心理咨询)。
但是,新闻来了!OpenAI将考虑允许企业私有化部署模型,最低26W美元/年
如果这个消息不是Fake News(建国兄摇头.JPG),那么至少安全性问题解决了,成本、实时等问题可能也会缓解,小模型公司将迎来前所未有的冲击。
但是私有化也有好处:
首先,私有化大概率是部署小参数规模的LLM居多(比1750亿参数少一个量级),那么这将导致后续LLM的优化方向不仅仅只是参数规模的追逐(例如传说中的万亿参数GPT4),也会回头关注小参数级别LLM的表现。
其次,更多的应用催生更多的技术升级,并且小参数级别的LLM也降低了进入门槛,会让这个领域更加百发齐放(其实又和门槛降低方向有点关系了)。
因此,基于对现有商业环境的扰动+技术的有益促进,这个方向的重要程度是2星——哪怕他一点技术含量也没有(或许还是有一些的)。
方向七:GPT4来了? ⭐️⭐️
各种传言说GPT4已经在路上了,23年就要出来了,但都没啥证据。而Twitter这位小哥不仅爆料了私有化信息,还提供了GPT4可能到来的一种猜测。
首先,我们看这张图,text-davinci-003就是目前OpenAI开放的最先进的模型,可以看到图中只支持4Ktokens。(告诉大家一个冷知识,ChatGPT是不开放商用API的,只有GPT-3开放)
而Twitter小哥爆料的图中,大家看这张图中,DV就是davinci——目前OpenAI真正开放商用的GPT3系列名词。
在图中,DV最高支持32K的上下文长度,是当前的支持的4K的8倍。
这个莫名其妙的DK(32K max context)是不是传说中的GPT-4呢?或者哪怕不是,至少也是个GPT-3.6、3.7吧?毕竟翻了8倍的上下文理解能力,实在有点离谱——他从19年到22年也就翻了2倍。
不过,毕竟只是猜测,所以只给2星,安慰一下自己的小心脏。
最后照旧求一下点赞、转发、在看~你的认可是我更新的动力
另外AIGC之我见系列以后不更了,我发现这种东西真的很尴尬,一个文章里5个信息,但是标题中又无法体现,谁会看这种东西呢
而且碎片知识一般我都直接发在即刻上或者分析库了,为了写文章捞自己的剩菜残羹感觉有点不道德哈哈。