轻松小补充:GTP APP全景地图+虚拟人构造想法+prompt模式详解
在前文《万字长文:AI产品经理视角下的ChatGPT全解析》中,有一些没说明白的地方,所以新增一篇补录。
放心放心,只看前两部分的话只有1000多字,相当轻松。最后一部分是技术详解,脑子发痒可以跳过不看(但是记得去底部点赞转发^^)。
另外如果没看过前文的可以滑到底部点击“阅读原文”,这样就能就跳到那篇文章了~
第一部分 GPT应用APP地图
我曾经提及“因为海外账号过期了,所以海外娱乐类APP不太了解”。
chatbot方向的应用,当然还有其他方向的
第二部分 虚拟人构造想法
其实之前在谈及娱乐化应用的时候,有一些有趣的想法没有细说。
大概的逻辑就是围绕“明星”去打造他们的虚拟人,让每一个人可以贴身收藏明星,直面自己的心头好(然后赚他们的钱哈哈)。
大概在四五年前,我还在做chatbot的时候就有这个想法,当时还是智障AI一统天下的时候。所以只想着用TTS技术,让明星的语音复刻到音箱上,每个人领养一个胡歌/刘亦菲,每天对自己嘘寒问暖。最近几年没做AI去做搜推了,好像音箱上最终没人实现,但地图导航是接入了一堆明星。
而现在技术更进一步了,chatbot的聊天更加自然了,那么自然这种明星的降维(从真人到虚拟人)就可以不止局限于声音了,他的聊天人设,他的虚拟图片生成(让我妈妈和他的男神费翔来个合照哈哈),能够极大丰富虚拟人的信息传输,带来更强大的情感价值。甚至让这个聊天人设记住每个专属用户的偏好也不是不可能的事情。
哈哈哈,感觉这样应该还是赚得到钱的。当然一个问题是明星是否愿意这样消费他的影响力。但是大明星不愿意可以找中长尾明星,类似SNK-48的,甚至都不要找真人,就找虚拟角色来做这个明星(Saber等候您的召唤!)。大致上这方面的问题应该有解,所以就只是技术上的问题了。
在上篇文章没有深度提及这个想法是因为毕竟没有实操过,还不确定GPT为代表的大模型在这方面的技术支撑性如何。
但是今天我发现我漏掉了一个APP,就是通过上面的全景图发现的。
当当当当!Character AI,来自Transformer论文作者之一的 Noam Shazeer
的作品。他已经实现了对一些名人(包括虚拟名人)的人设模拟,你可以与他们聊天,他们会遵循自己的人设与你交流。
也就是说技术的前提一实现了:给AI灌注人设,并且这种人设不止是背景知识(年龄身高等),还有贴近人物的性格。
同样附上地址:https://beta.character.ai/
Character AI 首页的人物清单
另外是昨天我看到一条消息,Wolfram | Alpha(你可以理解为一个听得懂自然语言的计算器)被挂载在GPT之上。即你可以命令GPT去Wolfram | Alpha寻找答案并给出。
更神奇的是,在GPT执行一次这样的任务后,当你再次询问相同的数学问题,他将能够不经过Wolfram | Alpha而给出正确答案。这有点像Few Shot Prompt的模式,AI可能不是没有学到知识,他只是找不到到合适的方式给出知识。
到这一步,技术的前提二似乎也就位了:即GPT能够与额外的组件进行工程组装,他们配备一个专属每个用户的小知识库来记录偏好,并通过query或知识图谱进行推理沟通也成为可能。
至于其余技术前提更是早已就位。TTS技术已经成熟到只要几段语音就可以生成高仿真的声音,而图片生成技术更是在Stable Diffusion的横空出世后大大降低成本并效果显著。
所以突然就感觉这个方向的产品是可以落地,并且具备技术支撑的了。所以迫不及待上来叨叨两句。
前文推荐的glow和糖盒这两个APP其实已经有这样的雏形。但是他们可能受限于资源问题,目前都是自行构造“明星”——他们称之为虚拟智能体。而这些虚拟智能体,对粉丝的吸引力其实是远不如已经带有热度的“明星的”。
另外为免歧义,特别说明一下,我说的“明星”,只是一种指代,我临时想不到更好的词语。小说主角,练习生、游戏人物、历史人物其实都可以是“明星”的一种,只要有人渴望收藏、养成他,愿意为他付费即可。
其实在去年8月,AI绘画刚出来的时候,小说圈就涌起了一股为小说角色生成绘画的行为,大家纷纷给自己的主角生成了心目中的高清图。
From小说《古神在低语》评论区
另外在搜寻资料的过程中我发现,百度有一个Character AI贴吧,很小,只有149个人关注。一些玩家在这里研究如何绕开Character AI的过滤器(反黄反暴相关),并从AI的反馈中获得了相当程度的快乐。
因此基于当前技术的能力及发展趋势,如果说2025年的新闻是“彭于晏的虚拟AI上线,88元/年”,“周杰伦上线中年奶茶版虚拟AI,预售突破千万”的话我觉得完全有可能。哈哈哈这样的AI才是好玩的,我非常期待那一天。
第三部分 Prompt模式的详解
这部分都是技术上的补充,不感兴趣的同学可以忽略,往下滑直接帮我点赞转发~~每个点赞都是我更新的动力哈哈。
在前文中,关于技术的讲解其实是降级过的,去除了很多细节,以致于一些朋友在部分概念上被绕晕了。
现在专门补充最令人迷惑的Prompt这部分。
GPT最令人着迷的就是Prompt部分,即当预训练语言模型(非常大上千亿参数的)出来后,我们要应用到专业领域时,我不需要再采集这个领域的标注数据去训练他,只需要提供一些样例(Few shot Prompt,给一点提示),或直接在命令中引导他(Zero shot Prompt,完全不给提示,开干了老伙计)就行。
那么这个过程中因为这个领域其实发展不久,各项术语还没完全统一,大家在查阅资料的时候可能会有非常多的迷惑(包括我自己)。
我现在将我目前理解到的各种术语之间的关系做一次澄清(如果不对,请务必私信我,破我道心,我非常欢迎)。
第一,只有两种模式
1. Few shot Prompt ,给一点提示。你也可以叫他In-Context Learning(即ICL技术),是一回事。还有一个东西叫思维链(CoT,Chain of Thought),本质也是属于ICL的一种
2. Zero shot Prompt,完全不给提示,直接开干。你也可以叫他instruct,都是一回事。
第二,我们来解释他们是怎么运作的
1. Few shot Prompt
这种方法要求输入问题的时候,将这个问题的样例一起带上
人类输入:
[任务描述]把中文翻译成英文
[样例]猫→cat
[样例]狗→dog
[样例]人类→human
[问题]老虎→
AI输出:
[答案]老虎→tiger
整个过程相当于是我老婆问我生日礼物送啥,一边问,一边给我私信发各种淘宝链接。我能不懂吗?我敢不懂吗!
2. 思维链COT
这种方法也算是Few shot Prompt,但是在细节上有点不太一样,所以我们单独拆出来讲一下。
还是拿我老婆举个例子。她一边问我,去南京怎么玩啊,一边给我不断地推送游记攻略。
这里面的区别是什么呢?区别就在于这些游记攻略他是有严谨的推理过程的,第一天干啥第二天干啥第三天干啥,先买票,才能进景区,先订飞机才能到目的地等等。
如果没有这些游记对我的输入,我说不定就直接说去看看雨花台,虽然不能说不对吧,但肯定那是好不了的。说白了,COT是告诉模型一个道理,你在出答案之前,给我好好拆解一下,一步步来,只要你每一步都对,你最终的结果也不会错到哪里去。
3. Zero shot Prompt
我决定继续拿我老婆举例子!我发现太通俗易懂了哈哈。
我的老婆这次不给我发淘宝链接,也不给我发游记攻略了。他直接问我,我们去南京怎么玩啊?然后很温柔地说,你慢慢来,一步步想清楚,你可以先想好我们怎么去,再决定我们玩什么景点,然后结合7天的假期安排一下每天的行程。
当然AI搞不定这么夸张的问题,我只是举个例子哈哈。大家会发现,在这里我们仍然在引导AI,只是我们的引导不是通过样例提示,而是在下命令的时候,要求他仔细想清楚。
这就是英文GPT中经典的instruct命令——“think step by step”。中文的经典命令可能是“求解如下”,或者干脆更简单的“证:”
写到这里我死去的记忆突然又在攻击我了,AI如果学习“证:”这种推理方式,他会不会学到“略”这种回答方式呢?哈哈哈太好玩了。
当然instruct或者说Zero shot Prompt其实有时候更像一种方法。
比如说《Finetuned Language Models Are Zero-Shot Learners》这篇paper中,他针对11个领域进行了微调和学习(Fine-tuning或Few shot Prompt),然后让模型直接去面对第12个完全没接触过的任务领域。
这个时候对于第12个领域来说,也是instruct——老哥,别看了,我们直接开干,没有你学习的时间。
OK技术部分就此完结~进入我们的结尾语
尾声 随便说说
最近有很多同学加了我的个人微信
希望大家添加后能介绍一下自己目前从事的行业,如果愿意和我分享一下你们行业中有趣的事情就更感激了,我对任何行业都充满兴趣。
作为交换,关于AI,搜推策略,2B商业化,传统企业数字化,打工方法论,游戏攻略等等你们也都可以问我,我这里什么鬼东西都有!
刚刚去翻和朋友几年前的聊天记录,结果在聊天记录里发现了这个。
差点忘记我曾经也是公司级别的王者荣耀赛事杯的两届亚军一届冠军哈哈哈。
最后欢迎大家点赞、转发、收藏,你的赞美就是我更新的动力^^