查看原文
其他

字节首个大模型App体验:豆包什么馅,只有自己吃了才知道

张海庚 张无常 2023-10-09

字节推出第一个大模型独立 App 豆包了,记录下首日轻度体验反馈(基于iOS Testflight 1.0.0版本),作为用户,也作为产品经理。






从一个预设问题聊起:冷启动的优化空间


默认的全能写作助手推荐的第一个问题,「请帮我创作一篇知乎体的回答」,答得很好,直接开始编,可以,这很知乎。


但这没有太大实际意义:你都不用问我的问题是什么吗?没有问题的答案——意义是什么?后面甚至开始自问自答了……



当然,可以理解这只是一个功能的演示,但假设我是一个完全没用过ChatGPT的小白(也就是未来的大部分用户),很难理解这个演示。


也许更好的解决方案是:


1、用户点击预设问题以后,先问一下用户:你希望我回答什么样的问题呢?等用户自己提问后再回答


2、同时,可以提供一个选项「我就随便问问,你随便答吧」——如果用户不想提供问题,才按现在的方案,自问自答,这样同样能达到演示的目的


——而且这个方案,只需要 Prompt Engineer 一段 System Message 就能完成,并不需要工程开发或算法 Fine-tune。(LLM 产品经理:主打一个不求人😂)






当然,上面只是个小问题,我想稍微展开讨论的是:



产品在LLM时代的价值是什么?


准确一点:


产品(产品设计、产品经理)在LLM产品这个「下一个时代的圣杯」中的价值是什么?



首先,所有人应该都会同意:ChatGPT开启了潘多拉魔盒,让人看到了「AGI的火花」(微软研究论文语)。


而如果稍微了解一点GPT的历史,就很容易发现:今天看到的大语言模型的底层能力并不是ChatGPT独有,在2022年初的InstructGPT甚至2020年的GPT-3中,研究员和先行者们已经发现了LLM的魔力。


2022年底发布的 ChatGPT 和 2022年初的 InstructGPT 是一对姐妹模型,在模型结构、训练方式上都完全一致,都使用了指示学习(Instruction Learning)和人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。



那么问题来了:为什么几乎不相上下的的能力,最终的影响力确实天壤之别?



原因可以有很多,一言以蔽之:答案并不在模型层,而在产品层。


防杠说明:当然,模型能力非常重要,也是一切的基础,但不是全部。


InstructGPT(以及此前的GPT-1/2/3)本质上是一个「文档模型」——这是由GPT底层的Transformer架构决定的,GPT的魔力,最简单的理解,就是自左向右生成式训练,所谓 Predict the next token


顺着模型本身的特点,之前的很多产品能力也自然而然顺着「文档」往下想,从2020年GPT-3开放API开始,陆续有产品做了基于GPT-3的应用,但整体不温不火。


为什么?因为文档明显是一个用户需求很窄、理解门槛很高的产品形态。



「天不生仲尼,万古长如夜」,直到 ChatGPT 用对话的形式将大语言模型的能力外露出来,才真正引爆全球。


这不是我的穿凿附会过度解读,OpenAI CEO Sam Altman、联合创始人 Greg Brockman 都在不同场合反复表达过这个意思,我们可以看看 ChatGPT 首席架构师 John Schulman 是怎么说的:


-----


问:你提到语言模型以前已经存在,但ChatGPT以某种方式超越了人们突然之间对它的兴趣,而之前的模型并没有引起这种程度的兴趣。在开发ChatGPT及其前身Instruct GPT时,引入强化学习组件,你是否认为会发生这种情况?这是你之前所想的,还是只是认为这可能是一种改进?在一切开始之前,你的想法是什么?


John Schulman:我确实认为与以前相比,聊天界面更容易使用。因此,我认为在这里有很大的潜力,即使只有一个相对简单的产品,这将是一种直观的形式。但我绝对没有预料到它会如此受欢迎。


我认为它只会具有一些小众的吸引力。你可以使用Instruct GPT模型制作聊天机器人,只需给它正确的提示,你就可以得到一个不错的结果。在我们发布ChatGPT时,你将会得到一个几乎与之前相比,但不完全相同的结果。我们训练ChatGPT让它更加自我意识,了解其局限性,并减少虚构。而以前的Instruct模型更多地设计用于持续文本,以及在其中涉及幻觉的亮点任务,那是一种特点。因此,我认为它(ChatGPT)比之前可以创建的要好一些,但差异并不是非常大。所以,我对它会如此受欢迎感到惊讶。


-----


问题是,为什么对话就这么重要呢?


这自然值得一篇长文讨论「对话对人类的价值和意义」,篇幅所限,我简单总结:


  1. 对话是人类几乎与生俱来的能力,用户接受能力强


  2. 对话(发帖回帖、IM)也是几乎伴随整个互联网的经典产品形态,用户认知门槛低


  3. 有Siri、Alexa、小度、小爱等太多AI先驱珠玉在前了,用户习惯根深蒂固


所以我们甚至可以这么说:从产品形态上看,并不是GPT-4让人看到了AGI的火花(大语言模型的能力)——火花一直都在——ChatGPT 以对话的形式打开潘多拉魔盒,将火花展示给全世界






如果我们将ChatGPT开启的这波LLM创投、用户需求浪潮比喻成AGI新大陆的话,那通往新大陆的探索远没有结束,甚至还没有开始:


如何将大语言模型的超强能力,在C端、移动端上恰当地提供给用户?


这不仅是我们、不仅是中国、也是全世界最顶尖的产品经理、最聪明的脑袋们(包括OpenAI、Google、微软、苹果……)都还没想好的问题——也是一个起码价值十亿美金的产品圣杯。


这个问题,没有银弹,只有放下旧世界的经验和桎梏、用新的LLM范式自我革命,寄希望于无数次试错和迭代,最终换来用户体验的提升。


毕竟强如OpenAI,当初也只是在 InstructGPT 的基础上,调了一个对话版本的 ChatGPT(甚至只是个预览版!),无意间开启了新世界的大门。


那有没有产品已经有一些成功经验呢?如果我们往硅谷看,我认为是有的——我一直认为做产品应该「开眼看世界」、避免闭门造车——比如 Pi,比如 Perplexity、比如 Poe。


下文我会提到一个 Pi 的小例子,其他产品大家如果感兴趣,可另文展开。






产品定位/文案值得商榷


不知道是人手不足赶着上线,还是因为测试阶段不重视(按理来说不应该,字节的一举一动都在所有人的放大镜之下),这段产品说明文案值得商榷:


  1. 定位不清晰,万能的 ChatGPT 珠玉在前,看完感受不到豆包的特色是什么。——当然,大语言模型的超强能力,如何在C端、移动端上恰当地提供给用户,是业界难题。这句评论,自然是苛责。


  2. 文案不讲究,「可以把豆包看成朋友」后面应该对应「也可以利用豆包的创作能力……」,而不是「或者利用」。


  3. 语义不清晰且重复,第一句的专属伙伴、解答疑问、提供建议,和第二句的朋友、自由聊天、激发灵感、提高效率,其实基本上是同义反复了。对于需要快速从文字获取信息的用户而言,重复反而让人迷失。





好的榜样:Pi是你的教练、知己、创意伙伴和共鸣板


业界有没有好一点的例子呢?我认为是有的,Inflection.ai 的Pi,产品定位简单清晰、差异化,且文字凝练、准确



以下产品介绍截取自它的App Store、官网产品介绍以及产品新用户启动页:



Pi, your personal Al

你的个人AI

——产品定位简单清晰,且差异化。



Hey, I'm Pi

I'm your personal Al, designed to be supportive, smart, and there for you anytime. Ask me for advice, for answers, or let's talk about whatever's on your mind.

我是你的个人AI,我很聪明,随时支持你、为你服务。你可以向我寻求建议、答案,或者找我谈谈你的任何想法。





The Pi experience is intended to prioritize conversations with people, where other AIs serve productivity, search, or answer questions.Pi is a coach, confidante, creative partner, or sounding board.

Pi 始终坚持以人为先、与人对话,而其他AI则服务于提高生产力、搜索或回答问题。Pi是你的教练、知己、创意伙伴和共鸣板。



Pi was created to give people a new way to express themselves, share their curiosities, explore new ideas, and experience a trusted personal AI.It is built on world-class proprietary AI technology developed in-house.

我们希望通过 Pi,给人们提供一种新的表达自我、分享好奇心、探索新想法以及体验值得信赖的个人AI的方式。它是基于我们自研的世界级专有AI技术构建的。



Pi stands for “personal intelligence” because it can provide infinite knowledge based on a person’s unique interests and needs. Pi is a

teacher, coach, confidante, creative partner, and sounding board.

Pi代表“个人智能”,它可以根据一个人的独特兴趣和需求提供无限的知识。Pi是一位教师,教练,知己,创意伙伴和共鸣板。





我一直关注和研究 Pi 和背后的 Inflection.ai,LLM三豪强——OpenAI的ChatGPT、Anthorpic的Claude之外——就是他们家了:









其他体验反馈


1、预设问题答不上来


预设问题,这样的回答,确实有点减分……

again,这应该还是Prompt Engineer就能解决的问题




2、英文问答&后续引导


这英文能力……有点让我感觉被忽悠了……


另外,就算是「抱歉,我无法回答你的问题」,是否也可以提供更多引导,帮助用户继续对话呢?




3、文案细节待优化


文案不讲究,同样的意思,不同地方的表达没有对齐。


且「保障真实」和「完全」语义重复了。




4、按钮文案待优化


按钮文案(你可以理解为标题)宜短不宜长,忌标点符号忌断句。




5、声音排序问题


设置里的声音:


女声好多,男声好少且少数几个男声能跟女声对上的(比如亲切女声、亲切男声),为什么不放在一起呢?


这会不会让一些更习惯听男声的用户觉得被区别对待?


另外,这里叫「声音」是不是也有优化空间?




结语


这几天忙,体验时间短,一开始只是几张截图,不吐不快,没想到絮叨了一长篇。


不过我最近越来越坚信,在 LLM 信息爆炸、完全看不过来的当下,信息的角度,比信息更重要。


同理,体验产品的角度,也许比产品功能本身更重要——对产品经理尤甚。


应该持续锻炼自己见微知著、管中窥豹、透过现象看本质、甚至「小题大做、过度解读」的能力——唯有如此,才可能在 AGI 大航海时代不迷航,成为下一个哥伦布。




相关阅读:




参考链接


我是Hayes海庚,一个关注AI的大厂产品经理,最近打算和更多人交流,如果你也关注这轮AI浪潮,希望和包括字节、百度、阿里、腾讯在内的大厂同学一起交流讨论,欢迎扫码进群。如果二维码失效了,请在公众号后台回复「茶水间」或加微信hayeszhang13,麻烦备注【-公司/学校-职位-来意】。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存