回顾ChatGPT Voice及影响【2023Q4】
0、前言
正值ChatGPT向所有免费用户开放Voice功能,距离改产品发布也有快2个月了,是一个适合重新回顾和评论一下的时候。也可以替换掉我之前那个快评文章 【9.29】ChatGPT Voice能力及对LLM应用层产品设计的影响 快报
OpenAI开发者大会之后,整个行业在技术和产品上没有太多进展。我个人最近的注意力也在一些别的方面。专栏在LLM方向空了1周多,写此文也是保持一下活跃度。
1、高质量TTS
ChatGPT Voice 最大的价值还是向各公司的产品研发团队证明了高质量TTS的价值。之前大家并非做不了高质量TTS,只是像在LLM之前没觉得需要投入这么多资源来做的很好。而这次让资本和产品理解了这方面的价值。
我最初曾怀疑OpenAI这样高质量的语音合成并非仅仅是一个文本到语音的高质量TTS,但随着它的高质量TTS API的放出、ChatGPT Voice开放给所有免费用户,应该可以说明这版技术方案应该确实只靠文本模态输入就够了,就是一个高质量的TTS。
OpenAI受限于获取的数据的分布问题,在中文(特别是普通话)方面的数据较少,使得其TTS和语音识别模型的效果都很受限。
在这方面国内重新做一个高质量TTS有很大的数据量优势,虽然它们还是需要去采集、采购这方面数据的。再考虑到国内各种方言等的情况,最终国内的高质量TTS会胜出应该是确定的。
2、语音模态交互对产品设计的影响
目前来看,NLUI的正确实现方式是语音+文字的混合方式:
输入的时候,用户每次输入时自己选择他当时倾向的方式:
大量输入时候倾向于使用语音
不是大量使用键盘的人会倾向于使用语音
需要精确指定、精确描述的时候会倾向于使用键鼠
方言的输入需要依赖于语音
输出的时候,应该可以同时给语音和文字
不同的产品形态下可以默认只给一种模态,但用户要可以切换。
大量信息、文字输出时,必须要有文字模态的展示
情感、陪伴类场景必须要有全语音的输出
方言的输出也需要依赖于语音
3、多媒体内容生产
目前的视频、音频类内容的生产成本还较高,高质量的TTS以及与此伴生的更强的语义识别配合LLM可以进一步降低音频方面的生产成本,例如:
停顿、恩啊、重复等的剔除
低质量录音的修复与增强、人声嗓音优化
语音中口误内容的修正
方言语音转换
冗长语音、对话的浓缩概括,并仍然以语音方式输出
配合翻译LLM模型进行跨语言的内容搬运,保持发言者嗓音的同声传译
高质量的长语音内容生成,以及演播用虚拟人的语音部分
交互式的多媒体内容根据用户反馈而动态生成(语音部分)
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式。
读者交流群见 公众号读者交流群 11.16
希望留言可以到知乎对应文章下留言。
本文于2023.11.22首发于微信公众号与知乎。
知乎链接 https://zhuanlan.zhihu.com/p/668182469