查看原文
其他

回顾ChatGPT Voice及影响【2023Q4】

孔某人 孔某人的低维认知
2024-08-22

0、前言

正值ChatGPT向所有免费用户开放Voice功能,距离改产品发布也有快2个月了,是一个适合重新回顾和评论一下的时候。也可以替换掉我之前那个快评文章 【9.29】ChatGPT Voice能力及对LLM应用层产品设计的影响 快报

OpenAI开发者大会之后,整个行业在技术和产品上没有太多进展。我个人最近的注意力也在一些别的方面。专栏在LLM方向空了1周多,写此文也是保持一下活跃度。

1、高质量TTS

ChatGPT Voice 最大的价值还是向各公司的产品研发团队证明了高质量TTS的价值。之前大家并非做不了高质量TTS,只是像在LLM之前没觉得需要投入这么多资源来做的很好。而这次让资本和产品理解了这方面的价值。

我最初曾怀疑OpenAI这样高质量的语音合成并非仅仅是一个文本到语音的高质量TTS,但随着它的高质量TTS API的放出、ChatGPT Voice开放给所有免费用户,应该可以说明这版技术方案应该确实只靠文本模态输入就够了,就是一个高质量的TTS

OpenAI受限于获取的数据的分布问题,在中文(特别是普通话)方面的数据较少,使得其TTS和语音识别模型的效果都很受限。

在这方面国内重新做一个高质量TTS有很大的数据量优势,虽然它们还是需要去采集、采购这方面数据的。再考虑到国内各种方言等的情况,最终国内的高质量TTS会胜出应该是确定的

2、语音模态交互对产品设计的影响

目前来看,NLUI的正确实现方式是语音+文字的混合方式

  • 输入的时候,用户每次输入时自己选择他当时倾向的方式:

    • 大量输入时候倾向于使用语音

    • 不是大量使用键盘的人会倾向于使用语音

    • 需要精确指定、精确描述的时候会倾向于使用键鼠

    • 方言的输入需要依赖于语音

  • 输出的时候,应该可以同时给语音和文字

    • 不同的产品形态下可以默认只给一种模态,但用户要可以切换。

    • 大量信息、文字输出时,必须要有文字模态的展示

    • 情感、陪伴类场景必须要有全语音的输出

    • 方言的输出也需要依赖于语音

3、多媒体内容生产

目前的视频、音频类内容的生产成本还较高,高质量的TTS以及与此伴生的更强的语义识别配合LLM可以进一步降低音频方面的生产成本,例如:

  • 停顿、恩啊、重复等的剔除

  • 低质量录音的修复与增强、人声嗓音优化

  • 语音中口误内容的修正

  • 方言语音转换

  • 冗长语音、对话的浓缩概括,并仍然以语音方式输出

  • 配合翻译LLM模型进行跨语言的内容搬运,保持发言者嗓音的同声传译

  • 高质量的长语音内容生成,以及演播用虚拟人的语音部分

  • 交互式的多媒体内容根据用户反馈而动态生成(语音部分)

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

读者交流群见 公众号读者交流群 11.16

希望留言可以知乎对应文章下留言


本文于2023.11.22首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/668182469

个人观点,仅供参考
继续滑动看下一个
孔某人的低维认知
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存