解析Descript-平民化的胜利
以下为本文目录,建议结合要点进行针对性阅读。
👇
01 Descript简介
02 音视频领域的“office办公套件”
03 为什么Descript会成功
04 Descript的隐忧
之后的发展一路顺风顺水,2019年A轮融资1500万美元,a16z和Redpoint领投,并于同年收购了Lyrebird用于增强其AI能力;2021年B轮融资3000万美元,包括Alex Blumberg和其他22个投资者;2022年拿到了OpenAI、a16z等投资者在内总计5000万美元的C轮融资,估值超过5亿美元。
在Descript出现在之前,录制高质量的音频来制作播客并不是一件容易的事情。通过手机等通用设备录制的音频原件,会充满了各种瑕疵,如果需要进行声音的修饰和剪裁,那可能还需要有一位专业的音频工程师参与到其中才行。
Descript的出现,让编辑音频变得像编辑 Word 文档一样简单。具体而言,语音识别系统首先将音频转化为文字,再通过AI将音频的时间码分配给每一个词语。当用户删除相应词语,对应的那段音频会同时被删除。Descript的overdub功能,可以通过修改转录生成的文稿中的词语替换成你想要的词,系统会结合AI在对应的音频位置上,生成新词语的录音。可选的音色有系统设定的,也可以上传自己的一段朗读让AI学习之后使用自己的音色。极端的情况下,你完全可以通过文字编辑一篇文稿来生成你自己音色的播客。
Descript在视频编辑上,区别于传统视频编辑器的地方在于,引入了Scene的概念,类似电影拍摄中的场次。可以通过不同的scene里分别对音频、视频进行处理(音频同样被转录成文字的形式可以被编辑)。这样的设计让视频处理变得和编辑PPT一样有次序和条理分明,拆分成了更细分的视角,摆脱了传统的那种以时间轴为中心的处理方式。
基于文稿查找、删除、替换功能,完全可以让你能够以处理文档的方式,对音视频文件中的声音进行批量操作,再加上AI去除语气词和口语以及消除背景噪音等功能,对于新手非常友好,大大降低了创作的门槛。
03.为什么Descript会成功
首先是通用性,Descript大大降低了音视频创作的门槛,大幅度提高了创作者们的工作效率,而且其对声音的处理方式是颠覆性的(转录成文字再定位)。其类似word文档编辑的处理方式,在挖掘已有音视频创作者的群体成为用户之外,还扩充了潜在的用户群体。会用音视频编辑软件的人不多,但是不用使用word的人也不多,这二者之间的客群很大一部分都有可能成为Descript的客户。
其次美国的播客文化,也让其拥有庞大的用户群市场。数据显示截止2020年,在美国有大概1.68 亿人熟悉“播客”这一概念,人口中的 55% 即 1.55亿人曾收听过播客。在2016年,这一比例是 36%,在2006年仅 11%。
在我看来Descript目前在音视频创作领域做的事情,和奥斯本以及亨利福特做的事情一样,是一个把奢侈品变成平民工具的过程。凡是这样的类似的事情,往往都会创造巨大的财富,最近一批获得成功的公司则是那些降低了视频拍摄和传播门槛的各种短视频平台。
除了传统的音视频编辑器,有几个新兴的产品很有可能在不久的将来和Descript形成竞争。首当其冲的就是Capcut,我在推特上看到很多人分享视频编辑工具的用法,capcut来做视频剪辑,Descript用来加字幕(subtitle or caption)。和Capcut同属一家公司的飞书(lark),已经在其旗下的妙记功能中实现了基于文字的音频定位、说话人识别及合并音频段落等功能。如果这些功能被平移到Capcut中,那Descript的潜在客户将有很大一部分被划走。
国内的市场有这样的先例,在2019年开始,各大视频及短视频平台纷纷推出自己的免费视频编辑软件后,小影(收费剪辑工具)的国内市场份额迅速下降。而类似抖音、B站这样的平台,主要通过视频平台盈利,视频剪辑工具只是其用来加强生态的一环。