1000小时，7000余字。这是我对内容产业的思考

查看原文

其他

1000小时，7000余字。这是我对内容产业的思考

徐邦睿人人都是产品经理 2019-05-15

题图来自 Unsplash，遵循 CC0 协议

作者：徐邦睿，做运营的工科生文青

微信：katongka007

全文共 7280 字 9 图，阅读超过 15 分钟

———— / BEGIN / ————

作为一个互联网从业者，有些本质性的问题是需要弄透的，不然看到的都是表象，永远无法获得真知。

在探索这一系列问题的过程中涉猎了不少资料，也做了很多思考；有些是想明白了的，有些是还需要继续探究的，我把自己思考的过程和例子都分享出来，供大家讨论。

围绕在我们身边的信息，数量庞大、类型复杂，每个人所处的圈层不同，接受到的信息也有很大差异，看似好像很难划分。但如果从另一个角度来看，我们大部分人的身体结构是相同的，于是我们可以按照接收信息的感觉器官来划分，就会比较明确。

我们的眼、耳、鼻、口、皮肤为我们提供了：视觉、听觉、嗅觉、味觉、触觉。

视觉让我们能够看见图像和文字，我们用听觉接收语言和自然界的声音，嗅觉和味觉提供了很多奇妙体验的可能，触觉是我们出生后第一次感知世界的方式。

从生物学上来讲，这些感官很多动物都有，人类并没有在这方面显得多么出众；但人类却创造了其他任何一种动物都无法创造的辉煌成就，并成为“地球的主人”。

这主要归功于人类所特有的一种杰出能力——保存并传递信息的能力。

人类文明发展万年以来，科学技术的进步令信息保存和传递的方式发生了天翻地覆的变化，然而我们接收信息的方式只是效率的提高，而这一现象在数字化碎片的时代会加速传染开来。

要想知道为什么只是效率的提高，就得先弄清楚从古至今，信息的保存和传递方式是如何变化的？

一、视频是最易消费的媒介

现代人类的祖先“智人”进化出新语言是在大约距今7万到3万年前，这种新语言不同于其他动物通过不同喊叫的方式，传达不同的信息。而是能通过发出的有限声音，组合起来产生无限多的句子，各有不同的含义。

于是，我们就能够吸收、储存和沟通惊人的信息量，并了解我们周遭的世界。

而人类最早开始进行图像类型的记录，产生于旧石器时代的晚期，距今约3万到1万多年之间。记录类型包括了洞窟壁画、岩画、雕刻、建筑等。

而文字的出现要晚得多——文字几乎与农耕相伴而生，从最早的刻符、结绳和岩画算起，人类文字的历史不过5000多年。

从时间线的角度，我们很容易看出：语言的出现早于壁画，早于文字。

人类从蛮荒步入文明，有三次伟大的跨越：第一次是语言，第二次是农耕，第三次是文字。

语言是人类的开始，农耕是文明的开始，文字则是现代的开始。

文字的出现虽然让人类社会进入了一个新的纪元，但千百年来，很多时候文字只是少数人享有的权利，不论是从创造、学习、使用等各个角度来看，都是如此。

也就是说：同样的信息，我用语言、图画、文字三种形式传达的时候，大部分人可以听懂语言所表述的内容，其次是图画，文字的效果最差。

语言是人声带振动的结果，所以它本质上是一种声音。

这样，以上的三种形式就可以抽象为声音、图像和文字。

我们初步推断：在人类接收信息的容易程度上，声音的效果最好，文字最次。

即：

声音>图像>文字

除了以上三种信息的传递方式，其实还有一种很重要的信息传递方式——视频，只不过这种方式一直到近代才出现。

记录文字和图像的方式人类在远古时期就学会了，并且持续探索更简单的实现方式。

大规模的文字记录方式，是因为雕版印刷术的出现，于公元7世纪左右的隋唐时期。

图像的便捷记录方式出现在1839年，法国的达盖尔制成第一个台实用的照相机。

人类的科技发展，总是倾向于让人变得越来越懒。出现的时间越晚的信息载体，才越易于我们感知和理解。

声音和影像的的记录一直到第一次工业革命以后才出现。

1877年爱迪生发明了留声机，让声音的再现有了可能。

1895年爱迪生和迪克森制作的“有声活动电影机”，这项能够记录我们所处现实世界的发明，为后来视频成为现存的覆盖面最广泛的媒介，奠定了基础。

从远古跨入现代，人类保存和传递信息的方式，已经从呆板枯燥的文字，上升为能够听得见、看得到地重演现实世界情景的视频，视频成为了最容易能够让人看懂的媒介。

所以我们可以进一步确定我们的推断，在人类接收信息的容易程度上，视频的效果要优于声音，也就是：

视频＞声音＞图像＞文字

对此，我们从另一个角度重新审视，会得到更有说服力的解释。

文字是最早能够记录，但是消费门槛最高的媒介。

想象文字的阅读过程：首先我们得识字，知道一系列图形符号和他们的组合所代表的意义；然后通过句子，我们要在大脑中映射出感觉和意向，有一些要图像化处理后才能理解。

再思考文字的写作过程：我们要知道这些感觉和意义如何通过一系列的符号落到纸面。

所以文字的过程是个压缩和解压的过程。这个行为相比于其他的内容消费形式，门槛是比较高的。这也是文盲那么多的原因。

图像是对视频生活的抽象化反映，理解起来会有一点难度。比如有一些人是看不懂漫画的。声音比图像更容易理解，因为毕竟没有这么多复杂的千奇百怪的图形，只有有限个声音。

视频所展示的世界和我们睁眼第一天看世界的就是相同的。而直播是现实生活最生动的克隆。

而视频最容易被接收、门槛最低的原因，还有另外一个原因：视频调动了更多的感官。

二、如何用“感官象限”作判断

我们把视频、声音、图像、文字和人的感官结合起来，能够发现，图像和文字是需要用眼睛来看的，耳朵可以听到声音。

而视频则需要同时调动听觉和视觉这两种感觉。

也就是说，同等信息量的时候，视频需要调动两种感官的特性，让我们更易于去接收这些信息。而在同等时间的条件下，视频能够传递的信息量更多，信息密度更大，而人天然喜欢信息密度更大的东西。

从这个角度，我们再看互联网世界里，和信息相关的产品，我们就能逐渐探索出资讯类、听书类、视频类产品他们之间的本质差异，以及用户量一路飙升的短视频，为什么会让各巨头公司产生恐慌。

1.“感官象限”里的4个判断

通过互联网传播的信息，主要借助手机、电脑这样的终端设备，这类设备主要传递的是视频、声音、图像、文字信息，我们接收主要是通过视觉、听觉和部分触觉。

我们按感官系统进行划分：

视觉接收到文字、图像信息；

听觉接收到声音信息（语音、音乐、配音等）；

触觉接收的大部分是由“振动”完成的（来电提示、触摸反馈等）。

由于目前对触觉的使用仅在提供反馈的层次，信息量远不及其他形式，我们把它放在后面单独来讲。

那么，我们以听觉系为X轴、视觉系为Y轴，建立二维直角坐标系。听觉系的两端为人的声音（以语言为主）、自然声音；视觉系的两端则是文字和图像。

这样我们就得到了四个象限，我将其命名为“感官象限”。

我们进一步将听觉系和视觉系细分，离O点越近的部分，是人类天生易于感知的，比如口语、口述的文字、肉眼所见等；越靠近坐标轴的顶端，代表理解难度越高、越需要后天学习的方式。

我们再将易于感知的部分向复杂的部分的过渡也进行划分。

比如，听觉系在第一象限的划分方式就是口语、书面语、专业术语、第二语言，同理也对其他象限的坐标轴进行划分。

按这样的形式，我们可以把互联网中主要功能为信息传递的产品（以某个特定的产品来代表其类型的产品），填入感官象限中（为了区分产品需要的是单一感官和两种感官，我用 O'和 O"将需要两种感官的象限重新作了划分）。

可以得出几个判断：

1. 以视觉为主的产品，仅靠视觉就能完成信息传递。

2. 以听觉为主的产品，多需要视觉对其信息内容进行补充。

3. 从多感官产品向单一感官产品过渡容易，反之则较难。

4. 多感官同时进行信息接收，要比单一感官接收信息更容易。

前两点中有个很有趣的现象，就是以听觉为主的产品，需要视觉辅助，也就意味着这类产品在某些时候是需要两类感官同时参与的。

而单独以视觉为主的产品，则几乎没有这样的情况。

比如同样都是传递知识的产品，在大家的心理感知上，知乎是用来“看”的，而得到是用来“听”的。

看的时候视觉很容易疲劳，注意力分散跳出，听要比看的情况稍微好一些，但听的时候如果再看到对应的文字，就要比单纯听更容易抓住听的内容。

第三点中，多感官产品向单一感官产品过渡的这件事，怎么来理解呢？

比如贴吧这类以文字为主的社区，要想发展视频业务是很难的。

但像爱奇艺这样的视频平台，做的泡泡社区很快就起来了，日活已经到了4500万，差不多是它总日活的1/4。

原因就在于：从多感官向单一感官转是很容易的，只需要减少调用的感官数量就好了；可反过来的话，增加的成本就很高了。

整体来说，印证了我之前提到的：从信息接收难易程度来看，视频类产品最容易被接受；其次是音频类产品，最后才是图像、文字类产品。

那么四个象限中的各个产品的位置是如何确定的？

2.离日常生活越近的信息越好

看似同类的产品，其实从人接收信息的角度看，其实差异很大：

越贴近人类日常生活的图像、文字、声音，越易于人类理解和接受。

比如直接的对话、肉眼所见的场景、自然界的各种声音。

当然也有些人的和这个会不太一样，比如对从小热爱器乐的孩子来说，乐器振动发出的声音可能更会让他有感触。

越远离人类日常生活的东西，越需要大脑的思考、后天的学习，相对来说是一个比较痛苦的过程。比如学英语的要比看电影痛苦的多。

人的天性是懒的，在不受场景制约的情况下，大部分人更愿意使用贴近自己生活的、能调动更多感官接收的信息产品，避免大脑思考。即更愿意看直播或短视频。

从接收信息的容易度上进行排序：

第四象限>第一象限>第三象限>第二象限

在第一象限中，从微博类产品到 Github 类产品，属于文字类型的难度逐渐上升的结果，看的人会逐渐减少。

微信其实还是个主要以视觉传递信息的产品，但其语音功能的重要程度，让我把它放在了这个位置，且其语音消息占了总消息数的16%。

社交产品的天然属性就是把线下面对面的场景搬到了线上，虽然还是略有差异，但在以文字为载体的情况下，已经是最自然的信息传递方式了。

最新的数据中，喜马拉雅活跃用户数为4000多万，而网易云的则为6700万，音乐类 App 活跃用户数最高的酷狗音乐为2.2亿，从数据上看好像有声书类的产品好像没有音乐类产品的用户数高，这和有声书产业发展的时间短有关。

长期来看，只要下沉做得好，有声书类产品的用户规模一定会超越音乐类产品。

第四现象中，首当其冲的是短视频和直播，这两类产品其实是在同一位置的，只不过直播近几年的发展越来越专业化、秀场化，让人很难有贴近身边的感觉。

短视频其实也有同样的问题，但同样的时长内，其信息密度更大，所以更受人喜爱。

长视频类的产品中，B站因丰富的弹幕、众多UGC的缘故，会让人觉得更亲近，但其主要做二次元的细分领域，所以整体的用户规模必然没有爱奇艺大。

2017年B站的活跃用户数7000多万，而爱奇艺的则是4.21亿。

然后我们再第四象限的网易公开课和第一象限的得到来做个比较。

网易公开课在16年的时候移动端用户数为4300万，得到在18年的数据是2000万用户，因为发展的时长不同，很难做结论。

但是从信息接收的难易程度来讲，网易公开课的用户规模就是要比得到高的。如果最后被得到超过了，肯定是因为网易公开课在内容水平上仅到达了及格线，而得到做到了120分。

第二、三象限中，我并没有找到太多合适的产品，可能大家都还在竞争更好做的一、四象限内的空间。

有很多语言无法表述的信息，器乐、自然声音等方式传递会更合适，而且不受语言差异的限制，通过学歌曲的形式学会说另一种语言更容易，可能和这个也有关系。

从感官象限上来看，同样需要两个感官接收信息的情况下，离原点越远的产品，受众群体的总数就会越少。

如果再把“细分领域”作为第三个坐标轴，二维坐标系变为三维，原有产品的二维图标将变为一个个有厚度的小方块，这些小方块的厚度就是他们所处细分领域的总体用户规模。

所以，我们在借助感官象限对信息传递类产品做判断的时候，想知道该产品的赛道有多大，除了要看他们在感官象限内所处的位置，还要看各个产品“块”的体积大小。

也就意味着越是贴近人生活状态的、平台性质的产品，赛道越大，潜在用户数越多。比如现阶段的短视频、直播平台的产品。

那么，手机作为现阶段最广泛的信息传递载体，在视觉和听觉上信息传递效率或体验还有提升的空间么？

这个问题同等于，还有比短视频或直播更能贴近人们日常生活信息表现方式么？

当然有，想想看 IMAX 电影时候的感受。

三、3D声音提升视频体验

IMAX 电影把视觉和听觉都做了3D化，你看到的人物、建筑是立体的，听到的声音是有远近、左右的。这就和我们现实的感受更近了。

视觉的3D在手机这个尺寸的屏幕上其实并不能产生很好的体验，比如之前有段时间出现的裸眼3D手机无疾而终。

如果技术允许，降低3D声音的制作成本，将会为听觉系产品（音乐、听书、直播、短视频、长视频等）带来体验上的提升。

但3D声音的局限性在于需要耳机作为支持，而大部分手机用户其实是不用耳机的。但对于使用耳机的用户来说，在生活化的短视频和直播领域会有很独特的体验。

想象一下在刷短视频的时候，能听到小哥哥/小姐姐在你的左耳后说话，就会有一种这个人在你身后的感觉。

因为有了“身后”这样的位置信息，这就比原有的声音传递了更多的信息，提升了信息密度，让人有了更好的感官体验。

B站有类叫ASMR的直播节目，中文译称“自发性知觉经络反应”，俗称“颅内高潮”，是通过各类模拟音效缓解人的精神压力，其声音效果就可以模拟出有人在你身边的感觉。

其实聪明一点的读者能够发现：我提到的在视觉和听觉上的提升，VR（虚拟现实）做的就是这件事。

VR 当初引起资本的狂热也是这个原因，资本赌的并不是 VR 这个设备有多少价值，而是 VR 有可能革新信息传递的效率，与视频相比，VR 能够传递的信息密度更高、更容易让人类接受，只不过 VR 目前从体验到设备体积，都没有取代手机的优势。

所以最终不论是 VR、AR、或是 MR，谁能够让人类在同等条件下接受到更多的信息，调动更多的感官来接受，谁就能创造下一个时代。

相应的，届时整个内容产业也会因此作出调整，一定会有很多人涌入去做新的媒介平台。

大家都爱谈媒介升级，现实是做媒介联合可能更为恰当。

就像如今的短视频，并不一定都要去做平台，短视频作为一种媒介形式，可以作为原有的图文形式的补充，大众点评可以做美食类短视频，豆瓣可以做电影类的，爱奇艺可以做爱豆类的。

所以未来出现新的媒介形式的时候，考虑清楚这种媒介形式和自己现有业务的关系，可能比直接冲进这个战场重要的多。

除了 VR ，我们再向前迈一步，未来的信息接收的载体还可能出现哪些变化？

四、更多维度的感官参与

回到文章最初提到的：信息虽然烦扰纷杂，但人类接收信息的感官是相同的。眼、耳、鼻、口、皮肤为我们提供了：视觉、听觉、嗅觉、味觉、触觉。

而手机主要是围绕视觉、听觉展开的，触觉在手机中主要是一种完成执行的方式，用电容笔就可以替代。

到 VR 设备中，触觉开始有了部分接收信息的功能，特别是在游戏的体验提升了一个台阶。

也就是说：游戏借助 VR 的设备，有了更丰富的信息传递通道，可传递的信息密度也就更高，本质上提高了信息传递的效率。

所以未来的信息传递载体升级的方向，就是提升信息接收调动感官数量。在原有的视觉、听觉基础上增加味觉、嗅觉等。

味觉和嗅觉的增加貌似比较难，所以我猜测下一阶段的创新，更有可能出现在由皮肤接收信息的方向。

皮肤作为人身体最大的器官，能够提供的感觉至少有温觉、冷觉、湿觉、压觉、痛觉、触觉等六种感觉。

所以，接触到皮肤这一个器官，就能至少拥有六种不同的感知结果。

感官象限原有的二维坐标系中，每增加一种感觉，就意味着增加一个维度，变成三位、四维的坐标轴，当然这和空间的维度并非同一个概念。

更准确的说，这种感官维度的增加指的是，人类通过电子设备接收的信息，通过维度的不断增加，能够更加全面和立体地被感知，更加趋近于真实生活中接触信息的感受。

比如电影《头号玩家》里的主人公穿戴的 VR 设备，就覆盖了人的视觉、听觉、嗅觉、以及整个皮肤的各种感觉，整个场景创造出的真实感，让大部分人放弃了现实世界的生活。

到时候整个内容产品也依然可以按照感官象限的划分方法，去判断自己产品的位置或是选择合适的赛道。

五、人类信息接收的5个判断

人类文明发展万年，视频媒介传播百年，互联网产品出现数十年，未来媒介诞生在人们脑海里几载。从过去到未来，纵观全文，我一共作了5个判断：

1. 多感官接收信息要比单一感官有绝对优势，映射在当下就是：视频＞声音＞图像＞文字

2. 人天性是懒的，越贴近人类日常生活的图像、文字、声音，越易于人类理解和接受。即更愿意看直播或短视频。

3. 以目前手机设备为载体的情况下，进一步的提升可能出现在声音的3D化方面。

4. 未来能够替代手机的设备，一定有更高的信息传递效率，也就是能触达更多的感官，尽可能模拟现实生活中的场景。

5. 内容产业可以依据“感官象限”去判断自己所在领域的赛道大小，并且随着信息传递效率更高的新技术出现，相应的去加入新的战场或是对自己的产品进行补充与完善。

在人类信息接收的这件事上，我一方面观察历史是如何演进的，为什么会出现这些变化，另一方面也思考现阶段的解决方案中，还有哪些不足，未来还有哪些发展的空间。

希望以上内容对大家在思考不同媒介间的差异，以及内容产品的发展方向上能有些许的灵感和启发。

同样也希望，这篇文章在10年后翻出来，仍然能在其当下找到回应。

本文参考：

杜君立.现代的历程[M].上海三联书店.2016

尤瓦尔·赫拉利.人类简史[M].中信出版集团.2017

陈悦天：从 B 站，到过去两年的内容产业投资大复盘[EB／OL].

http://36kr.com/p/5126216.html

———— / END / ————

———— / 推荐阅读 / ————

拜产品大牛为师，线上线下陪伴式辅导

200+名企内推，学成即可入行

倒计时3天，点击“阅读原文”抢占最后名额

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！