查看原文
其他

【实践】信息的本质|信息的编码 - flomo river No.4

写flomo的 flomo 2021-04-26

🌱 春节期间抽空读了几本关于信息的书,包括《信息简史》、《香农传》、《信息论40讲-吴军》、《产品沉思录-信息管理》,把有启示的部分汇总整理如下,✍️ 表示是我自己的感想。

整体脉络图如下,是把阅读过程中对我有所启示的部分,按照自己的理解,重新组装而来。挑选其中部分内容和大家分享。

📖 先推荐一下《信息简史》这本书。

吴军:这本书与其说是一部科技史书,不如说总结了一种世界观,即信息是宇宙固有的组成部分,就和力、运动等概念一样。而世界上几乎任何事物都可以用信息的方式量化,或者说就是“万物皆比特”。
✍️ 世界的组成:信息、物质、能量。
张小龙:虽然生活在信息时代,但大部分人并不知道“信息是什么”。这本书可以让人多一个视角来看待和理解世界,即“信息视角”。
✍️ 信息视角:从信息的角度,来看 声音、语言、文字、物理(熵)、生物(基因)、电、数学(概率论)...
推荐阅读:第1章、第11章、第14章、第15章

🌱 信息是不确定性,是出人意料,是困难程度,是熵。宇宙是一部巨大的量子计算机,其存在本身便是记录着信息,并在自身演化过程中,不断处理着信息。via《信息简史》
✍️那么人的一生呢?也是在不断丰富自己的信息。这一点,结合信息的进化来看,用常见的词来描述,就是 <成长>、<迭代>。

🌱 信息时代的不确定性 by 吴军
信息时代的最大特征是不确定性。
牛顿等科学家告诉世人,我们所处的宇宙是连续变化的,而各种变化的规律是确定的。从近代开始,年轻人在大学里学的,都是那些放之四海而皆准的规律,以及如何使用规律的方法,在随后的人生中,他们只要灵活应用,就能成为社会精英。
自从20世纪之后,当确定性的规律被人类认识得差不多了之后,世界本身所固有的不确定性,给大家带来的麻烦就越来越凸显出来了。
牛顿时代大家看到的变化是连续的,而今天经历的常常是非连续的,或者说是跳跃性的变化。不确定性加上跳跃式变化,才让大家感到格外焦虑。但是进入到20世纪后,我们无法再回避这个问题了。而近代科学的发展,又给人类掌握有关不确定性的规律提供了钥匙,这就如同300多年前牛顿等人找到了通过确定性消除无知的方法一样。
那对付不确定性的方法是什么呢?20世纪初概率论和统计学的成熟,使人们得以把握随机性。在此基础上,1948年,香农博士找到了不确定性和信息的关系,从此为人类找到了面对不确定性世界时的方法论,也就是利用信息消除不确定性。

🌱 信息时代的三种能力 by 吴军
1、信息提炼:在面对大量信息时,排除噪音,提取利用有效信息,科学做决策的能力;
2、信息传播:向外界传递信息时,平衡分配有限资源,增加沟通带宽,放大影响力的能力;
3、信息应用:看懂信息应用的逻辑和通信发展的趋势,提前抓住新机遇的能力。
✍️这3种能力,难能、所以可贵。也是我们在学习用信息视角看待世界时,所要提醒自己的,“信息视角”如何能为我所用?
以上2点,均来自于吴军在得到中的《信息论40讲》导论。

🌱 香农是谁?
1948年,美国数学家克劳德·香农发表论文《通信的数学理论》(A Mathematical Theory of Communication),奠定了信息论的基础。
信息学界设了一个最高奖,就叫香农奖,相当于基础科学界的诺贝尔奖和计算机学界的图灵奖。
按照吴军的归纳,香农至少在以下方面为信息技术演进指明了方向:
第一,任何信息可以被重新转化为一种符号编码
第二,信息压缩有其极限,即不能小于它的信息熵;
第三,增加信道容量有两个途径,它们是分别增加带宽和信噪比;
第四,提出“比特”是信息的基础单位。
✍️ 这四点提炼了核心,可以在了解完详细信息后,回过头来看,会有更加丰富的感受。
吴军的套路与《信息传》的真义
以上,是一些背景信息。



🌱 via 《香农传》介绍
信息的本质是什么?是消除不确定性。
我向你发出一条信息,这条信息究竟有多大的信息量,在于它能帮助你消除多少不确定性。
既然信息是消除不确定性,那么信息最基本的单位,就应该是一个最基本、最简单的不确定性消除过程。就像是告诉你,抛一次硬币的结果,到底是正面朝上,还是反面朝上。
于是,香农找到了二进制数字。我们都知道,二进制的数字要么是1,要么是0,那么,传送一个二进制数字给你,就相当于完成了一次二选一,实现了一次最基本的不确定性消除过程。
这样一个包含两种可能的二进制数字,也就成了度量信息的基本单位,香农把它叫做比特,也就是bit。1个比特的信息量,就是1个二进制数字所代表的信息量。8个比特称为一个字节,也可以用一个大写的字母 B 来代替。我们都很熟悉的,用来表示电脑文件大小、内存硬盘容量的MB、GB、TB,其实都是在比特基础上形成的单位。
不管是语言还是图像,信息从发送者那里出来,先通过编码,编成一连串0和1构成的二进制数字,完成数字传输,再通过解码过程,重新变回原来的形态,被接收者收到,这就是我们熟悉的数字通讯

🌱 via《信息简史》
维纳用熵来度量无序程度,而香农用熵度量的则是不确定性
不过,正如他们所意识到的,两者从根本上说是一回事。一个书面英语样本中的内在有序性越强(有序性表现为为语言使用者有意识或下意识所知悉的统计特征),其可预测性也就越高,换用香农的话来说,也就是后续字母所传递的信息量越少。如果受试者对下一个字母是什么信心十足,那么这个字母就是冗余的,它的出现没有贡献新的信息。信息是出人意料。
讯息越有规律,就越可预测;越可预测,就越冗余;越冗余,含有的信息就越少。这样看来,随机程度如何与含有多少信息其实是同一个问题。它们的答案也是同一个。但我们为什么说π不是随机的呢?蔡廷给出了一个明确的回答:一个数只要是可计算的,即它能够被一个可定义的计算机程序生成,那它就不是随机的。因此,可计算性是随机性的一种量度。
✍🏻信息越有规律,含有的信息量越少

🌱 by 吴军
我们把充满不确定性的黑盒子就叫做“信息源”,它里面的不确定性叫做“信息熵”,而“信息”就是用来消除这些不确定性的(信息熵),所以搞清楚黑盒子里是怎么一回事,需要的“信息量”就等于黑盒子里的“信息熵”。
同一条信息使用一万遍,只有第一次会产生结果,后面都不会产生结果。由于这个“裙摆指数”假说已经存在了上百年,大家早就知道了,即使再有道理,一个人尽皆知的消息也没有用。

🌱 via《信息简史》
从数学来看,信息是字符集内字符的有序(有意义编码)或无序(随机加密编码)组合。
DNA是信息分子的典型代表,是细胞层次上最先进的讯息处理器——它是一份字母表、一种编码,用60亿比特的信息定义了一个人。
✍️人类是基因的容器。via 《自私的基因》


🌱 by 吴军
香农第一定律:编码长度 ≥ 信息熵(信息量)/ 每一个码的信息量
只要编码设计得足够巧妙,上面的等号是成立的。如何将编码设计的足够短?
哈夫曼编码原则:从本质上讲,是将最宝贵的资源(最短的编码)给出现概率最大的信息。资源分配的原则是,信息编码的长度和出现概率的对数成正比。
✍️ 具体例子说明可参见这篇文章:信息论入门教程
✍️管理的本质,把最多的、最好的资源投入在最重要的事情上。
美国有名的私立学校哈克学校的前校长尼克诺夫博士讲,在孩子小时候,要让他们尝试各种兴趣爱好,但是最终他们要在一个点上实现突破,他将这比做用圆规画圆,一方面有一个扎得很深的中心,另一方面有足够广的很浅的覆盖面。
✍️以前只听说过T型人才,还是第一次看到圆规型人才,都是差不多意思。不过感觉圆嘛,更美一些。

🌱 矢量化(结构化/原子化) by 吴军
绝大多数汉字被映射到两个维度上,即一个表意的偏旁维度和一个提示读音的发音维度,有些时候,提示读音的维度本身也表意。再往后,表达含义的偏旁已经和原来的图画不太像了。而这些偏旁就构成了文字的基本单元,而且慢慢固定下来了。
在欧洲的拼音文字中,虽然没有表达意思的偏旁部首,但是有很多词根,前缀和后缀起到了表达意思的作用,也就是说这些语言实际上将表达信息的基本单元(单词)用一个词根、前缀后缀这样三维的矢量表示了。
✍️ 文字的基本单元。中文是偏旁,再细分是笔画;英文是词根、前缀、后缀。
此外,矢量化在生活中也有应用,比如我们通过高考成绩录取大学生,或者通过身高选拔篮球运动员,其实就是利用矢量化的原理,只不过是将所有的人映射到了一维的空间中。
✍️ 打标签也是矢量化的一种。矢量化,解构到最小单元,通过最小单元的组装,形成不同的集合。组件库也是一种应用,有了组件库,我们只需要拖动、组合不同的组件,即可绘制页面。同理,或许也可称之为“结构化”,都是将信息解构到最小单元,以便适应多种不同的应用场景。
✍️对文字进行解构,获得编码(最小单元)。那如果对文章进行解构,最小单元是什么?词语?句子?我们在做结构化标注的时候,有2种打标方式,分词、分句。1、划出词语,词语之间添加关系(形成主谓宾)。如果不进行【关系】,是表达不出完整含义的。2、句子标注。可以是一句、或者几句话(段落),标注这几句话是什么意思。
✍️ 信息拆越小,组装的灵活度更高,组装可能性更多;任务拆解越细,推动的摩擦力更小,积累的惯性势能越大;做事越细,越能做成一件事情。

🌱 via 《信息简史》微信读书评论
信息有很多种编码方式,如果想解码信息同样也对应的有很多种解码方式,高效传递信息就是需要在相同的编解码方式中进行,否则就需要不断来回地的对齐,所以团队中为了高效的进行信息的传递,需要在字母和图形基础之上的编解码方式进行统一?
✍🏻 行业黑话。把大量信息压缩在黑话里,这样传达的时候,用一个词就能传递一整块信息。

🌱 信息的全面性
via《信息简史》第二章 持久的文字(心智中并无词典)
乔纳森·米勒以信息学的准技术术语把麦克卢汉的论点重新表述了一番:“传播方式涉及感官的数目越多,利用副本可靠地传输发送者的思想状态的可能性就越大。
听觉空间是有机的、综合的,通过所有感官的同步互动才能感受到;而‘理性空间’或图文空间则是单一的、序列化的、连续的,它制造的是一个封闭世界,其中缺失了部落时代的回音世界里那种丰富的回声。
✍🏻信息的维度越多,就越能从多个方面,共同还原出表达者的意图。比如语音相对于文字,有语气、音调,这些会影响到一句话的意思。但同时,却也丢失了效率。
✍️信息的载体不同,所面向的目标人群、消费的场景也不同。以微博和公众号为例的图文,以抖音、快手为例的短视频,以爱奇艺、B站为例的长视频、以小宇宙、喜马拉雅为例的音频。

🌱 by 吴军
看似来源不同的信息,它们在消除不确定性时,作用有可能重叠。那么什么时候不重叠呢?当信息是垂直的时候,也叫做正交的时候。
在多种信息源中,如何选取几种最重要而且彼此尽可能正交的信息呢?在信息处理中常常有两个方法,一个是不断叠加,另一个是不断删除
✍️ 信息的正交、信息的全面性。不同的来源、多个维度、交叉重复性小的信息组合在一起。不断叠加、不断删除。同理对应到,先不断突破固有边界,百尺竿头更进一步,然后再不断精简、聚焦,守好自己的边界。也对应到,先把书读厚、再把书读薄。

🌱 避免反复使用相互嵌套或者相互包含的信息,即使它们来自不同的来源,因为那些信息即便不完全相同,但是可能一个覆盖了另一个,或者相似性太高。
很多人申请工作,简历中提供的都是相互覆盖的信息。比如最重要的两段工作经验本身已经证明专业能力了,还罗列了一大堆无关紧要的工作经历,以及可有可无的专业证书。这些对别人了解自己不会有更多的帮助。
✍️没有提供更多的信息量
最后一个原则,看问题要刻意改变一下观察的角度,从几个不同的角度看。
✍️ 夹竹桃的故事。兼听则明,偏听则暗。

🌱 误导人的信息的第一个特征,那就是耸人听闻,对付这类信息,我给了你三个办法,分别是放到更大的时空里判断,看信息的一致性,以及看看是否刻意过滤了大背景的低频信息提高了信息失真率。
✍️ 1、从时间线、空间线上,横纵向地看,比如看前后十年、看不同国家 2、标题和内容的一致性,段落和全文的一致性,不要断章取义 3、关注隐藏的背景信息。不过要能意识到有背景信息被隐藏,需要提前有一个框架;同时,背景信息的获取成本可能较高,此时关注同行评议也是一种方法,借助行业关键人的评论来拓宽信息获取维度。

🌱 by Lachel
1)一切事物在底层上都是互相联系的;2)整体能提供比个体本身更多的信息。
我们永远不能孤立地去考虑问题和事物,而应该不断地追问自己:
- 它的背景和场景是什么?
- 它为什么会出现?
- 它的出现带来了什么、导致了什么?
把我们研究的对象本身,通过深入挖掘底层,不断地建立联系,来将它跟我们已知的系统、体系,联系起来,从整体的角度去看待问题。单单局限在一个领域里面还不够,你可能还要学会跨领域,把不同的知识点联系起来,才能更好地去理解和消化它们。

🌱 信息的冗余度
via《信息简史》第一章非洲的鼓
虽然听者听到的只是断断续续、有高有低的鼓点,但实际上他们也“听到了”那些缺失的辅音和元音。而且他们听到的是整个短语,而非单个的单词
✍️ 上下文,是在塑造语言的环境,以便于更精准的表达涵义。一方面,要保留上下文,提供背景信息;一方面,要提升信息传递的效率。这二者如何平衡?

🌱 via《信息简史》第七章信息论
在日常语言中,冗余可以辅助理解。可在密码分析中,冗余就是密码的阿喀琉斯之踵。英语的冗余度大约是百分之五十。
✍🏻一定的冗余,提供了上下文,能够帮助消岐。但对密码来说,冗余会导致复杂度上升,对编码、传输、解码、存储都带来不便。

🌱 by 吴军
冗余度:(信息的编码长度 - 一条信息的信息量)/ 信息的编码长度
冗余度的好处:1、便于理解 2、消除歧义 3、提高容错性
冗余的坏处:1、信息存储和传递效率降低 2、信噪比增大
✍️ 和信息冗余对应的,是信息的压缩。这一点,放在<信息处理>当中。

🌱 by 王建硕
用专业语言表达,用通用语言沟通
专业语言,也就是常说的黑话,也是“概念”,是一串信息的压缩,目的是在既定范围中进行高效率、准确的表达。通用语言,面向大众,需要更加通俗化。
我们为什么要多学点词汇?
“所以,我们应该努力建造自己的词汇系统来表达,而和很多人沟通的时候,尽量把自己限制在一个通用的范畴里面。” 
http://home.wangjianshuo.com/cn/category/aeec_hidden

🌱 by 少楠
丁香医生平台曾经全部是三甲医院的医生,几乎每个医生都有这个标签。后来交互设计师认为既然大家都有,就没必要存在,属于冗余信息。但实际上一旦去掉这些信息,用户不知道你是哪个医院的。
要让用户成交,应该尽量把这些信息抛出来。比如这个医院是百强医院,这个医生是教授,这个平台的审核很专业。当这些东西没有的时候,用户就很困惑。因为平台给的信息不够,不足以让用户判断。
✍🏻冗余应该站在什么角度来判断?一个平台上,大家都有这个属性,信息就是多余的吗?那要看信息的使用者是谁。对用户来说,他不止看到这个平台,也看到其他平台,对他来说信息源更多,医院属性能够帮助消除一些不确定性。



以上,感谢阅读。内容一定不够完善,如果有信息补充,欢迎留言😉
ps:《信息简史》可在微信读书中阅读;阅读和整理的工具,是flomo和craft。点击 < 阅读原文 > ,可获取flomo的注册链接。
>>flomo
>>craft

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存