其他
《吴军.信息论40讲》学习笔记(pdf,mp3)
面对不确定性世界的方法论,利用信息消除不确定性(香农) 信息时代的最大特征是不确定性
对一个未知系统所作出的估计和真实情况的偏离,构成信息损失,偏离越多损失越大 信息量和不确定性有关,大家都知道的事,就没有信息量 信息作用的大小和信息量有关
信息是我们世界固有的属性 世界上最关键的信息(知识)其实是非常简洁的,信息量与信息长度无关
发现未知规律:互信息理论 动态调整做事策略:足够多的数据可以帮助我们动态匹配最佳结果 精准服务:从重研究方法到重数据收集的转变 解决人工智能问题:利用数据(信息)消除不确定性
信息量的大小不在于长短,而在于开创多少新知 复杂交易背后通常都用到了信息的可度量性 充满可能性的系统(信息源),当中的不确定性(信息熵),“信息”是用来消除这些不确定性的,需要的“信息量”就等于黑盒子里的“信息熵” 信息可以衡量,但不是用重要性,而是用信息量,单位是“比特”(香农)
只要编码设计得足够巧妙,就可以找到最短编码(香农第一定律) 由于它们是等价的,因此一个编码系统解决不了的问题,换一个系统同样解决不了 各种编码系统,其实都是在编码复杂性和编码长度之间作平衡,它们在数学上是等价的 数字和文字,都是人类用来消除信息不确定性的编码手段
如何组合信息,保证它高效传递,还不违背第一条原则,需要我们主动思考 有效编码,就是让理论最佳值在应用中落地 采用大量用户反馈信息决定产品的设计和技术方案 信息编码的第二个基本原则——有效性 清晰表达的五个原则——明确、诚实、勇气、责任和同理心 信息编码的第一个基本原则——易辨识
风险投资的霍夫曼编码应用——分几部分逐步投入,每一次投资呈指数减少,而金额倍增,实现大部分资金集中到最优投资项目上 一条信息编码的长度和出现概率的对数成正比 针对信息组合的信息压缩,会产生更高压缩比 哈夫曼编码原理——MIT教授哈夫曼发明
象形文字和拼音文字的形成和进化代表了两种不同的信息编码方式 让问题变得简单,但会丢失信息,而平衡便利性和信息的完整性,就成为了艺术 信息的矢量化原理
善用“废话”侧面诠释想法,利用冗余便于理解 观点一致性,不要补充可能与主要思想相矛盾或无关的冗余信息 大脑存储信息要压缩,明确主线,过滤细节 信息冗余对沟通的应用 冗余度的问题:信息中混有噪音,过多没用的信息可能导致错误 冗余度的好处——易理解、消歧义、容错性 信息的冗余度——对信息“密集”和“稀疏”程度的描述:(信息的编码长度-一条信息的信息量)/信息的编码长度
善用等价信息,是这个时代必须掌握的工作技巧 信息压缩的基本原理:找到周期性信号的等价信息、对等价信息进行压缩、如果要使用原有信号,通过压缩后的等价信息复原原有信号
保守主义(总体原则不变,不断作微调)是由世界渐变的特征决定的 善用信息前后的相关性,对后面的信息做增量编码,达到大幅度压缩信息冗余的目的
没有标准答案和最佳答案,只是针对某个场景好的答案,一切都是妥协的结果 失真率与压缩比直接相关,压缩到哪种程度,通常看具体应用场景 信息的压缩分为有损和无损两种,有损压缩在复原后会出现一定程度的失真
信息处理的两个方法——一是不断叠加,二是不断删除 不同的信息要来自不同的信息源 避免反复使用相互嵌套或者相互包含的信息 看问题要刻意改变一下观察的角度,从不同角度看 如何找到正交的信息 在使用信息上,要选用彼此垂直的正交信息
高手用互信息工具进行预判,而言感觉 世界上大部分相关的信息未必有因果关系,它们之间只是一种动态的相互关联的关系 互信息:衡量两条信息之间相关性的新工具,寻找和利用强相关性
第一个发表意见,以及能够发表与众不同的意见,对提高自己的影响力至关重要 信息增益:定量衡量每一条信息价值的尺度 条件熵:概率分布的信息熵——大众已知的信息对投资和其他决策其实都没有意义
世界上有很多道理其实都很难验证,大到历史事件,由于很难多次重复,总结经验其实是非常难的 提高置信度的办法通常是增加所统计的样本数量 置信度:自己有多么确定这件事也量化地衡量
猜测和真实情况完全一致,将不损失任何东西,但只是不一致就会或多或少有损失 猜测和真实情况相差越大,损失越大 自大的人非常容易遗漏本应考虑的事情 过分防范各种情况,患得患失,也将存在损失 在信息论中,任何硬性的决定(全力以赴对赌)都要损失信息 库尔贝勒交叉熵:信息误判时的损失
以耸人听闻的信息刻意引起你注意——放在更大的时空来考量、看信息的一致性、抽取信息要看失真率 没有出处——信息溯源 缺乏上下文——对信息背景限定条件 误导人的信息有哪些特征及应对?
历史的细节是不准确的(而且无法准确),但历史的轮廓是可以看清楚的 信号和噪音的相伴存在的——现实中我们不能希望找到全是优点没有缺点的人 信号与噪音的能量叠加,具体到每一个信号点,其置信度是受到干扰的 理解信号和噪音的关系: 信噪比:信号和噪音的比例,决定了我们是否能够有效地获取信息
利用信息的冗余和比对过滤噪音——最可贵的意见不是所谓客观的而是真正反映自已想法的主观意见 换一个角度看问题——将有噪音的信息分解到不同的维度过滤噪音 如何去除噪音 能够找到噪音来源VS不清楚来源 有规律噪音VS随机噪音、固定频率噪音VS白噪音 噪音分类
信息的传播是有成本的,其成本就源于信道容量 某一范围内的无线电波,其所能承载的信息也是有限的 量化度量是重要的 信道与生活的关系: 信道容量:当信息传输所用的信道一旦固定,能承载的信息量是有限的,其决定了有效的传输率
在边界内做事情的重要性,如果先天信道容量不足,唯一的方法就是降低速度 香农第二定律:如果谁要试图超越信道容量传输信息,不论怎样编码,出错的概率都是100%(R≤C)
带宽是由通信双方的互信息决定的,这在人际交流中就是信任 拓展带宽是今天我们所有人都需要做的事情 扁平化管理是香农第二定律的应用,保证一定带宽内的沟通效率或者利用科技提高带宽 职级和部门之间的壁垒将人与人通信的带宽变得非常窄,信息传输率非常低
通过增加信息冗余,增强检验甚至纠正错误的能力 考虑到错误的必然存在,通过巧妙的信道编码保证有了错误能够自动纠错 在解决任何问题前,都要考虑世界的不完美和不确定性 不确定性是世界自然的属性,不要高估自己的仔细,以及自己通过努力做到最仔细后,能够达到的效果
如果想让人知道你的观点,就要明确表述 无法减少你传递信息的不确定性 密码的精髓在于,对方拿到你的密文,得不到额外的信息
单位能量的信息传输率越来越高 网络不断融合 设备的辐射越来越小 每一代都会有新的主导型公司:1G摩托罗拉;2G诺基亚;3G、4G苹果、谷歌和高通;5G是华为 移动通信的发展要点 一是对信息的发送和接收的描述 二是对信息编码的方式 通信标准的核心:
判断的标准是:能否以更少的能量传输来处理更多的信息 每一代互联网都有掌握产业链的龙头公司,未来是由掌握核心芯片、操作系统和通信标准公司占据龙头 第三代互联网是万物互联,会在联网设备、带宽及市场规模上有指数级增长
对世界的态度是,承认噪音的存在,争取在有噪音的情况下,准确传递信息
跨界的意义 不在于同时做很多不同的事情,而是从另一个领域回望所在领域的问题 交叉验证中,垂直正交信息的组合最有效,因为共同作用能最大程度降低信息熵 大数据的重点不在于数据的体量大,而是数据的多维度 交叉验证:生活中绝大部分时候,一个维度的信息很难消除所有不确定性,解决这个问题的最好办法,不是把那个维度的信息搞得更准确,而是用其他维度的信息进行交叉验证
等价信息和相关信息不同,后者的要求宽松得多,但是可靠性也差很多 很多时候 无法直接获取某种信息,可使用等价信息解决问题的方法
有数据、有技术、有应用场景(腾讯、阿里巴巴、今日头条等) 有数据、无技术(移动通讯运营商、银行、零售业等)—需要专业人士 缺乏数据、有技术(数据公司等)—可为第二类企业解决实际问题 大数据时代受益的三类企业: 消除数据间矛盾,亦需要领域知识 在特定应用场景还需要具有实时性 大数据的特征:数据量大、多维度(最好正交)、数据完备性(不是抽样)
第一层:从大量、混乱的数据中总结出相关性 第二层:不事先作假定,从大数据出发得到结论,再分析原因 第三层:利用大数据准确把控宏观规律的同时,精确到每一个细节 第四层:通过几个维度的强相关性,替代过去的因果关系 大数据思维是一种全新的思维方式和做事情的方法
使用正交、可叠加信息的作用(如FACKBOOK) 用信息熵来定量衡量个性化服务,但通常喜好上的差异程度比我们通常想的要小很多 GOOGLE的广告系统利用的是用户主动输入的信息,它最为有效
通识教育的重要性:避免思维习惯带来的盲点 幸存者偏差:要不断淘汰不好的项目,在生活中要止损,将利益最大化
奥卡姆剃刀法则的应用——做减法、不要制造伪需求、可提高判断力(找到基函数) 世界本身的规律在形式上并不复杂 过于复杂的描述常常是骗局 奥卡姆剃刀法则有实践验证 奥卡姆剃刀法则有科学依据——找到这个领域支撑点的关键信息 简洁的往往是正确的,越是复杂,越容易犯错
光滑——不会遇到黑天鹅事件,方方面面都考虑得很周全 不要把鸡蛋放在一个篮子里 一个“光滑”的模型,可以让预测的风险最小 最大熵原理:当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知条件,而对未知的情况不要作任何主观假设
对于个人而言,引入负熵的方法是:行万里路、读万卷书 一种是直接与外界进行人的交换(能量熵) 另一种是接受外面新的思想(信息熵) 任何一个封闭系统都是越变越无序,要想变得有序,就要引入“负熵”,即能量和信息
需要知道如何把自己领域中的问题,描述成一个信息处理的问题
要做变色龙(不断应对环境变化作出调整) 不要做恐龙(架子大,很唬人,但适应性差) 控制论三要点:突破牛顿绝对时间观、系统与外界环境刺激有相互影响、通过反馈回路实现自我调节
发展:空间上作整体考虑,时间要还要考虑影响力,最终决策 科学:分析问题要遵循科学方法,而非简单的经验,方可获得可重复成功 综合:参考IPHONE的方法论 整体:任何局部改进,需要放回到整体中去考察
往期推荐