2015年你本不该错过的演讲|大数据·精华导览
关注笔记侠,回复“红包和邮件地址”,有机会抽到课件和音频,拼运气啦!赶快发给团伙一起跨年学习。各大平台转载务必联络微信号:kezhou20,违者必究
英特尔首席工程师吴甘沙:大数据是上帝智能
吴甘沙,英特尔中国研究院院长、英特尔首席工程师、大数据深度研究者
一、大数据之道
我认为把一件事情讲清楚,就要从这五个方面阐述:势、道、法、术、器。我今天主要从道、法、术三方面阐述大数据。
2010年,谷歌每两天产生的数据量相当于人类文明曙光到2013年数以万计的时间长河所产生的数据总和,数据产生了指数级增长,我们可以看下指数曲线当中有一个有趣的特征:一开始的进展是非常缓慢的,但是突然到了一个转折点后,就以爆炸式的方式发展,下一步的进步可以是前面所有步的总和。因此,我们说,任何一个时间点的进步都不会太晚,而不是说机会都被前人拿走了。
二、大数据为什么会产生指数级的增长?
因为摩尔定律,一旦一个事情可以形成规律,就可以有预测能力,就有自我实现能力;摩尔定义不仅仅是技术的规律,也是经济的规律,如果两年以后你生产的东西和今天的东西一模一样,你的营业额会下降一半,因此,这意味着你必须得不停地奔跑,光跑得快,还不够,还得“更快”。
人是大数据的第一推动力;我认为有三个特点:最小化信息不对称,消费者有选择权;交易成本趋向于零,消费者行为高频化,比如电商;覆盖长尾人群,更多消费者参与。
杰文斯悖论指出技术进步导致资源利用率的提升,进而导致价格降低,最终增加资源的使用量,形成正向反馈。
三、从大数据理论的层面理解:
第一,第四范式;
数据探索可能会超越实践、理论和模式,成为新的范式。未来大家会看到越来越多社会科学和大数据的结合,比如通过和社会学的结合,你会看到计算社会学。
第二,理论已死,数据方法论(经验主义)万岁?
我们如何获得理论呢?传统的科学方法是先大胆假设、小心求证,先建立一个模型,做实验,从实验中看到一个数据,然后看到更多数据,从而发现有些假设是不对的,同时又留下了一些假设,形成我们对于世界的理解。·牛顿的机械力学理论、爱因斯坦的相对论,再到量子力学,我们发现当我们采集的数据越多,越缺乏一个最简单的理论可以解释。当数据多到一个程度,理论已经是奢望,数据即是模型。大数据只能发现当下知识疆域里面隐藏的未知部分,你还是需要靠你的天才想象力和理性拓展新的知识疆域。
第三,大数据的结论具有或然性;
大数据顶多不过是一个消息比较灵通的算命先生而已,大数据获得的任何一个结论都是以概率的视角去审视的。下面我给大家介绍三本书:《黑天鹅》(论点:这个世界是不可预测的)、《爆发》(论点:人类行为是可预测的)、《随机漫步的傻瓜》(虽然世界不可以预测,但是可以找到其中的概率)。
四、大数据的特征
第一,大的量度;
现在说大数据,都是ZB(十万亿亿字节:1000,000,000GB)的概念。制造业总量非常大,但是平均每家公司很小,它有非结构化、颗粒度细、多维度、高活性四个特征。其实,大不如“杂”和“快”重要,当你数据增长的速度够快的话,都可以称之为大数据,它强调多元化和高速的流转。
第二,杂;
数据来源具有结构化、非结构化、多样性。一个人有没有思想,就在于他能不能从各个侧面找到信息之后,从彼此的关联中总结出规律。
第三,快;
数据跟新闻和金融行情一样,具有时效性,你比别人快,就占有了先机。反映“快”的一个属性就是数据活性,这是数据价值的另外一个重要维度。
五、大数据三大思维的思辨
1、要全集,不要采样
传统采样带来了一些好处,但是它有百分之几的误差,更会丢失黑天鹅的信号,所以要全集。大家一直形容大数据是一个矿山,但其实它是贫矿。更多的数据,就一定可以胜过采样吗?好的采样优于不均匀的大量。
2、要混杂,不要精确
拥抱混杂性,等于喜欢混杂性吗?否。数据失去辨识度、失去有效性,就该扔了。“少量高质量数据+复杂算法”被“大量低质量数据+简单算法”打败吗?未必。
3、要相关性,不要因果性
人容易快思考,根据一些表面的相关性得出一个结论。比如服用中药,被治好和中药的服用存在相关性,但是不是因果性?未必。西药如果治好了你,它会做大规模的、随机的对照,把治好病的相关因素都列出来,然后一个个排除,看最终是哪个药治好了你的病。因此,我们要防止伪因果性,有些伪因果性是弱向性。
六、大数据的价值变现方式
1、知著(见天地、见众生)
传统收视率的调查是通过打电话问询,现在是通过数据机顶盒。同样,我们可以在Twitter上预测股民的情绪指数,这是从定性向定量计算的。我们常说个体是理性的,群体是非理性的,但是通过大数据,可以看到非理性的轨迹。
2、见微(见自己)
人群可以从细分到微分再到个人,对个人的刻画已经从个性化变成个体化。作为消费者,我们也希望商户以个性化的方式来对待我们。
3、当下
当下的价值是提高时间效率,抓住先机,就是快鱼吃慢鱼的概念。
4、皆明
皆明是同时考虑过去、当下和未来。预测性分析是预料未来会发生什么,而处方性预测是希望未来发生什么,然后提前做一些事情让未来发生。比如预测东风会来,这是预测性分析,而草船借剑就是处方性分析。
5、辩讹(求真)
湖南发现有一个地方用电异常,后来发现竟然有人在偷偷制造枪支。
6、晓意
电影《魔球》里面,一位棒球经理利用数据分析找到被忽略的人才,然后把他们集合在一起获得了很好的成绩。数据分析的秘密是让球探去评估,这是传统数据分析没有办法响应的地方。
七、大数据的境界
1、量化
量化虽然不能带来直接的好处,但是量化相当于给你的企业加上仪表盘,相当于数据史观,完成日志化、无纸化、自动化、工具化、移动化、社交化。我们说我们创造了技术,其实技术也影响了人,我们通过数据的不断刻画,成了“数据人”,“数据人”也会对真实人的行为发生影响和改变。
2、效率
通过量化、洞察、行动这三步可以提高效率。因为数据有噪声、有欺骗性、不全面,这个时候你把它泛化成所有数据是有问题的。我们很容易受到相关“快思考”的诱惑,其实大数据只能做预测,不能预言,它能够告诉你的是概率。
3、个性
首先你要获得客户数据,不断对客户做画像,然后实现基于兴趣图谱、社交图谱、事件图谱的个性化和精准广告、推荐、促销,甚至完成交叉销售等。
4、创造(新产品和服务)
从营销的个性化到产品的个性化;从产品设计的人性化到产品设计的新奇性;产品的拟人化;从数据换取免费服务;利用前后“皆明”获取跨时空的价值。
5、生态
互联网一直强调生态是“应用+终端+平台”,形成真正的价值,它既是数据的提供者,也是数据的创意者,也可以进一步提供数据的基础设施服务,它可以丰富自己的生态系统。
未来,我们会基于云计算的开放生态,解决计算速度的问题,现在我们有一个愿景:2020年前,做完全基因检测序、锁定癌症相关基因,形成个性化治疗。注意,主义,生态是开放创新的温床。
《吴军:大数据不是让机器更聪明,而是接近智能》
Google科学家、硅谷风险投资人、原腾讯副总裁、《浪潮之巅》作者
一、从摩尔定律说起
50年来,摩尔定律已经改变了人们的很多生活方式,是一个浪潮,是持续的增长,它可以再走一段时间,但今年是转折点,接下来的30年还有个新机会:大数据。以前社会需求带动科技发展,现在科技先被造出来,你甚至不知道它干么用的,但是一旦它产生出来,就会产生社会需求。如果一个企业家在摩尔定律时代,却还是延续过去经济学教科书说的来做,就落伍了。因为有了摩尔定律,你尽管去做一件事情。
在农业时代,种田后会留一些种子,第二年接着用,这是过去的方法,今天中国的农村已经不留种子了,可以直接从种子公司购买。为什么种子公司可以研发出更好的种子?因为他们运用了IT技术。过去,我们理解的服务业是旅游、家政等等,今天不是,今天IT作为服务业,光在美国就有1万亿市场,中国的第一、第二产业也正在向第三产业转型,这个时候不是仅仅为它们简单的法律等服务,而是用IT输出。
不过,摩尔定律在经济学上有一个很大的问题:通缩。但问题出现的时候,常常就会出现一个解决方案。这个解决方案是:“安迪-比尔定律”(与摩尔定律、诺威格定律并称的IT产业三大定律。),即“安迪给你的时候,比尔就会全部拿走(“Andygives, Bill takes away.)”。安迪指英特尔前CEO安迪·格鲁夫,比尔指微软前任CEO比尔·盖茨,这句话的意思是,硬件提高的性能,很快被软件消耗掉了,这对IT产业中软件和硬件升级换代关系的一个概括。这是微软要和大家做对吗?不是的。微软在和英特尔一起打造了IT的产业链。
二、人们对机器智能认知的发展
到底什么算是机器智能呢?1950年,阿兰图灵提出了一个测试:“当计算机回答问题的时候,当你分不清给出答案的是人还是机器,这台机器就开始具备智能了。”图灵测试是以结果判定。那么怎么做呢?拆分条件:要能听懂,要会回答。
1972年发生一个事情:有一位教授从康奈尔大学离开,他做的一件事就是怎么让计算机聪明起来?他开始做了语音识别,语音识别和机器翻译是用数据驱动解决智能问题的最早范例。这位教他是基于数学研究通讯的,他认为语音交流的过程可以分解为:当你用语言把大脑中的概念表达出来(编码过程),然后通过空气传播(传输过程),然后你听到后进行理解(解码),这其实是一个通讯问题。
要解决这几个问题,第一要数据(为什么IBM能够做这件事情?因为它当时有超级计算机,有大量商业客户和数据),于是产生了“数据驱动”概念。运动这些数据就可以加以识别,从而实现了语音识别系统,最初的错误率30%,且只能解决100多个字,后来,经过升级,到22000字,误率从对30%降到10%,这就基本能看懂意思了。这给人们启发,原来不需要非得模拟人,还有另一条路可以走:数据驱动。
四、什么是大数据?
大数据三特征:数据量足够大、多维度、数据的完备性。数据维度非常多,维度一多,数据就相对非常稀疏,所以需要更大的数据量。数据的完备性很可怕,回顾1996年,卡斯帕罗夫大师第一盘棋战胜IBM深蓝计算机,但是后面几盘计算机嬴了,因为它具备了数据的完备性,它把卡斯帕罗夫过去的棋局数据都收集起来了,包括全世界其它高手的历史数据记录都收集了。我们现在正在把很多智能的问题变成大数据的问题。
五、大数据的关键技术
1、数据的收集(无目的性、非结构化)
数据采集很重要,它一定要无目的性和非结构化,在不知不觉中采集下来。
2、数据的存储
3、数据的表示、检索和随机访问
以前我们处理的数据:文本,很容易索引,数据量大了之后怎么检索,如图片、DNA片断?
4、数据的使用和挖掘
当你从沙子里能够挖出金子,这就是挑战,所以数据的使用和挖掘非常重要。有了数据,你才知道产品怎么改进。
5、其它挑战:安全、隐私
数据还有一个挑战,就是泄露,数据的安全和隐私不能丢和损坏,这些都是挑战,这不只是法律的问题。
六、机器智能的鼎足三立
计算机不是思考,它是算,所以它要有思维模型。机器智能未来是三足鼎立:摩尔定律、大数据和数学模型。大数据不是说让它比人更聪明,而是按照机器自己的方式解决问题。
七、如何看待大数据将带来的变化?
如果未来的世界,智能机器无所不在,大家可能会疑惑一个问题:这到底会是机器人的世界还是人的世界?
未来的社会,连高大上的职业都会受到机器智能的影响。在美国写一份好的专利报告,要收1万多美元,有时候为了打嬴一个专利,要花1亿美元,三星和苹果也打过专利官司,苹果和三星两家光为打官司这几年就花了几亿美元。后来有一个人做了一个用自然语言处理器,搜寻了所有类似的官司案例,最后只花了10万美元解决了问题。可以想象,这个技术未来也会让很多律师的职位受到威胁。
机器人是不会控制人类的,但是制造智能机器的公司和人,其实是通过机器来控制人。就某种程度,你是不是在被腾讯给控制了?它们是这个机器时代的受益人,其它人怎么办?要么加入他们,相信这个未来,成为2%的人,要么你沦为反对者,成为98%的人,被2%的人控制。
大数据给我们社会带来的影响不仅仅是产业的变化和生意,对人类也是非常有帮助。大数据的思维就是未来细到每一个人、商品、交易,可以全面性拥有数据。一个酒吧老板发现,有24%的酒是被偷喝掉的,后来他在每一个酒瓶下贴3毛钱成本的传感器,能够接收“酒倒了多少”、“什么时候被拿”等信息,通过手机或者平板电脑都知道,每一笔交易业都清清楚楚,这就是大数据时代和思维的特点。
最后我们总结下:摩尔定律带来IT的革命,互联网和摩尔定律带来大数据,大数据和摩尔定律导致机器智能,机器智能改变未来社会。要么成为这个时代的2%,要么成为这个时代的98%。
LinkedIn李玥:只有挖掘出金子,大数据才有商业价值
LinkedIn商业分析高级总监,曾就职于第一资本和Ebay,大数据宣传者和实践者
数据的收集、管理是非常基础性的工作,只是告诉你发生了什么事情,并没有商业回报,但是这一步没有走好,就不会发生后面的事情。当有了规模化的数据架构,从数据挖掘知识和信息,这个时候对商业回报的可能性有了进一步的增加,第三步是根据收集、整理、理解、分析的数据预测会发生什么,从而帮助业务部门,最后一步是为商业决策提供有力的洞察力,帮助业务部门做出最有用、最好的决定。这是一个进化的过程,不是一步就可以达到最理想的要求。
EOI是我们用大数据手段持续推动商业价值的方法,即助力empower、优化optimize、创新innovate。
1、助力empower
助力是我们团队的核心价值和任务,满足大家对数据最基本的需求,这个事情不是很好做,但要做好。然后用数据优化各个部门,提高效率和生产力,最后你一定要有冒险的精神,不断去尝试用最新的技术和方式帮助你创新地应用数据。
2、优化optimize
当你有了数据,如何优化呢?可以做一个倾向模型。LinkedIn有一个收费的高级订阅服务,在大众群体里面找出愿意增值付费的产品,找到有需求的群体。主要是三种数据类型:用户个体数据、用户行为数据、用户网络数据,这三个数据类型对绝大多数公司都用得上。物以类聚、人以群分,相关联的人在一个社群,关系会更强。
3、创新innovate
假如你是一个销售人员,B2B里面有一个拍板的人,他在决策中将起到重要作用,如何把这些人分析出来?我们做决策者指数和产品倾向模型建造个人兴趣指数,用这个整合的数据帮助销售团队决定要跟进哪家公司和哪个人员,从而花更多时间跟进优质客户以获得订单。根据兴趣指数看大客户,发现平均订单成功率会B2B企业会大大变好,帮助B2B企业极大地提高销售效率和生产力的提高。大客户兴趣指数是我们非常大的创新,也获得了专利。
如何让数据工作?从大到小,从繁到简,从慢到快。
第一,从大到小;
根据客户和用户想做的事情结合起来,帮助他们拿到想要的数据。
第二,从繁到简;
工作很复杂,但最后的呈现要简单。
第三,从慢到快。
数据即使做得再好,但是如果要等很长时间,用户也会失去耐心。
大数据的分析人才应该具备:技能5%、情商和智商15%、热情80%。
技能在招聘当中只占5%,因为技术发展实在太快了,情商和智商相比之下更重要,占15%,IQ显得很重要,学得快比懂得多重要得多,情商也是很重要的。因为要跟技术和商业部门交流很多,内部合作也很重要。除此之外,还要具备热情,认同团队的理念,对工作拥有真正的热情,这是招聘人员最核心的标准。
员工至少要共同认同我们团队的文化。我不可能每个人都盯得很近,但是每个进来的人我都会面试,他们每个人都要认同团队的文化。
第一,聘用聪明到不可思议的青年才俊,致力于数据分析驱动商业影响;
第二,团队第一,我们不需要以自我为中心的人;互相协作,充分利用我们作为一个集体团队支持公司各项业务的优势;
第三,一起在团队里工作过的永远是团队的一员;
第四,从公司至上的角度看问题,你是公司的最高决策人的话会怎么做;
第五,诚实守信是不可商榷的员工品质;
第六,偏重实干和快速解决问题,根据实际情况决定方法(商业直觉:需要的时候要有无与伦比的精确);
第七,总是寻求创造杠杆:让对业务的影响力10倍甚至100倍地增加。
同系列内容,点击
更多春节知识红包,点击
点击下面,还有惊喜
点击大咖名字,查看精彩笔记
李善友丨傅盛|余晨丨龚焱丨徐新丨 阎焱丨程维|张小龙|张一鸣|俞敏洪丨李丰|蔡文胜丨段永朝丨罗振宇|罗胖|罗振宇2|吴晓波|吴伯凡|宗毅|熊俊|吴声|秋叶|伊光旭丨李欣频|王东岳...
回复大咖名字,查看精彩笔记
KK丨克莱·舍基丨周鸿祎|张邦鑫丨季琦|刘德|雕爷|王信文|齐俊元|凯兹|赵迎光|行动派琦琦丨张怡筠......
互联网笔记合作伙伴
混沌研习社|创业邦|领英中国|36氪|中欧商业在线|中欧战略系|黑马会|复旦大学哲学课堂|李欣频私塾课|互联网大篷车|行动派|中关村国际创业节|福建省互联网年会|俺来也青春创业营|葡萄创投|碳九学社|广州创大....