【大数据专栏】大数据会让你失业吗?
本文来源于华夏商学院(huaxiashangxueyuan)
最近,小施参观了某新加坡银行的科技旗舰行,听这家银行的CEO谈数字化战略,不仅概叹,真正颠覆金融业的不是什么宝,而是大数据和人工智能。而且,他们很可能会跟人抢工作。
下面来说说小施的所见所得。这家银行在今年做了两件大事,一个是引入超级电脑系统Watson,将其应用于研究如何挖掘数据以及提供更精准、更符合客户需求的产品和服务;另一个是和一家新加坡的大数据研究公司合作,成立针对大数据的研究室。
很多人应该知道Watson,但我还是注释下吧。它是IBM公司研发的人工智能系统,因为在一个著名的美国智力问答节目上击败两位前冠军而名声大噪。Watson拥有的处理超大容量非结构化信息和准确回答问题的能力,让它在2012年就开始为华尔街“打工”,帮助某华尔街银行分析客户的需求、处理财务和客户数据。
Watson能做什么呢?它在颠覆传统金融业的做事方式。比如说,一家机构有一个150人的分析师团队,他们每天工作的第一件事就是分析有限的报告和信息,提出对当天不同市场交易的投资建议,然后将这些建议告知客户。而每秒可进行80万亿次运算的Watson可以即时阅读任何信息,它提供的不仅是4-5条交易建议,而是上千条,比如大豆行情看好、金属市场负面等。Watson还可以根据大数据分析了解每一个客户,他们买了什么,卖出了什么,喜欢什么或不喜欢什么,它能向每个客户提出更适合的建议。
还有一个应用实验:他们交给Watson系统100份保单,用了六周时间教它如何给出保险建议,如何询问年龄、几个孩子以及是否做长期保险等问题。两个月后,在一个小规模的实战中,他们发现Watson给出的保险建议比专业人员给出的建议更好,差距甚至达到4倍之多。在财富管理的其他业务上也是如此。
马云都说了:“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”现在,有必要了解一下大数据了。小施整理了一些资料,让我们看看大数据的核心是什么。
有这样一段话:社交网络,让我们越来越多地从数据中观察到人类社会的复杂行为模式。社交网络,为大数据提供了信息汇集、分析的第一手资料。从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,就是大数据的价值。那么大数据的核心价值到底是什么?
我们知道:
1. 第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
2. 第二次工业革命以石油为基础,内燃机和电信技术为标志,
3. 第三次工业革命以核能基础,互联网技术为标志,
4. 第四次工业革命以可再生能源为基础,_________为标志。
空白处你会填上什么?欢迎大家讨论。但是目前可以预测的是,数据和内容作为互联网的核心,不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿中发现暗藏的规律,就能够抢占先机,成为技术改革的标志。
一、大数据的应用
大数据挖掘商业价值的方法主要分为四种:
1. 客户群体细分,然后为每个群体量定制特别的服务。
2. 模拟现实环境,发掘新的需求同时提高投资的回报率。
3. 加强部门联系,提高整条管理链条和产业链条的效率。
4. 降低服务成本,发现隐藏线索进行产品和服务的创新。
·Mckinsey列出了Open Data时代里七大行业潜在的经济价值,自上而下分别是教育,运输,消费品、电力、石油与天然气、医疗护理、消费金融。
大数据的类型大致可分为三类:
1. 传统企业数据(Traditional enterprisedata):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
2. 机器和传感器数据(Machine-generated/sensordata):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digitalexhaust),交易数据等。
3. 社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。
从理论上来看:所有产业都会从大数据的发展中受益。但由于数据缺乏以及从业人员本身的原因,第一、第二产业的发展速度相对于第三产业来说会迟缓一些。
相对于第一产业和第二产业来说,第三产业凭借自身的优势,大多汇聚了当前最海量的数据以及大批的科研中坚力量。
接下来让我们直接看看大数据应用在第三产业的典型例子:
·健康与医疗:健身腕带可以收集有关我们走路或者慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与健康记录来改善我们的健康状况;某公司正在开发床垫监测传感器,自动监测和记录心脏速率、呼吸速率、运动和睡眠活动,该传感器收集的数据以无线方式被发送到智能手机和平板电脑进行进一步分析;美国公共卫生协会开发Flu Near You用来的症状,通过大数据分析生成报告显示用户所在地区的流感活动。
·视频:互联网电视能够追踪你正在看的内容,看了多长时间,甚至能够识别多少人坐在电视机前,来确定这个频道的流行度。Netflix 美国国内规模最大的商业视频流供应商,收集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司利用数据说服BBC重新翻拍了电视连结剧《纸牌屋》,而且成功的挖掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,确定新剧拍摄的最佳人选。
·交通:《车来了》通过分析公交车上GPS定位系统每天的位置和时间数据,结合时刻表预测出每一辆公交车的到站时间;WNYC开发的Transit Time NYC通过开源行程平台获取的数据将纽约市划分成2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或者输入地址就能知道地铁到达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不迟到!^^),通过记录每位用户在行驶过程中的实时数据例如行驶车速,所在位置等信息并进行数据汇总分析,而后计算出最佳线路,让用户能够避开拥堵。
·电子商务:Decide 是一家预测商品价格并为消费者提出购买时间建议的创业公司,通过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据进行分析,最终整合在一个页面中方便消费者对比查看,并且能够预测产品的价格趋势,帮助用户确定商品的最好购买时机。已经于2013年被 eBay收购。
·政治:奥巴马在总统竞选中使用大数据分析来收集选民的数据,让他可以专注于对他最感兴趣的选民,谷歌执行董事长Eric Schmidt当时向奥巴马的大数据分析团队投资数百万美元并聚拢核心成员成立了CivisAnalytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的经验应用到商业和非营利行业中。
·金融:ZestFinance是由是Google的前任 CIO,DouglasMerrill创立金融数据分析服务提供商,使用机器学习算法和大数据为放款者提供承保模式,旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。公司使用分析模型对每位信贷申请人的上万条原始信息数据进行分析,只需几秒时间便可以得出超过十万个行为指标。目前违约率比行业平均水平低 60%左右。
另外一个不得不提到的是风险管理先驱者FICO,通过大数据分析为银行和信用卡发卡机构、保险、医疗保健、政府和零售行业提供服务。FICO 信用分计算的基本思想是:把借款人过去的信用历史资料与数据库中的全体借款人的信用习惯相比较,检查借款人的发展趋势跟经常违约、随意透支、甚至申请破产等各种陷入财务困境的借款人的发展趋势是否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠诚度和盈利率、减少欺诈损失、管理信贷风险、满足监管与竞争要求并快速获取市场份额。
·电信:美国T-mobiles采用Informatica– The Data Integration Company平台开展大数据工作,通过集成数据综合分析客户流失的原因,根据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将流失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决定之前推出符合用户兴趣的业务防止用户流失。美国AT&T 公司将记录用户在Wifi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。比如当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券。英国BT – Broadband公司发布了新的安全数据分析服务AssureAnalytics—BT news releases,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策。
二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
1. 数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
2. 数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
3. 价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
4. 处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
三、大数据的价值
了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。
而大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。
举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。
随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。
· 如果银行能及时地了解风险,我们的经济将更加强大。
· 如果政府能够降低欺诈开支,我们的税收将更加合理。
· 如果医院能够更早发现疾病,我们的身体将更加健康。
· 如果电信公司能够降低成本,我们的话费将更加便宜。
· 如果交通动态天气能够掌握,我们的出行将更加方便。
·如果商场能够动态调整库存,我们的商品将更加实惠。
最终,我们都将从大数据分析中获益。
关于未来有一个重要的特征。每一次你看到了未来,它会跟着发生改变因为你看到了它,然后其它事也跟着一起改变了。数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。
欢迎大家加入科技杂谈菁英汇,交流思想、分享信息。仅限行业商端人士参与。参与方式:点击左下方“阅读原文”填写您的加入信息,科技杂谈通过审核后,会添加入群。
本文仅代表作者观点,科技杂谈授权刊登。
转载必须注明作者与科技杂谈,侵权必究。
科技杂谈文章,均同步发布于犀牛财经网。
已入驻搜狐新闻客户端,网易阅读客户端。