大数据听着很牛,实际上也很牛吗?来自知乎的高赞回答如下
1,353 人赞同了该回答
建议来百度基础架构部分布式计算组实习下~
--------------------------------举个例子吧---------------------------
我有20个整数,一把全装进内存,调用个sort,完事了。
我有2GB那么多的整数,一把全装进内存……恩恩,如果机器不那么破,勉强也完事吧。
我有20GB那么多的整数,对,往你家PC里多插几条8GB的内存条试试?
那我现在有200GB那么多的整数……看你丫的怎么装内存,哈哈哈哈哈哈!
吓尿了吧!?写外排序?你写啊!It's ONLY the beginning!很多人可是连内存里的快排都写不出的哦~
200GB算个啥大数据啊,苍老师的合集都不止咳咳……
OK,显然我们已经意识到1台机器装不下了。咋办?多找几台机器呗。多找几台机器意味着啥啊?分布式计算懂不懂,连分布式都不懂说个毛大数据啊!!!
好,现在有200GB的整数,排个序吧……呃,给你10台机器吧。
1)这200GB的整数,如何分配?
2)这10台机器之间如何通讯?没错,我不止坑了你去写外排序,我还得坑你去玩网络编程。
3)假设每一台机器上的数据都已经完全排好,如何多快好省地把各自排序好的结果merge在一起?
4)如何设计有效的merge逻辑减少10台机器之间的网络IO。
5)别以为10台机器不需要维护,万一在排序的时候其中一台机器挂了,怎么办?具体包括但不限于:他在挂之前有响应其他机器发给他的request吗?他在挂之前自身的任务完成了多少了?假设这台机器在挂的时候正在跟隔壁的机器互相传输数据肿么办?
6)谁去监听这10台机器的健康?或者是其他机器怎么知道某台机器挂了?如果是连接超时,怎么知道是网络阻塞还是目标机真的挂了?
7)如果某台机器真的挂了无法恢复,又或者由于隔壁的黄大牛要打魔兽了劫走了一台(集群升级,集群中的节点被临时撤走的事常有哦),如何把那台机器上那20GB的数据分给其余的9台?
如果数据不是200GB,而是2TB,2PB……
1)这么大的数据,这么大的集群,同一时间挂掉的机器数量可能会很多。如果这个集群用来做存储(例如百度云),怎么保证用户的数据不丢失?
2)如果这个集群用来做离线计算,怎么设计调度程序提高每台机器的资源利用率,减少集群内的网络IO和尽可能地提高每台机器的响应速度?
3)我希望集群是可扩展的,最好架构能支持我只要简单地增加机器数目就能扩充集群的计算和存储能力,这个架构要怎么设计?
建议题主有空去了解下mapreduce,hadoop,yarn,mpi,vfs等等内容。
传统行业的数据,收集和分析慢,互联网时代特别是移动互联网时代,数据收集和分析都变得更快更智能,仅此而已吧。
只所以题主会这么说,是因为题主作为局外人,能看到的就只有这些表面的最直观的现象。一句简单的“数据分析变得智能了更快了”的背后,实际上是无数人付出的勤奋、创造力、勇敢还有艰辛!
发布于 2014-08-04
作者:史中
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
透过人们生活的巨变,也许能找到答案。
2014年,中国突然平地惊雷掀起了打车大战。
很快局势明朗,阿里支持的快的打车,腾讯支持的滴滴打车,还有百度支持的 Uber 中国,三足鼎立,烧钱连眼睛都不眨。
混战的结局是:滴滴胜出,三家归晋,但是血液里留存了 BAT 三家的“骨血”,甚至还掺和了苹果、软银、中投、中国人寿、中信证券,简直是八国联军。
巨头们为什么一扔就是几十亿,投资一家打车的公司?
还能因为什么。因为数据。
过去的互联网巨头,所有的数据都是线上数据——和人的空间位置无关,只靠大脑就能给出的数据。
滴滴给出的数据,却是人的空间行动轨迹。第一次,物理世界的大门就这样敞开给各位巨头,这太新鲜,太诱人了。
时至今日,滴滴所能掌握的数据,都是全国独一无二的。
说到这里,还得提到另一个隐形巨人,美团。
中哥毫不掩饰对于美团的看好。我曾经写过《野兽美团》,就是在分析美团刻画物理世界的能力。
美团外卖小哥的手机,每隔几秒就会向总部发回信号。通过这些数据探针,美团可以实时掌握各个饭店、便利店的精确到五米的位置,实时知道哪段路临时限行,知道各个小区的大门的开关情况,甚至知道今天12:30某大厦的一部电梯从1楼上到14楼所需等待的时间。
美团的手背在身后,趁你不备就给你插一根新的探针。
美团合并大众点评,插了一根你去饭店的轨迹探针。
美团做团购,插了一根你看电影、洗脚、唱K等等娱乐轨迹的探针。
美团酒店预定,插了一根你开房的轨迹探针。
美团收购摩拜,插了一根你短途出行轨迹的探针。
美团也曾经觊觎滴滴的打车业务和背后的数据,推出了美团打车,但是说这一役成功恐怕为时尚早。
物理世界的数据虽然如此珍贵,但从目前的情况来看,滴滴和美团都没有做很大的动作来把物理世界的数据变现,这是为啥?并不是因为他们不想,而是在现有的技术条件下,对物理世界数据的变现成本太大。
时机未到,让子弹飞一会儿。
他们在等待几个技术突破,其中最重要的那个,叫做 5G。
一旦 5G 技术大规模商用,物理世界的数据就会变得精确而且便宜,就像 AV 画质一下子跃升到了高清8K。
到那时,互联网的洪水就会冲破物理世界的堤坝。也许你在街上每走一步,都能看到身边屏幕上显示不同的广告;手机里会给你推送五米开外的店铺的优惠信息;你口渴,星巴克就在你前方召唤,你心情不好,立刻甜品送到你手上。
滴滴和美团,都有巨头持股。而 BAT 们自己的数据探针野心,也昭然若揭。
很少有人记得,2018年,阿里巴巴曾经在“电商”、“金融”、“云计算”、“物流”这四大赛道旁边,郑重地建立了第五条赛道。
这条赛道就叫“IoT”。
IoT 的中文译名是“物联网”。很明显,这就是冲着刻画现实世界去的。其实在阿里巴巴旗下,已经孵化了一个非常厉害的面向个人的 IoT 设备——天猫精灵。
2020年,天猫精灵升级为独立的事业部,由阿里云 IoT 事业部负责人库伟领导,这个意思就已经很明确了。阿里巴巴把有关 IoT 最强的弹药都组合到一起,准备干票大的。
这货是天猫精灵太空蛋,在酒店里提供特殊服务的
而且,阿里旗下还有一个“隐形大咖”菜鸟网络。估计很多人都是从前两年家门口的快递柜开始认识它的,但其实菜鸟成立很早,而且掌握着大半个中国的物流数据。菜鸟同样有 IoT 战略,但技术主要是偏向设备本身的数据探针(不是人),不是本文重点。
这是菜鸟的无人仓机器人
同样不可忽视的还有百度。
从2019年底到2020年初,百度的股价已经上涨了40%左右。百度早就不是那个在很多人心里只会玩竞价排名的百度了。他们手里有很多惊险刺激的玩意儿。
我举两个例子:
1)小度音箱
就是那个摆在客厅和你对话的音箱。2019年,小度的出货量已经上千万台,在阿里巴巴天猫精灵和小米小爱同学的夹缝中杀出一条血路。
从本质上来看,小度是下一代搜索的入口。也就是说,随着人工智能技术进步,未来你可以用语音搜索来代替打字搜索。在“搜索”这个探针上,百度是有预判的。
但这远不是百度的终极野心。
你要知道,小度音箱里面安装的是“小度助手”,而小度助手是智能设备的操作系统,而特定的智能设备是霸占和PC、手机完全不同的物理空间的。例如,一般人现在会把小度音箱放在客厅,还有一些智能冰箱是在厨房,百度还和吉利等很多车厂合作把小度助手装进了汽车里。
在特定的场域里,人会产生特定的需求。这个探针,绝对和百度搜索不同。
举个例子:
电视上不是经常有公益广告,说家人虽然都坐在客厅,但是各自抱着手机么。从本质上来说,并不是人们有多爱手机,而是因为没有适合客厅的内容和活动。
只要有人在小度生态上开发一些家庭运动 App 或者家庭游戏应用,这个在过去十几年被抑制的需求一定会爆发。
而据我所知,小度的生态有四名万开发者,这件事情正在发生。
小度智能屏
2)自动驾驶
自动驾驶是一个比想象中更长的赛道。
我其实都没有信心,百度到底能不能把这个马拉松坚持跑完。首先,自动驾驶要克服的技术困难太大,甚至现有的技术路线都不一定走得通。其次,政策风险很大,自动驾驶事故的责任认定,已经涉及到了人类的伦理讨论。
但我还是相信,终有一天自动驾驶会突破技术和政策的障碍,无人驾驶汽车布满道路,这将会再造一个道路上的物理互联网。
人们在自动驾驶汽车上,注意力被解放,于是这段大脑空闲可以被插入新的探针。当然,此乃后话。
自动驾驶汽车“阿波龙”
人工智能、自动驾驶,一个个词汇看起来很美妙,但是命运馈赠的礼物,早已在暗中标好了价格。
我们身上的“探针”越来越多,越来越密,我们的隐私就会越来越少。
我们的隐私越来越少,我们和母体作为一个整体的力量就越来越大。
注意!注意!注意!这里所说的隐私变少,并不是人和人之间的隐私变少,而是人和机器之间的隐私变少。
从目前的技术发展方向来看,每个人只是对母体单向透明,人类之间并不会分享隐私。
人和人就像小狗见面一样,只是相互嗅嗅,一起玩耍,然后道别。每只狗狗只对自己的主人敞开一切。
大数据让你只把自己最隐秘的一面透漏给么的感情的机器。这样,人类仍然是以前的那个人类,道德没有被颠覆。
当然,窥私欲是人的天性。虽然初衷是只给机器看数据,但总会有人类试图进入机器,盗走价值巨大的他人隐私。所以在未来,数据安全就会成为一个巨大的产业。据我所知,巨头们的安全部门,目前全都把“数据安全”作为头等大事。
但是不管怎么说,刚才所讨论的数据都逃脱不掉一个天然的道德困境,那就是:你大公司拿我的数据,从我身上攫取了利益。(虽然谁都知道,没有利益就不可能有商业的繁荣。)
数据天生带有原罪。
真的是这样吗?
恐怕不完全是。有时候大多数人会心甘情愿千里送数据给大公司——如果数据可以换来健康。
人的内脏就像是不喜欢给CEO添麻烦的部门经理。
只要脏器没有抛锚,一般是不会把问题呈报给神经系统和大脑的。这也是为什么人只有通过体检才能发现很多早期疾病。
从另一个角度理解,人的大脑在脏器里是没有“探针”的,也就拿不到它们的实时工作数据。
人没有进化出来这个功能,科技可以帮你啊!
举个例子(医学数据可能不准确,只是为了让你方便理解):
判断一个人存在“心律不齐”,大概需要在15秒的时间内,连续发生2-3个特定异常的心博。然而这15秒却可能发生在一天的任何时候。
医生不可能整天陪在你身边盯着你的数据。这个时候,就需要一个仪器实时收集你的心跳数据,然后通过人工智能的算法,找到符合条件的异常心博,然后把这一段生成报告给医生寻求诊断。
好了,现在的问题很明确,如果你想发现自己心脏异常的细节,就必须把心脏数据如数上交,而这些数据处理技术的背后,依然是 BAT 的身影。
腾讯在很早就成立了用人工智能帮医生看片子,寻找癌症病变的“觅影”,也成立了 AI 医疗团队,专门负责用 AI 和数据帮助医生做诊疗,也和医疗器械公司合作,输出疾病判断的AI能力。
这是腾讯觅影支持的食管癌筛查系统
马云更是提出了两个“H”的战略,其中一个 H 就是健康。阿里健康也是在港股独立上市的公司。
百度曾经一度因为战略收缩而裁撤了医疗部门,却从未放弃对于医疗公司的投资,最近一年又加快了在医疗器械和 AI 医疗的布局。
由于涉及国计民生,医疗是一个半垄断领域,互联网公司的进入举步维艰。但是不可否认,病人们对数据智能有着刚需,而拥有数据权柄的公司,又屈指可数。
数据不托付给 BAT,又能托付给谁呢?
和医疗相类似,保险同样可以利用足够多的数据探针,对一个人了如指掌。这样,可以做到同一个保险对不同的人收取不同保额,千人千面。
例如:你的汽车告诉保险公司你的驾驶风格彪悍,保费就提高;你的起步很平顺,交通违章少,保费就降低。
蚂蚁金服的相互宝,腾讯的微保,背后的杀手锏都是“数据”二字。
于是,我们终于走到了这个很有趣的道德困境:隐私到底值多少钱?隐私能当饭吃吗?
如果说放弃隐私可以换来整个社会的生产力,你会矫情地考虑考虑;那么如果放弃隐私可以救自己和他人的生命,你依然会拒绝吗?
放弃隐私的诱惑有很多,总有一款适合你。让你沦陷的,有可能是大数据医疗,有可能是大数据保险,有可能是金钱, 有可能是性,有可能是孤独,有可能是陪伴,有可能是快乐,也有可能是恐惧。
我猜想,未来世界就像一个蚁巢,母体就是蚁后,它拥有和普通蚂蚁完全不同的形态,为整个蚁巢提供动力和意义,无数工蚁负责照顾蚁后。而母体本身,无需,也并不意识到自己为何存在,它只是被需要,因为被更多人需要而越来越强大。
只要探针足够多,计算力足够强,在任何时候,母体都能告诉你什么是对,什么是错。你可以听,也可以不听,但你最好听,因为你可怜大脑的思维能力在大数据面前就是个渣渣。
就像你的狗狗飞奔向巧克力的时候,你一把拉住:“不,你不能。”
有人说数据善良,有人说数据邪恶。但有一点无可辩驳:人类的生命有限,但数据或许永恒。
前两天,我看到了一个新闻,一位韩国的妈妈,依靠数据在虚拟现实世界里重现了她已经过世的七岁女儿。
那一刻,数据是真是假,是善是恶,我无从判断。
本来我想结束在这里,但我突然想到另一个故事,一个真实的故事,一个很多人都听过,却一直让我难忘的故事。
四岁的时候,男孩的爸爸给他买了 Xbox 游戏机。他们每天都在快乐地玩游戏,时光飞逝。直到六岁的时候,爸爸突然去世了。悲伤的他整整十年都没有再碰那个游戏手柄。
直到有一天,他偶然翻出了游戏机,决定打开再玩一次最爱跟爸爸玩的赛车游戏 Rally Sports Challenge。
游戏开始时,他竟然看到了一台“鬼车”从他身边超过,他恍然大悟,这是游戏的一个设定——最快圈速的纪录数据会成为一个“虚像”一直跑在赛道上。
那是由爸爸创造的最快纪录,每一次拐弯,每一次油门刹车,都是爸爸亲手创造的。
少年一直玩,一直玩。就像爸爸又回到身边和自己比赛。
直到有一天,他玩得太熟练了,终于超越了爸爸的车。
在终点线前,他突然意识到什么,猛踩刹车,再不向前。他等着,等父亲的“鬼车”从他身边超过,泪流满面。
以上内容转载自【知乎】
如有侵权请联系删除
了解更多精彩内容,记得先关注我哦~
往期热文
01 |
02 |
03 |
04 |