【数据蒋堂】1T数据到底有多大？

WeChat ID DatapiTHU Intro 本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。转载来源：数据蒋堂作者：蒋步星本文共1495字，建议阅读3分钟。本文蒋步星老师从时间与空间上讲解了1T数据到底有多大。一英里不是个很长的距离，一立方英里相对于地球也不会让人觉得是个很大的空间。然后我说，这个空间内能装下全世界所有人，你会不会觉到很惊讶？不过这话不是我说的，是美国作家房龙在一本书里写的。业内有个著名的数据仓库产品，叫Teradata，20多年前起这个名字，显然是想给人能处理海量数据的感觉。可现在，论用户还是厂商，谈论数据量时都常常以T为单位了，动不动就有几十上百T甚至PB级的数据。似乎T不是个多大的数，多几个几十个T也没什么大不了的。其实T有点像上面说的立方英里，是个挺大的数。很多人对它没有多深的感性认识，我们要换个角度来看1T数据意味着什么。用于分析计算的数据仍然以结构化数据为主。结构化数据中占据空间最大的是不断增长的交易类记录，这种数据每条并不大，大概只有几十到100字节，比如银行交易只要记下帐号、日期、金额；电信的通话记录也只是通话号码、时刻、时长等。就按100字节算，也就是0.1K，那么1T空间就可以放下10G行记录，100亿条！这是什么概念呢？一年大概是3000多万秒，如果用一年时间来积累1T数据，那意味着每秒要产生300多笔记录，24小时不停息！这个数也不算大，像中国这样的大国，电信运营商、全国级银行以及大型互联公司都不难有这种规模的业务量。但对于一个城市级别甚至有些省级的机构就是个不小的数了，比如税务部门采集的企业交税信息、连锁超市的商品购买数据、城市商业银行的交易记录等，要达到300笔/秒并不容易，何况很多机构只有白天或工作日才能产生数据。而且这还只是1T，要搞到几十上百T，那就得让业务量再上一两个数量级才行。简单说有多少T数据是没什么感觉的，换算成每秒对应的业务量后，才知道是不是靠谱。大数据分析计算产品的技术方案和数据量相关性非常强，正确估算自己的数据量对于大数据平台的建设是至关重要的。如果用来存储音频视频这种非结构化数据，或者仅仅用于备份原始凭据，那1T空间就存不了多少东西了，但这种数据一般也没什么要分析计算的需求，只是存储和检索，那不需要什么大数据计算平台，只要有个网络文件系统就行了，这成本就低多了。假设有1T数据，那么要多少时间才能处理一遍？有些厂商宣称能在数秒内处理TB级数据，用户经常也这样期望，这可能吗？机械硬盘在操作系统下的读取数据大概是150M/秒（不能看硬盘厂商那个指标，根本达不到），固态硬盘快些，能翻个倍。我们就算300M/秒，那么1T数据只是读取不做任何运算也需要3000秒以上，接近一个小时！那怎么可能数秒内处理1T数据呢？很简单，增加硬盘，如果有1000块硬盘，那就可以在3秒左右读出1T数据了。这还是比较理想的估算。实际上数据不大可能存放着那么整齐（硬盘不连续读取时性能下降严重），集群（1000块硬盘显然不会在一台机器上）还有网络延迟，有些运算可能还有回写动作（大分组和排序等），秒级访问常常还会有并发需求，这些因素综合起来，再慢几倍也是正常的。现在我们知道了，1T数据意味着几个小时，或者上千块硬盘。而且还是前面的话，这只算了1T，可想而知几十上百T会是什么概念了。有人说，硬盘太慢了，我们改用内存。内存是比硬盘快得多，而且还适合并行计算。不过大内存的机器并不便宜（成本不是线性增长的），而且更糟糕的是，内存使用率经常很低。比如许多计算体系都是基于Java平台的，如果不做特别的压缩优化的话，JVM的内存利用率只有20%的样子，也就是硬盘上1T数据需要5T内存才能加载进来，这得装多少机器，花多少钱？我们对1T有了上面这些感性认识后，听到多少多少T的说法时，就可以随时脑补出交易、节点数、成本等信息。做平台规划和产品选择时，就不容易被忽悠了。Teradata这个名字，今天也还不算过时的。专栏作者简介蒋步星，润乾软件创始人、首席科学家清华大学计算机硕士，著有《非线性报表模型原理》等，1989年，中国首个国际奥林匹克数学竞赛团体冠军成员，个人金牌；2000年，创立润乾公司；2004年，首次在润乾报表中提出非线性报表模型，完美解决了中国式复杂报表制表难题，目前该模型已经成为报表行业的标准；2014年，经过7年开发，润乾软件发布不依赖关系代数模型的计算引擎——集算器，有效地提高了复杂结构化大数据计算的开发和运算效率；2015年，润乾软件被福布斯中文网站评为“2015福布斯中国非上市潜力企业100强”；2016年，荣获中国电子信息产业发展研究院评选的“2016年中国软件和信息服务业十大领军人物”；2017年, 自主创新研发新一代的数据仓库、云数据库等产品即将面世。数据蒋堂《数据蒋堂》的作者蒋步星，从事信息系统建设和数据处理长达20多年的时间。他丰富的工程经验与深厚的理论功底相互融合、创新思想与传统观念的相互碰撞，虚拟与现实的相互交织，产生出了一篇篇的沥血之作。此连载的内容涉及从数据呈现、采集到加工计算再到存储以及挖掘等各个方面。大可观数据世界之远景、小可看技术疑难之细节。针对数据领域一些技术难点，站在研发人员的角度从浅入深，进行全方位、360度无死角深度剖析；对于一些业内观点，站在技术人员角度阐述自己的思考和理解。蒋步星还会对大数据的发展，站在业内专家角度给予预测和推断。静下心来认真研读你会发现，《数据蒋堂》的文章，有的会让用户避免重复前人走过的弯路，有的会让攻城狮面对扎心的难题茅塞顿开，有的会为初入行业的读者提供一把开启数据世界的钥匙，有的甚至会让业内专家大跌眼镜，产生思想交锋。往期回顾：【数据蒋堂】第一期：多维分析的后台性能优化手段【数据蒋堂】第二期：非结构化数据分析是忽悠？【数据蒋堂】第三期：功夫都在报表外--漫谈报表性能优化【数据蒋堂】第四期：索引的本质是排序公众号底部菜单有惊喜哦！企业，个人加入组织请查看“联合会” 往期精彩内容请查看“号内搜” 加入志愿者或联系我们请查看“关于我们” Reward 长按二维码向我转账受苹果公司新规定影响，微信 iOS 版的赞赏功能被关闭，可通过二维码转账支持公众号。 Scan QR Code via WeChat to follow Official Account

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间

生成图片，分享到微信朋友圈

您可能也对以下帖子感兴趣