漫画时序数据库:好险,差一点没挤进工业制造的高端局
图文原创:谭婧
互联网企业有句口号:距离成为百年企业,还有七八九十年。
互联网企业和工业制造企业比年龄,就输了。
工业制造企业的龙头,动不动就是百年企业。
看看,通用,西门子,再看看,宝武集团。
工业制造为了管好高端装备和工程建筑物,就用传感器收集它们的数据。
这是一种带有时间标签的数据,叫时序数据(Time Series data)。
其实,时序数据在生活中也很常见。
虽然时序数据跟整个数据管理相比只是其中很小的一个门类,但架不住传感器数量多,收集频率高。不少场景要求尽可能的收集传感器数据。
于是,时序数据的体量和占比在急剧变大。
举个例子,特斯拉车主到底有没有踩刹车,谁敢仅仅依据少量样本数据做判断。
如果一个东西占用的资源并不低,无论为了控制成本,还是挖掘价值,都会在这里头大做文章。
存好,用好,时序数据库呼之欲出。
但是,数据库是系统级别的产品,是基础软件,做出产品很难。
我来讲一些制造企业的例子,细聊工业时序数据几件有趣的事。
早在2013年,像三一重工这样的企业的一台挖掘机上,就会有几百个传感器。
而一台大型发电机组可能会有上万个传感器。
再看,像宝武集团这样的龙头工业企业,会以毫秒为单位采集,比如,5毫秒采集一次,或者10毫秒采集一次。
时序数据按时间顺序产生,
时序数据的新数据比旧数据常用。
时序数据写多更新少(或者说更新是批量化的)。
时序数据库的写入能力须快到飞起,甚至要求“超大规模数据瞬时写入”。
这还不够,要管理乱序数据。
这个工作让关系型数据库来干,就得说Sorry了。
因为关系型数据库做不到写入得这么多这么快,也不是为乱序数据管理而设计的。
网友说,这个要求很过分。
过不过分,得看具体情况。
把目光移到新疆哈密,甘肃酒泉,不仅看风机,还能看风景。
让你去观察一座桥梁的震动情况,你得重视监控的精确性。正常情况下,用100-1000Hz的频率去采集数据。
或者说,观察桥梁的震动,你得一秒钟观察上万次。
往大里说,得在分厘毫丝之间,保证人民群众的生命和财产。
变化,只发生在中国吗?
并不是。
赶上早班车的国际数据库产品包括:
开源时序数据库InfluxDB,在2013年发布。
闭源时序数据库Amazon Timestream,是AWS公司于2018 推出。
有预测,2025年时序数据库的市场规模在269亿元左右。
时序数据库,有不少有趣之处。
时间戳是所有时序数据必有的字段,数据大部分按照时间顺序到达。好比医生有很多病人,每个病人有号码牌,病人按顺序就诊。
查询也以时间为中心,比如指定时间点和时间段。
关系型数据库是一个集合。时序数据就是一个有时间顺序的集合。
时间戳是主键,是不能重复的信息。多了这个维度,就看怎么利用好。
数据库的“两条腿”是查询引擎和存储引擎。时序数据库的“两条腿”的设计必须融入时间维度的处理要素。
给时间戳加索引,就可以加快查询。
拿到数据,控制好设备,工作就结束了吗?
在自动化那一代产品的眼中,它们的工作就结束了。
在新兴时序数据库的眼中,工作没有结束。
生于自动化年代的知名数据库是Pi,它也是传统时序数据库的祖师爷。
这家美国公司的产品,国内电厂几乎家家都用。也有人称之为工业场景里的实时数据库。
Pi 的优势是在运营技术(Operational Technology,OT)生产场景,而在 OT 与大批量数据读写的 IT 结合场景,还有较大提升空间。
2021年它被施耐德以50亿美元收购。
这里有灵魂三问。
1.大型制造装备动辄几万个传感器,而且工业设备资产有层级属性。受限于关系数据模型,威力就会受限。
所以要问,能在数据模型上想办法吗?
2.过去默认传感器这个“端”只负责产生数据,现在不同了,把整理好的数据发送到云端,以减轻云上的压力“端”要承担更多工作量。
风机往往立在田野里,山坡上,甚至还有山东海上风机。时序数据传到工厂,而大型集团又可能会涉及多个工厂。
所以要问,能设计专门的传输方法吗?
3.最后再说文件格式,这会关系到编码方式和存储方式,影响占用多少存储空间,也会影响花多少力气传输。
同样的数据,用不同的文件格式,所占用的空间不同,所消耗的网络资源也不同。
省存储空间和省网络资源都可以省大钱。
所以要问,能在文件格式上想办法吗?
这三个问题有点难,而且涉及的技术维度非常底层。
其实时序数据库还有很多很难的问题等待被解决。
没有好的时序数据库,后面的分析,挖掘,人工智能应用就会吃力。
工作嘛,就讲究一个默契配合。
时序数据库属于一种AI基础设施,更是一种基础软件。
差点忘了,特斯拉的历史很短,却引领了多项技术的标杆。
马斯克流量大,头脑清醒。
面对特斯拉如此多的优势,他却说:“制造能力是特斯拉最大的竞争力。”
有一种规律藏在制造业里好多年了,你肯定看出来了:那些称霸生产制造的国家,也同时称霸基础软件。
更多阅读
AI框架系列:
漫画系列
1. 万字大稿深度解读硅谷风投A16Z“50强”数据公司榜单
4. AI for Science这事,到底“科学不科学”?
5. 想帮数学家,AI算老几?
10. AutoML科普:你爱吃的火锅底料,是机器人自动进货丨漫画
11. 强化学习科普:人工智能下象棋,走一步,能看几步?
DPU芯片系列:
2. 永远不要投资DPU?
长文系列:
3. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?