查看原文
其他

涛思数据联合创始人李广:面对当下的工业互联网行业痛点,小产品也会有大作为

李广 数据猿 2021-11-03

数据智能产业创新服务媒体

——聚焦数智 · 改变商业




近些年,在国家政策推动下,大数据与各个行业深度融合,依托大数据、人工智能、区块链、工业互联网等数字经济产业得到蓬勃发展。

大数据是数字经济的重要基础,蕴含着巨大的潜在价值。特别是对工业企业来说,利用数字“链接、流转、模拟、反馈、整合”的优势,实现数字化转型升级,对企业未来发展尤为重要。

“工欲善其事,必先利其器”,如何做好数据的“运管存”,释放出数据自身的价值,这对大数据平台的数据处理能力是一项重要的考验。

2021年10月22日,由上海市经济信息化委员会、上海市科学技术委员会指导,数据猿与上海大数据联盟共同举办的“魔方大数据系列论坛之数智化转型升级”专场上,涛思数据联合创始人李广从工业互联网的角度,指出大数据应用存在的痛点,并分享了涛思数据独特的大数据处理方法及行业应用案例。

据公开信息显示,涛思数据成立于2017年5月,是一家专注于大数据解决方案的初创公司。公司开发了拥有自主知识产权的物联网大数据平台TDengine,在2019年7月份正式对外开源,2020年8月又将集群版开源,收获了大量的客户,在GitHub全球趋势排行榜上多次排名第一,成为最有热度的开源项目。

今年5月涛思数据顺利完成4700万美元B轮融资,获得经纬中国、红杉资本中国基金、GGV纪源资本等多家头部资方的认可。

痛点:工业数据体量大、不透明、协同难


工业数据区别于其他领域的数据,具有其自身特点。从数据底层的角度,李广认为工业互联网行业的数据应用存在三大痛点。

痛点一,工业数据体量大,难处理。工业数据采集会涉及到大量的设备端点,比如一家工厂,每天可能都会产生几百亿条数据,数据存储达到TB级别。如此庞大的数量级,如何处理是一大难点。

痛点二,工业设备在检修、保养和运维过程中,存在数据不透明的问题,由此带来工业企业数字化转型困难。

痛点三,在工业控制领域,国内多数企业使用的工业软件仍严重依赖国外软件,缺乏自主可控的技术和产品解决方案。从边端到云端,从场站侧到集团中心侧来看,做数据的高效协同有很多问题。

如何解决这些痛点?李广认为,不妨化繁为简,将整个工业互联网数据抽象出来,从而形成数据“流转存用”四个步骤。具体来说,一是数据的采集、传输;二是数据的接入;三是数据的存储与分析;四是数据的应用。其中第三环节——数据的存储、分析是核心。

对于数据的存储分析,李广观察到,国内现有的分析方式当中,可以通过传统工业实时库来处理,或者依托互联网体系开源全家桶的方案来处理,但两者的效率都较低,这种庞大的架构,在IT人员相对不足的工业场景下使用,维护非常困难。此外,李广谈到,国外一些工业控制的头部企业,其实是用传统架构来做的数据处理方案,很难适应这种大数据的“高并发、易扩展”的特点,即可快速扩展,SaaS化或者可服务化的模式。

小产品,大作为


为解决行业痛点以及匹配客户需求,涛思数据打造出了一款专为物联网而做的高效数据处理方案——物联网大数据平台TDengine。

TDengine是专为物联网打造的ALL-in-One时序数据库平台,抛弃掉了传统的Hadoop体系,将底层大数据处理相关的消息列队、对内缓存、数据库、流式计算和数据订阅全部整合在这一产品中。一站式解决数据处理的性能问题、数据存储和技术架构复杂的问题。

虽然功能强大,但产品却只有几兆,占用内存非常小,并采用分布式架构,能够按需扩展,以应对不同的数据处理规模。

TDengine产品自开源以来,广受客户好评。对此,李广表示,这主要是由于涛思数据对工业物联数据特征和数据使用方式的清晰认识。李广进一步解释道,工业物联数据的特征主要有三点:

1、与通用数据不同,工业上采集的数据都是带有时间戳的流式数据;

2、这些数据大多是测量值,非常平稳,而且数据源是唯一的;

3、随着时间增加,数据价值递减。而且在物联网中,单条数据的价值并不高,对整体数据进行分析才有价值。

在数据使用方面,李广从市场出发,总结了工业互联网领域对数据三方面的应用需求:

第一是能否支持数据持续不断的写入;第二是能否支持基于时间、标签维度的数据查询,以及数据的聚合和断面查询。以聚合查询为例,平台需要聚合所有设备的数据进行计算,这就会涉及到一些独特的使用方式,比如差值、时间窗口、降采样等。平台是否具备这样的数据处理能力,对客户来说也非常重要;第三是能否支持数据有效的压缩存储,即在不影响业数据查询使用的前提下,高效压缩数据以减少存储空间。

事实上,传统通用平台尚无法满足这些特定需求,相比之下,涛思数据自研的TDengine平台在核心性能上,表现出了非常大的优势。

据李广介绍,TDengine平台具有高并发数据写入的能力,海量设备产生的数据能够并发写入;不仅如此,在解决数据缓存、数据订阅、数据存储等一系列需求时,涛思数据将各个功能整合到这一款产品上,技术架构非常的简单。彻底简化的技术架构,解放了大量的中小企业,让他们也能承接很多以前只有头部企业才能接手的项目;而在数据存储方面,TDengine平台结合物联网数据特征,采用列式存储,大大压缩了数据存储空间,相同数据所占用的内存仅是同类产品的1/5。

涛思的创新:一源一表,分级存储


区别于通用平台,实现良好的数据处理性能,涛思数据是如何做到的?

针对物联网时序数据的典型特征,涛思数据创造性地提出了“一个数据采集点一张表”的模型,采用“超级表”来解决多设备之间的数据聚合分析问题。

“这样的好处是,同一个采集点的数据是连续的,数据随着时间推移而递加。在存储的时候,直接通过追加的方式写入即可,这是效率最高的存储方式。最新的数据写入内存后,然后落盘到硬盘等存储介质中,落盘的同时我们还能做很多预计算,这就使我们产品的查询能力非常强。之前我们有个用户,他用了一个方案,想查询一组数据,花了好几个小时查出不来,而我们的产品可能几秒钟就查出来了,差别非常之大,就是因为我们做了很多预计算。”李广揭秘到。

“还有很重要的一点,物联网的数据按照采集的时间顺序,有冷、温、热的区别。比如,最新的数据大家都特别关注,就是热数据;某个数据过去了一个月,可能它的使用频次就稍微低一点,我们把它定义为温数据;若是过去5年甚至更久一点,就是冷数据。此时,数据使用的频次就更会低。

那么如何平衡数据存储的使用效率和成本?我们会通过多级存储的模式去自动存储和迁移数据,最新热数据的存在内存中,温数据在SSD中,冷数据在普通硬盘中。

做数据聚合时,我们会先把海量的数据做分割,通过超级标的标签先做数据过滤,大大缩减数据集,这样处理数据的效率就会大大提高。”李广表示。

多行业应用构建生态


大数据平台作用于各行各业,对通过大数据发现行业规律、减少战略决策中的主观因素影响,起到了至关重要的作用。在行业应用方面,涛思数据做了很多尝试。

以电力行业为例,在风力发电的风场侧,采集、数据、模型、服务各个层级都会产生大量数据,涛思数据是如何处理的呢?据李广介绍,数据从风场侧传输到消息队列里,建立数据服务,通过集群把产生的数据全部录入和存储,然后再应用。如果是集团侧的数据需求,涛思数据会建立云端风电大数据平台功能架构,在底层设置分布式数据库集群,以处理海量数据。

在场站侧和中心侧之间的数据协同上,李广指出传统的数据处理方式存在一些问题。例如,数据同步是半自动模式,且数据分区导致数据之间需要融合,造成数据处理效率降低等问题。

基于此,涛思数据创新性地提出了一套运行方案,能够从场站侧到区域集控,再到集团结构中心,做三级数据的协同同步,能够把所有数据自动化,大大地减轻了数据处理的协同问题。

存储下来的数据如何进一步分析,以风电场为例,涛思数据会在云端搭建一个大数据平台,按照非结构化、结构化业务数据以及结构化时序数据的分类,再录入不同的系统。由于工业物联数据80%以上是时序性数据,这些数据最终进入分布式时序数据全栈处理平台进行处理。

TDengine平台除在电力行业“大显身手”外,在矿山、烟草、石油化工、智慧出行等行业均有应用。据李广介绍,平台目前测点数管理规模已经超过千万级别。其中,烟草制丝数据服务平台在经过时序洞察分析后,性能提升10倍,效率提升效果非常明显。

数字化时代,能否顺利实现数智化转型,事关企业成败。这也是国产化软件、服务公司的难得机遇。涛思数据飞速成长的四年,离不开其对工业底层数据的深刻理解,在对大数据平台的不断探索与创新下,公司将跟随数字经济发展的浪潮,再创佳绩。

编辑:木阳 / 数据猿



❷ 创新服务企业榜 

❸ 创新服务产品榜

❹ 最具投资价值榜 

❺ 创新技术突破榜

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》


联系数据猿

北京区负责人:Summer

电话:18500447861(微信)

邮箱:summer@datayuan.cn

全国区总负责人:Yaphet

电话:18600591561(微信)

邮箱:yaphet@datayuan.cn

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存