德拓信息创始人兼董事长谢赟
2019年11月9日至10日,科技智库「甲子光年」在北京举办了2019「甲子引力」大会。在11月9日下午举行的“数据智能”专场上,德拓信息创始人兼董事长谢赟以“数据智能,更佳洞察”为主题进行了演讲。谢赟认为,数据和价值之间有非常大的鸿沟,而这个鸿沟需要先进的技术以及相应的工程来弥补。他还谈到,数字化时代不仅仅是把原来在纸上的工作流程搬到信息系统上、存留数据,更要解决信息孤岛问题,这样才能通过数据创造更多价值,进而走入智能化时代。1. 数据爆发的四种推力:业务进化、数据爆炸、产业升级、政策导向2. 实现数据价值的三个领域:to C 、to B、to G(政府)3. 数据成本降低与价值创新:STEMA模型,科学、技术、工程、数学与艺术相结合
德拓信息创始人兼董事长谢赟在2019「甲子引力」大会上的演讲
非常感谢今天有这个机会,在「甲子光年」一年一度的盛会里,向各位分享德拓在数据领域的一些认知。德拓一直在思考一件事,数据到底具有什么价值?数据和价值之间有非常大的鸿沟。而这个鸿沟需要先进的技术以及相应的工程来弥补。德拓是一个小的微观体,在实际工作中做过非常有意义的项目。比如海关总署的风险洞察项目,实现了通过数据平台进行数据分析与监测,能识别出哪些红酒报关有异常等;还有去年进博会期间,我们就与青浦公安合作,用大数据工具辅助公安工作,成功抓捕7名在逃人员……在过去,德拓参与过非常多的数据化项目,涉及教育科研、媒体文娱、轨道交通、金融证券、数字政府、军事工业、先进制造、商业企业、医疗卫生等领域。这说明什么?说明数据正成为这个时代的一个主旋律,或者说是为时代创造更大价值的一个核心要素。数据爆发的四种推力
整个IT的发展脉络是从信息化、数字化到智能化。信息化时代把原来工作流程上的纸质资料搬到信息化系统上、存留数据,但这些数据是割裂的,是一个个信息孤岛。当我们拥有数据化能力时,就可以把所有的数据连通起来,通过数据创造更多价值。当然,有了数据的融合汇聚,我们才能走到下一个时代——智能化时代。在我们参与的很多数据智能改造过程中,发现数据是产生智能化的必然基础。我们这个行业非常有意思,数据自古就有,结绳记事、算天象,都是数据的应用,而数据规模是不断变大的。仅从近十年来看,互联网、移动互联网时代,每个服务器、每个人都在产生数据;到今天的物联网时代,每个设备、设施都在产生数据,其量级是更大的。而感知能力提升又使得我们能获取到更多信息。例如原来一个视频只知道在什么地方拍的,现在可以知道穿什么衣服的人、什么年纪的人,会知道他是谁、他的情感,换句话说数据量变得更多了。5G时代到来时,把万物连接在一起,我们的数据资源、数据规模、数据能力就变得非常大。这是不可逆的趋势。大数据领域需要有基础,现在的计算、存储资源已经很丰富,每个行业都有自己的行业云,没有行业云,在公有云上也能随时买得。此外,我们的算法发展到了AlphaGo可以击败人类的程度,在to C领域也证明了大数据洞察的可能性。今天我国的农业除了主粮受政策保护外,其他的经济作物都是进口占比较大,究其原因还是因为竞争力不足。在当下复杂的国际形势下,工业想要拥有更强大的智能制造能力,引进新技术已比较困难。只有大数据、人工智能是跟人口规模、跟社会的复杂程度以及民众隐私的容忍度是相关的。这在中国是有机会的,国家正在不遗余力地推进这些技术的落地和发展。实现数据价值的三个领域
我认为实现数据价值分为三个不同的领域:to C 、to B、to G(政府)。
我们看到信息行业,不管抖音、头条用数据怎么做,仍是两个核心算法:一个是推荐算法,一个是画像体系。任何to C领域都是这样做的。京东为了提高转化率0.1%,不惜投入大额资金进行数据化升级。在赢家通吃天下的电商行业,数据化是为了应对消费者的个性化。第二个数据价值是to B,其实数据规模要更多。但to B会更复杂,因为面向的是组织,所以他们希望价值变成效率,会比to C价值更多一些。如银行风险控制、商业业务创新、提升组织的流程效率等。像神策数据面向营销大数据、昆仑数据面向工业自动化等,每一个细分领域垂直下去,无法统一天下。但垂直是有规律、有大市场的。在这里,数据化是为了实现产业生态化。但我认为数据最多的领域还是to G。在政府领域,我们认为价值即效果,效果这个词非常艺术,怎么理解都可以,所以它复杂度更高。因为政府需要解决的问题非常复杂,数据资源、服务对象的要求和外部环境都是不断变化的,也就是说它面向的其实是无常的环境。而这三点在今天都是叠加态,因此我们要做数据化就必须面对非常大的一个挑战,“数据价值的不确定”。数据规模越大,数据价值越难确定,因为实际上它能够做的事情越多。我们在实践中发现,不管是刚才讲的75天完成的数据铁笼也好,还是8周落地的海关也好。用户对于数据创造价值的要求越来越多,因为环境急促,而且他们希望成本越来越低,数据价值的确定性也在变低。所以,我们把大数据的要素做了四个象限分类,可以看到按成本和价值来分,有不同的成本象限和价值象限。但实际上用户关注度都会有一个排序和优先级。他们的优先级是,会先去考虑采购怎样的存储计算?选择开源还是商业版的Hadoop系统?以及自己有哪些数据资源?而不是先关心价值大数据项目相关的创新应用、数据治理和分析挖掘。所以德拓的方法论是,如何能使数据价值创造这件事的成本降低,价值趋于稳定?数据成本降低与价值创新
于是德拓制定了一个战略规划,提出“数据智能,更佳洞察,助力数字中国”的使命,并把“数据智能”称之为“STEMA”。S是研究真实世界和数据之间关联关系,这是科学-Science。我们不断拓展不同行业,研究每一个行业数据在哪?什么是信息化存储的?了解数据有什么价值?T是技术-Technology,研究数据收集、存储、分类、挖掘、连接、可视的具体实现手段。E是工程-Engineering,利用数据化与智能化技术,结合不同需求,实现数据化业务落地。如果没有很好的工程落地方法,就没办法面对这么多不确定的用户需求。M是数学-Mathematics,编写规则、算法,挖掘数据价值,构建世界规律洞察模型。沉淀下来的是算法模型,不管是统计类还是机器学习类。最后我们要展现数据之美-Art艺术,尝试数据与生活、工作完美融合,向个体、组织、社会呈现数据之美。更佳洞察的解读在于如何让未知变为已知,而数据核心价值在于洞察。洞察有两个核心:一个是风险,一个是监测。我们会非常关心有哪些行业是非常注重风险,也非常注重监测。在我们来看有两条,一个是金融行业,一个是公安行业。所以到今天,为了实现成本降低、价值创新,我们做了三件事:第一,德拓有相应的平台工具,德拓的三大研发中心(上海人工智能研发中心、南京大数据研发中心、成都云计算研发中心)不断研究如何通过平台工具使数据的汇聚、存储、治理、可视及应用变得越来越简单,同时工程效率能不断提升。第二,在我们不断落地过程中,沉淀了一千多个算法模型。我们知道算法是开放的,但模型一定是基于特定的数据、特定的需求,最终由特定的算法调参得到的。其中大约有100多个核心的洞察算法,这才是数据价值的体现。最后,还有一个重要的解决方案;光有刚才这两点,我们的规模做不大,因为每个落地项目都无法实现规模化。所以依靠解决方案,才能有更大规模。目前为止,我们完成了20多个行业80多种方案落地,使得我们知道什么样的行业能够更精准地去做柔性数据化服务。德拓在企业经营过程中积累的这三样能力,使得我们可以用这些能力去连接四类合作伙伴。第一类合作伙伴叫做业务性合作伙伴。比如说CETC、中国电信集成,他们承担了大部分数字中国的建设。第二类是平台型合作伙伴,如阿里在上海公安、腾讯在海关总署、华为在山东市场合作一样。它们作为平台厂家,做的是底座基础,但上面长出的数据价值的庄稼是由德拓来完成的。第三种是各行业的合作伙伴,这样的行业伙伴有长期的行业认知,但没有数据化能力。德拓将数据化能力赋能于该行业,使它们在这行业里进展非常快。第四种是自主型合作伙伴,我们可以通过资本方式去连接一些团队共同在细分领域做数据智能探索,比如我们北京爻拓,去年8月份成立,到今天拿下北京地铁、上海地铁等一系列轨道交通数据化项目。这是我们讲的,“当核心能力具备,就能把数据能力赋能到各个行业中去,建立行业的数据中台能力,降低该行业数据创新成本,提升数据价值的确定性”。第一个数据实现态势感知,知道此时此刻环境正在发生什么变化。例如我们做过的公安、司法、轨道交通项目等。第二个数据驱动合成作业,可以把原来壁垒森严的地方打通,例如北京朝阳的智慧朝阳就整合各委办局的数据,打通为一体化流程。第三个数据助力精准决策,不管是对医疗水平诊断,还是对商机的把握,还是对案情的分析,都可以通过这个来完成。第四个数据完成深度洞察,我们通过数据去完成投资人画像,发现商业骗保项目,了解客户情况等。第五个数据提供无界服务,在今天上海大数据中心,我们汇聚了所有委办局的数据,去做数据融合分析。这些数据已变为一种资产,可以给更多的部门使用。最后数据提升流程效能,比如工业自动化,数据如何提升监测设备、设施的故障情况,上海城市信号灯如何选择配时方案等。德拓希望通过这样的方式实现数据价值的创造,而竞争力来源于我们不断降低数据成本和提升数据价值的确定性。后台回复关键词“谢赟”,获得德拓信息创始人兼董事长谢赟的完整PDF。近期,「甲子光年」将陆续推送2019「甲子引力」大会嘉宾演讲及圆桌内容,敬请关注。