查看原文
其他

专访百分点科技CTO刘译璟:利用知识图谱加固数据智能闭环,深耕政府级应用服务

陆易斯 数据猿 2022-03-03


【报名已开启】“❶产业图谱+❷企业盘点+❸行业报告+❹榜单/奖项+❺落地大会”全方位开启合作:欢迎报名咨询
2021年度度颁奖季主题策划活动将于9月份正式开启,尽情期待!

大数据产业创新服务媒体

——聚焦数据 · 改变商业




近两年,人工智能逐渐从感知智能向认知智能发展,而AI赋能的知识应用是实现认知智能的创新形态。国际权威分析机构IDC针对“AI赋能的知识应用”领域开展研究,并发布《AI赋能的知识应用市场发展现状及趋势分析》报告,其中百分点科技与华为云、百度等作为典型代表厂商入选报告。

IDC认为百分点科技将知识图谱作为认知智能解决方案的关键能力,当前已在应急、公共安全、媒体出版等行业构建了对应的知识图谱,构建的实体数达到数千万的量级,关系数达到几十亿的量级,服务了众多的政府和企业客户。

此前,百分点科技“基于融合数据治理的动态知识图谱技术”的创新实践,在“2021中国国际大数据产业博览会”上从众多参赛项目中脱颖而出,荣获“2021领先科技成果优秀项目”。

我们知道,百分点科技曾经作为推荐引擎及精准营销的代表公司,早期服务了众多电商类企业,而如今,随着数据智能产业的升级,百分点科技再次站在科技推动社会进步的前沿,为企业和政府构建端到端的数智化解决方案,助力客户的智能化转型。

近日,数据猿专访了百分点科技CTO刘译璟,从知识图谱谈起,到端到端的价值闭环,以及在应用领域的切入点,管中窥豹,希望对这家公司的创新战略能有更全面的了解。

知识图谱是怎么回事儿


有人要问,现在经常谈到的“知识图谱”到底是什么?其实“知识”和“图谱”都不是新名词,前者属于人类认知加工过程的一部分,认知心理学早就有所研究,而以“知识图谱(Knowledge Graph)”作为完整概念,是Google在2012年提出的。我们都知道Google是一家搜索公司,由于每个网站的结构不同,信息也并非按知识来构造,会让Google搜索造成很多不便,当时目的是为了更好地检索信息,所以Google便自己构建了一个知识库,并且提供结构化及详细的关于主题的信息。其目标是用户足不出Google,利用知识库就可以完成搜索。后来逐步发展成为多关系网状结构图,并融入了多个学科和多个行业。

如今的知识图谱,越来越不神秘,我们用一个非常简单的公式就可以讲明白:本体 + 数据 = 知识图谱

“本体”可以理解成为一个数据模型,它的主要目的是用来还原世界的本来面目。我们需要把人们可以认知的“实体”、“概念”、“属性”以及它们之间的“从属”、“关系”搭建起来,就构成了一个“本体”。举个简单的例子,比如讲一本书,这就是实体,然后书有作者、出版社、出版日期,这就是属性,那么它们之间是有关系的,画好了就像这样:

来源:enterprise-knowledge.com

然后我们加上“数据”,比如我们填入狄更斯的《杀死一只知更鸟》的内容,就变成如下这样:

来源:enterprise-knowledge.com

知识必须经过合理的表示才能被计算机处理,它是对现实世界的一种抽象表达。机器必须要掌握大量的知识,特别是常识知识才能实现类人的智能。知识不只是表示,而且还需要做推理,甚至要做贝叶斯网络因果推断,需要可解释性、逻辑性,所以要加入以认知为核心的多语言自然语言处理、动态知识图谱,以及智能交互增强分析。

知识融合也是需要投入大量精力去实现,“我们会通过先同构再融合的方式,先把多源异构数据转变成同一种模型,然后再进行语义融合,”刘译璟谈到知识图谱要解决的核心问题时说,“最近谈得比较多的是多模态的数据融合,不同介质、不同结构的数据融合在一起可以产生更大的价值。比如新闻中不仅仅是文字,还常常有图片、视频,那我们就要考虑把新闻中的文本、图片、人脸、语音这样的数据融合到一个知识图谱中,这样的图谱信息量更大,应用价值更高”。

当形成了这种“知识图谱”,有三类事情就可以实现:第一类是人主动去分析,比如主动搜索;第二类是自然语言交互,比如问答;第三类是机器自主进行知识挖掘。这还没完,根据清华大学人工智能研究院的报告,知识大致可以分为“通用知识图谱”和“领域知识图谱应用”,后者与行业结合更紧密,实现更多的商业价值。

因此作为一家技术公司的CTO,刘译璟也更加关注后者。“其实我们一直在思考,如何与行业相结合,要跟这些数据来源的行业结合在一起,不仅需要获取蕴藏在其中的数据,还要用人们可以理解更自然的方式进行交互。”

两个价值闭环


以技术创新为导向的百分点科技更加关注建立在知识图谱上的数据智能体系。在这个数据智能技术体系里,百分点科技着重打造了两个闭环,其中“小闭环”构建了从感知到认知,再到决策、行动的过程;“大闭环”则是从数据一端,把它作为来源,用数据转化为知识去解释现实世界,另一端是应用价值,包括企业的高效运行、社会精细治理的过程。

其中小闭环价值过程的四个阶段中,“感知”是通过数据真实反映出物理世界和现实世界的模型;“认知”是把它转化成为知识,人可以去理解,能够互相沟通;再下一步是去做“决策”,最后转化成为“行动”。

从大闭环来看,以“数据”为起步,如今数据处理技术是比较泛化、开源的,互联网数据也浩如烟海。大数据重点解决的是生命周期的管理问题,如从数据接入、加工、整理一直到存储,直至产生数据治理的结果,这些数据都可以作为知识图谱构建的一个来源。而当“数据”转换成为“知识”后,用户只需关注业务知识,不必再了解什么数据结构、什么字段、什么存储类型等。

IT时代已经变成一个数据时代,这是个大趋势。过去IT时代的特点是流程驱动,很多企业的IT系统通常会做得很复杂,而且成本很高,但这个趋势在被改变,“我们直接面对现实世界,用大数据相关技术把现实世界数据化,先建立大数据对世界的刻画,在这个基础上再把它变成智能。在智能化的基础上,原来所有业务系统可能都会被改变,已有的业务系统可能都得被重塑一遍。重塑的核心是它的流程跟分析、洞察、决策、行动,将会绑得更紧。”

重塑之后,大数据与流程也变得更加融合。大数据一开始是分析型业务,不是业务流程型的,是由分析驱动,而非流程驱动。到了知识图谱时代,需要认知之后的决策和行动,意味着从分析(认知)转向流程实现(行动),所以,现在的一个趋势是,原本以分析主导的大数据业务会与流程主导的各种系统如CRM、OA融合起来,你中有我,我中有你。

举例而言,用户在使用CRM系统的时候,会看到标签、筛选、推荐等以分析为主的功能模块,而同时用户在使用系统之后的日志等数据,又会成为训练、分析的数据来源。

另外,要形成具有端到端的数据智能的技术战略,业内普遍欠缺的是能与行业紧密地结合,即“应用”环节。具有知识图谱的数据智能应用通常会进入到某几个领域,如电信、政府、制造,去做特定的收集、治理,用专门的技术,像实时计算、数据安全、隐私保护、人工智能等。

来源:IDC

依托优势资源,主打动态知识图谱应用


初创于2009年的百分点科技,在经过十几年的积累,在应用领域现在已经称得上国内数据智能领域的头部企业,目前已服务一万多家政府和企业客户。

在政府级服务方面,拥有丰富的国家级和国内省市级数字政府建设经验,做社会治理,收集需求,深入调研之后落地执行,形成一个小闭环,助推政府治理能力提升和治理体系现代化。目前已服务于公安部、应急管理部、中国环境监测总站、国家市场监管总局等部委单位,并参与多个省市级数字政府建设。

在企业级服务方面,积淀了丰富的行业知识及数据中台构建经验,主要做消费者大数据,从市场洞察、用户运营、 精准营销, 再到生产, 这也是一个小闭环,提升企业数字化运营能力和效率。服务了包括中免集团、洋河股份、王府井集团、联合利华、欧莱雅、星巴克、百事、新华社、中国日报、科技日报、南方报业、人民出版社、华润置地、金地集团等客户。

我们可能有所耳闻,百分点科技早期的核心产品是个性化推荐,积累了比较完整的标签管理系统,随着不断深入到更多行业,只刻画一个人或者一个物品已经难以满足客户的需求,实体之间的关系尤为重要。于是,百分点科技在实体、属性的基础上又加入了关系、事件,从标签化逐步转到知识图谱化。

“百分点提出的动态知识图谱仍是源自项目需求”,百分点科技首席架构师黄伟表示,“知识图谱需要纳入更多的数据形成更大规模的知识体系,客户在使用知识图谱应用时,会逐步协调新的数据纳入系统,但此时系统已经在线上使用,需要系统在不停止服务的情况下将数据动态融入当前的知识体系。”

原先的知识图谱技术抛开时间维度去研究实体之间的关系,但在实际的场景中,时间维度是一项重要指标,很多场景下只有在特定时间段内,实体关系才是有价值的信息。另外我们知道数据库有不同的来源,有些场景下,紧急情况发生了,数据库不会通知知识图谱就自己更新了,知识图谱却没有得到共享,这就会出现很大的偏差,所以就需要将知识图谱动态化。

刘译璟从实现角度对此做了进一步阐释,“当不同来源数据都要融合到一起的时候,是一种软融合,不同数据来源的A、B、C,融合成D,一般情况下,原有数据源A、B、C就没有了,只存储D,但当A发生改变成为A’,能不能映射到D中,以前需要定期导入,做不到实时看到数据变化,我们把A、B、C同时记录它们的融合规则,并没有存D,这样融合起来就是实时的。”

随着通信、互联网、大数据产业的深入发展,现在用户对实时交互的要求越来越高。一方面是设备的升级,从电脑到手机,再到汽车和其他设备,另一方面是可视化、可操作,针对数据的可探索、自然交互,要求都比原来要高得多。

百分点科技提出的这一套动态知识图谱解决方案,放在业内也是比较先进的。“我们在这方面是对标国际巨头Palantir的,我们对这个行业的认知和看法落实到技术战略上,会变成一个很基础的技术”。顺便提一下,百分点科技目前拥有数百项大数据及人工智能领域软著与专利,也有中国领先的行业应用模型库及行业知识图谱库。

侧重政府需求,应急场景下初步发挥作用


“用数据智能推动社会进步是我们的使命。”百分点科技总裁高体伟如是说。百分点科技成立之初,当时电商与网络媒体蓬勃兴旺,带来明显的消费价值;而如今,国家进入“十四五”时期,政府强烈的数字化转型需求则给了百分点科技建设部、省、市、区级平台的新机遇,让百分点科技能够更大限度地发挥数据智能、知识图谱的价值。近几年,百分点科技逐步深耕政府级应用服务,尤其侧重在数字城市、应急管理、生态环境和公共安全等领域。

其中,应急管理作为上述重点推进的行业之一,是国家治理体系和治理能力的重要组成部分。随着疫情、国家安全等重大事件发生,变得越来越关键。应急管理是依托大数据全栈技术和多维数据融合分析能力,构建应急大数据治理和智能应用体系,是面向自然灾害、安全生产等应用场景,为应急事件的事前、事发、事中和事后四个阶段提供科学决策支持。

作为应急管理的核心部分,数字化预案虽然比纸质文档更进一步,但是几千份繁复文档,包括相关法律法规、紧急情况处置方法等等,并没有形成可利用的“知识”,人看起来费劲,机器更加阅读不了。比如一个组织架构,分为现场指挥部和总指挥部,现场指挥部又得有一个总指挥等等,在冗长的文本里,机器根本无法理解。“机器能够理解的就必须用一种知识表示的方式去做。” 刘译璟说道。

知识图谱化的预案,则可有效建立各类实体之间和事件之间的空间关系、时间关系及扩展关系等,实现历史灾害事件相似分析、灾害影响关联分析,为应急指挥提供最优指挥方案。

因此百分点科技要将文档知识图谱化,首先要基于此构建一个本体,还能把它“翻译”成相应的语言,再经过一版一版地打磨,一遍一遍地学习,与客户不同部门讨论,不断反复地循环,摸索如何从文本里把属性标签抽取出来,才支撑了专门算法的构建,形成了若干主题库和数据标准,以便规范整个领域行业。

来源:百分点科技

刘译璟认为这种摸索也是完善产品的过程。“需要先处理一些数据,然后在业务里面去试探,如果对业务有正向的效果, 这方面很可能是对的, 我们就继续往前进, 否则就重新换。这是不断去调整的过程,纯理性去推导在实践中是不可能的。整个项目过程, 我们是跟客户不断地进行磨合、沟通,不断理解需求的过程。”

这期间有个分支项目令刘译璟印象深刻,“当时提出一个‘灾害链’的概念, 灾害之间其实也有相互的关系, 当发生一个火灾,有可能引发爆炸, 爆炸会引起危化品泄漏,整个园区可能都要出事,这是一系列灾害强化的关系。下雨引发泥石流, 泥石流又引发什么相关的破坏。我们就做了这么一个知识图谱,并且能和我们已经完成应急知识图谱做很好的衔接。”

来源:百分点科技

这个过程之中,刘译璟也有了些新思考。“预案原来大家都按照公文稿件在写, 那后续它会不会转变成写程序。现在的文本是非结构化,没有精确的语义内涵,但程序有精确的语义”,刘译璟认为组织也是一个执行单元,“所有业务流程本质上就是程序,现实中都是由组织去执行这个程序, 跟计算机执行程序没有本质差别。预案里的指令就好比计算机芯片支持的指令集,我们需要的是提供一系列智能工具,将文本迅速翻译成指令,可以想象成预案的‘编译器’。再往后发展,我们还可以研发针对预案的‘单元测试’,把新编制的预案在历史案例上测试一下,看看预案是否有效。”

具有很强的工程师色彩的刘译璟本身是学数学的,取得了北京大学应用数学专业博士,可谓是学霸级选手。毕业以后就加入了百分点科技,十年过去了,从一个普通的程序员,到技术副总裁兼首席架构师,再到如今公司的CTO。此外,刘译璟2015年还入选了北京市“科技新星”,获得2019年度北京市科学技术奖二等奖。而且他并非是技术人的刻板形象,还组建过一支摇滚乐队,据说打游戏也是高手。

对于跨界达人的他,现在更希望找到工作中“跨界”的同行者,而这种跨界并非出自兴趣,更多是业务的实际需要。尽管之前的“本体”都由团队通过学习来获得,但时间成本太大,以及收效都不是最好的,仍然需要某些综合性人才,既懂计算机、人工智能,也懂行业知识。他认为,在这个时间里能不能快速造就出一个一流团队,恰好能把行业知识跟数据智能得以贯通,这个“时间点”会成为竞争门槛。

文:陆易斯 / 数据猿

●上一篇精彩好文:

数据猿专访华大基因靳大卫:以火眼实验室为“根据地”,我们要打造数字化抗疫新标杆


❷ 创新服务企业榜 

❸ 创新服务产品榜

❹ 最具投资价值榜 

❺ 创新技术突破榜

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》


联系数据猿

北京区负责人:Summer

电话:18500447861(微信)

邮箱:summer@datayuan.cn

全国区总负责人:Yaphet

电话:18600591561(微信)

邮箱:yaphet@datayuan.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存