查看原文
其他

数博科技:经常搜索不到想要的结果?“垂直版百度”告诉你|裸泳投资欲

张浩 裸泳 2020-09-09


『很多人在写可行性报告时,常遇到一个问题是,需要找一段某公司在某一年做的某件事,怎么百度都找不到...』


视觉中国/图

文/张浩

深度报道/共3679字/阅读8分钟



项目名称:数博科技

主营业务:金融及新闻行业人工智能解决方案供应商、领域级搜索引擎研发商

融资情况:2017年获得数百万天使轮投资

关键词:NLP、机器学习、人工智能、金融、垂直领域级搜索引擎、知识图谱、中国平安、搜狗、雅虎

受访人:数博科技CEO 文卫东、CTO 刘健博

句话提炼:领域级搜索引擎



1994年,伴随全球联网,信息开始剧增,两位斯坦福毕业生考虑,能否设计一个工具,让网民能够快速从海量信息里找到自己想要的信息,亦即网上导航办法,于是他们搭建了一个名为『致远和大卫万维网指南(Jerry and David’s Guide to the World Wide Web)』的网站。

 

同年4月,两人根据《格列佛游记》将网站更名为Yahoo!。


杨致远和大卫·弗洛

 

今天看来,雅虎可能是现代意义上最早的搜索引擎。

 

2017年12月,王小川在世界互联网大会上说了句大胆的话:搜狗将重新定义搜索引擎。如何重新定义?恰也是当天李彦宏的主题——人工智能。

 

而之所以是人工智能,是因为搜索是在探究以语言为核心的人工智能时,非常重要的场景。

 

但实至今日,搜索引擎还在考验人们的检索能力,经常会遇到搜索不到想要的结果。

 

在王小川的构想里,『真正厉害的是机器在自然语言里面产生阅读能力,当你提问题的时候,它不是给你10个链接和10个页面,而是更细颗粒度地给你提供一个答案,这是我们说的AI往下发展的方向。』

 

主持过多项自然语言理解课题的文卫东和王小川很像,但他的思路更垂直。

 

『大多搜索引擎厂家都在做通用型平台,但通用型平台的准确率没有想象中的那么高,娱乐人是可以的、70%是可以的。但放在行业应用里,70%就远远不够了。


文卫东


『你能否告诉我,这个地址背后的含义是什么?』


成立数博以前,文卫东在武大教书,做了十几年自然语言理解的研究工作,让机器如何更好理解人说的话,是他常年的课题。虽也多次获奖中国计算机学会组织的自然语言处理各类竞赛,也尝试过一些产学研的工作,但一直未能遇到人工智能得以产业化的契机。

 

事实上在2010年以前,自然语言处理的应用在机器学习算法和硬件性能没有得到很好提升的情况下,一直没有显著发展。

 

在人工智能之前,这个领域一直有两个流派,一个是规则流派,用词典去解释每个字与词,用经验规则提取词语以及分析句子等。所以以前的自然语言处理,多要与中文系合作。

 

后来由于硬件性能的提升以及机器学习的发展,就产生了另一个统计学流派。因为机器学习本质源于统计学原理,通过统计来展现概率,通过概率来找到文字的意义。

 

两派特点显而易见。规则派在某些地方更准确,但实用化程度不够;机器学习相比于先验规则,准确率低一点但实用程度更高。『现在看来,用机器学习、深度学习来做这件事在进展上会更快。』诞生于2016年的AlphaGo正是此派的印证。

 

巧的是同样在2016年,文卫东也遇到了这件事可以产业化的契机。

 

当时中国平安找到文卫东,提了一个需求:给你一个地址,涵盖省市区街道姓名电话信息,你能否告诉我这个地址背后的含义是什么?

 

文卫东回忆道,『我们就用中文理解的方式把他所有信息进行标准化,给地址赋予一定权重,告诉他这个地址价值多少钱。地址详情有小区,背后有大数据支撑,就能让机器知道这个小区是高档低档、在哪个城市、均价多少等。后来中国平安拿去辅助营销,精准度提高了8%。因为在做电销时,之前打电话是不知道投保人、或者未来投保人有什么样的价值,而知道之后就能精准推销相应类型的保险。』

 

做完中国平安项目后文卫东发现,『我们在文字上所做的一些处理,让机器去理解,已经成为这个发展阶段比较重要的需求了。

 

于是在同一年,数博科技成立。


通用型平台娱乐人可以,但放在行业应用里就远远不够


但此时的现状并非敢为天下先,百度、腾讯、苹果(Siri)等公司都在做相应的尝试。文卫东认为,这些既有厂商都在做通用型平台。

 

『通用型平台的准确率没有想象中的那么高,娱乐人可以、70%可以,但放在行业应用里,70%就远远不够了。我们要能够去生产进业务线,这必须要有一个领域级的语义库做支撑,让机器能够理解意思,而每个领域的逻辑和意思都不一样。

 

文卫东与几位合伙人商议,首先圈定在金融领域来做。

 

按照我们对中文语言的理解,要理解一段话,需要对句子的成分做分析,哪些是主语、哪些是谓语、状语、宾语、定语,然后这里面哪些是典型的名词,哪些是社会上提到的实体机构,哪几个字组成起来是人名,人名组起来后是什么,句子里面发生了什么事件,呈现出了哪些关系,表征了哪些属性,等等。

 

『相应的内容要做理解,必须要有相应的语义库做支撑,不然就理解错了。』

 

文卫东表示,『只有这样做了金融的语义库建设,之后才可能对金融领域文本的理解达到一定准确度,这个准确度去对他们的传统业务进行人工智能的升华、或者辅助才能起到作用。

 

数博目前的业务模型是,前端搜集数据——数据到引擎自动分析量化、相关线索关联——结合具体应用需求输出给B端客户。

 

而语义库则是作为除去人工标注的样本级和全网爬虫爬取的数据外,其中第三个最重要的数据源头。



事实上语义库这件事目前在业内还没有很好的标准去量化评判,文卫东表示,目前他们能做到的是尽可能深刻理解每一句话,而非市面上常见的标签方式以及按热词做计算。

 

文卫东以此前给中证信用所做向裸泳举例。

 

在中证信用此前的企业评级模式里,首先有固定的评级范本,范本中又有许多固定的影响因素,会使用大量人力去寻找市面上的新闻和数据里这些因素的值,然后把值填入模型进行计算评级。


 

『现在有了这样一个引擎后,就能解决几个问题。第一你不需要花那么多的人力去收集信息,第二它能辅助人做一定智能判断,第三结果会更客观。因为机器有大量的历史数据做支撑,所以它不仅能帮你把因素找出来,还能基于大量数据的脉络告诉你现在的数据能够带来一些什么样的预测。』

 

而这个引擎的背后则是一个专业级的知识图谱。

 

『很多像企查查等工具从工商那儿拿到的是一个基本静态的图谱,我们会在基本图谱上加上脉络和线索,所有脉络和线索又与时间地点相关,关于任何企业、人、机构发生的事,与其他企业、人、机构发生的关系,都能从我的句子里抽出来放在图谱里,就能形成各种线索。这种线索目前看来在两个领域会特别有用,一个是金融,一个是传媒。金融领域里目前在做两块,一个是信用评级,另一个是企业贷款时要做的风控。』

 

据悉,目前他们正与武汉某银行在签订企业贷款风控服务业务。而这一切都是关乎引擎的能力来做的。



能够解决复杂问题的领域级搜索引擎


事实上从战略上说,目前的B端业务并非数博的最终形态,文卫东还是希望通过这些典型的领域级应用,去更好打磨这个基于大数据的领域知识引擎,使其更准确。

 

『因为引擎是要代替人去理解篇章和句子的,要相应把里面的内容全部抽取出来,既要准确又要快,完了还要这篇文章、下篇文章、和以前抽取的文章都要关联起来,还不要出错。比如麦克乔丹,叫这个名字的既有打篮球的,又有人工智能的大神等等。比如招行、招商银行、招商银行股份有限公司等等要做归一化处理,能够无二义性的关联起来,这就是我们要打磨引擎的能力,让它更强。』

 

而之所以要这么做,是因为时至今日,人工智能用机器学习去判断一个东西时,仍没有一个通用的标准去定义它,还找不到方法解释人工智能通过机器学习算法得到的结果。

 

比如98%正确,2%错了,是出于什么原因错了,只能是通过概率上有个计算。

 

『还有个问题是可推理性。现在我们还比较自豪的是能把文本理解的比较细,但即使做到这一步,推理的能力还不够。比如公司的实际控制人是谁?我们让机器做都还是按人的逻辑在做。比如判案的时候,这个人18岁,涵盖的意义是什么?可能身高165、高中快毕业了等还有很多意义,但这个在机器里还很难做得好,除非是深入到一个领域一个应用里,有业务专家积累了几十年的经验规则,能够告诉我们他们几个紧迫的需求,这几个紧迫的需求里有相应的规范,然后我们凝练出机器能够理解的模板,再用机器来相应的推理。



所以已在业内科研数十年的文卫东,最终是想做一个领域级的搜索引擎。『线索随着应用会越来越多、越来越凝练、越来越接近用户的需求,问一个问题,我能给你领域级的答案,这是我的理想。


而这样的问答,不仅仅是『招商银行的董事长是谁?』这种简单的问题,而是可以问哪家企业在哪一年发行了哪种债券发行了多少。此类现有搜索引擎所无法解答的复杂性问题。

 

文卫东目前正在做一个国家课题——基于搜索引擎的要素型事件摘要。

 

『简单来说就是搜索一个词,百度会给一个结果,我就针对这个搜索结果做事情,我的初始集就是搜索结果,我就把搜索结果做相应的事件归类,把事件发生在什么时间、地点、属于什么类别等进行识别,再根据我们已有的知识图谱进行关联,并给出排序结果。』

 

其实像裸泳大多读者为金融从业者,很多人会经常写可行性报告,常遇到的问题是,需要找一段某公司在某一年做的某件事,怎么百度都找不到。但若是有了这样一个引擎,就很方便了。

 

搜索本是在探究以语言为核心的人工智能时非常重要的一个场景,这件事有多方便,可能会是我们判断人工智能发展进程有多快的一个重要进度条。


对项目感兴趣可在后台与我们联系~


- End -



精彩文章回顾 ☟


对大多人来说,我们并不了解这个世界的运行方式 | 批发价买别墅,只买商品,不买营销 | 他们让游戏内容重回C位置 | 二手免费交易平台做母婴用品一手租赁 | SAAS+AI智能影像如何赋能医疗决策 作为投资人,无形的东西比有形的东西更重要 | 打破刚兑,私募才有春天 | 发乎情的咖啡,如何不止于赔 楚商集团李璟璟:“走心”投资,“掘金”医药 | 枫红资产万杰:理工男的并购经 | 光谷硅谷的差距,不在产业,而在金融 | 武汉注定微不足惜,武汉注定一举千里 | 这并不是一个乌托邦产业,自动驾驶就是未来



裸泳已进驻今日头条、新浪、网易、天天快报、搜狐、九派、大鱼号、雪球、财条等,敬请关注。



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存