查看原文
其他

传统文本数据维护困难?达观数据用文本挖掘技术智能读懂文本合同

2017-11-27 拓扑社 拓扑社

拓 扑 社

传 递 企 业 服 务 价 值


达观数据 CEO 陈运文


拓扑社(微信:tobshe)11月23日报道

文:窦悦怡


项目名称:达观数据

成立时间:2015年5月

主营业务: 为企业提供文本挖掘、垂直搜索引擎和个性化推荐技术服务

近期融资:2017年4月获得5000万A轮融资,投资机构为软银赛富、方广资本和众麟资本


本文预计阅读时间:5分23秒


以企业的法务或者审计部门为例,他们每天会有大量的文件资料需要起草、审核、签订,这些文件会产生海量的文本数据,传统维护文本数据的方式都需要企业配备大量人员对其进行归类、整理和分析,这样无论是从效率、成本还是准确率上来说,人工的维护方式都存在缺陷和不足


其实,处理和维护文本资料的环节都可以用机器来代替,企业可以节省大量人力成本,提高准确率,同时通过用文本挖掘技术可以帮助企业提升运营效率。”达观创始人陈运文告诉拓扑社(微信:tobshe)。


达观数据是一家大数据技术服务的公司,创始人陈运文曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师等职务,在大数据挖掘、文本挖掘技术等方面拥有丰富的行业经验。


2017年4月获得5000万A轮融资,投资机构为软银赛富、方广资本和众麟资本。此前,达观数据以上海二期校友的身份入选微软加速器,拓扑社采访到了陈运文。


-取代复杂手工环节,提高准确度-


其实,文本挖掘并不是新鲜事物,它是一项相当成熟的技术,Google、百度十几年前就在用文本挖掘技术做搜索引擎和个性化推荐。


陈运文告诉拓扑社,过去文本挖掘技术发展的并不是很成熟,只能停留在字面上,并未通过具体的使用场景使其进入商业化落地阶段。


所以,企业很难通过文本挖掘技术提取文本资料中的复杂数据,进行深度分析和处理,把数据的最大价值发挥出来,帮助企业提升运营效率,降低成本。


不过随着人工智能的发展,在深度学习等新技术出现后,基于自然语言处理技术的文本挖掘等技术有了很大的进展。通俗的来讲,自然语言处理技术能够处理企业产生的大量文本数据,挖掘其数据背后的含义,进而帮助企业在运营上提高效率、降低成本。


“尤其是在一些垂直行业,如财会行业、法律行业、人力资源行业都有大量文本资料。如果通过文本挖掘技术来分析文本资料中的文本数据,让计算机代替原来的人工进行自动化做处理,并自动来理解这些内容,减轻人的重复劳动,帮助企业提升效率,这是非常有意义的事情。”


达观数据的打法是,通过文本挖掘技术为传统大型企业、互联网媒体、金融、直播类等客户提供智能推荐引擎、垂直搜索引擎、数据采集挖掘、用户画像等大数据技术服务。



达观数据面向的是B端,注重对垂直领域的数据进行深入挖掘,通过数据模型需要与行业知识相结合,用机器取代复杂繁琐的手工环节,帮助企业处理大量的文本数据,使其产生更精准的效果,提高效率。


不过,陈运文表示,做好文本挖掘并非想象那么简单,这背后需要机器去理解人类复杂的语言。尤其汉语的语法规则不清晰,表达随意,这些都是机器处理分析时的难点。


-文本挖掘是基础,围绕其进行产品延伸-


目前,达观数据基于文本挖掘技术推出文本语义理解垂直搜索引擎和个性化推荐引擎三款产品



陈运文表示,这三款产品之间的关系是文本语义理解是基础,包含文字分析、挖掘、处理等技术,而垂直搜索引擎和个性化推荐引擎是在文本挖掘基础上延伸出来的系统。简单来说三款产品是相同的。


文本语义理解是达观数据针对企业不同层次需求提供的产品,它基于文本挖掘最新深度学习技术和神经网络,提取海量文本数据的潜在特征;结合经典的n-gram特征和概率模型,使用表示学习优化特征提取;同时充分运用增强学习技术,通过少量标注数据即可提升模型训练效果。


此外,文本语义理解会针对企业所在行业,定制专用文本模型和知识图谱,确保语义挖掘效果,这样可以帮助企业构建行业专属语义模型,自动提取专有词汇和核心语义;其次,可以帮助企业构建垂直行业的知识图谱,以特有的结构化方式分析文字含义;还可以帮助企业持续采集和更新行业专用语料和知识资源,为企业长期服务。


个性化推荐引擎是针对企业的每个用户的属性和偏好,进行“千人千面”的智能内容推荐,帮助企业提升用户活跃度、停留时长、付费率、留存率等关键指标。个性化推荐引擎主要面向的是电商、媒体、直播领域,同时也会涉及一些传统行业。


陈运文介绍道,传统行业以法律行业为例,假如律师在拿到新案件后,可以推荐出与其相关的判例、以往案件和相关法条,无疑对律师行业的整体工作效率都带来显著的提升。


垂直搜索引擎是针对企业的某一个平台或者网站推出的搜索系统,它可以对企业的海量文章、商品、内容等信息进行深入语义分析,建立垂直搜索引擎,帮助用户实现快速、准确的搜索服务。


陈运文解释道,如果想要确保用户输入关键字就能检索出相关的内容和产品,除了需要系统对文本语义有着深入的理解,还有搜索时间的性能问题,即在用户检索后,用很短的时间呈现出检索结果,而不需要用户等很久才能看到。


在这里提的是,达观数据还为每个服务用户配备大数据管理平台。企业方可以通过平台看到接入功能模块全面详细的数据报告,对这些后台数据的分析往往会给企业的运营方向新思路。



据悉,这款大数据平台中对应了其常提供的六种技术服务:搜索引擎、推荐引擎、垃圾评论、黄反审核、微信抓取和数据统计。每一种功能都可以看到详细的用户行为分析。这些功能,给企业的产品运营人员提供了数据支持,辅助他们做出更好的运营决策。


除了上述几款产品外,达观数据还针对金融、媒体、电商、法律等行业推出相应的行业解决方案。



据悉,在盈利模式,达观采取按年收取系统费用,根据用户的具体需求,也会提供不同的增值服务,平均客单价在20万-100万元不等。


根据官网数据给出,现阶段,已经有招商银行、中兴、中国平安、华为、爱卡汽车、暴风影音、丰趣海淘等上百家企业接入了达观数据的产品服务,产品准确率达到80%,召回率达到90%。


-主编点评-


达观数据核心技术团队曾任职百度、阿里、腾讯、盛大等一流互联网企业的大数据管理部门,在人工智能技术服务领域已经积累了数十年的经验,并且数次斩获国际顶级技术赛事ACM和EMI的冠军大奖。


同时,达观数据通过文本挖掘技术帮助企业企业深度剖析用户兴趣爱好,自动挖掘数据隐藏的规律,用机器取代功人工开发和维护复杂的文本数据的环节,提高内容的准确性,降低生产成本、提高企业的效益,这也是达观数据顺利入选微软加速器的必然原因。


加入微软加速器后,达观数据可以借助微软Azure云资源、微软研究院的Power B、Dynamics CRMI等在技术和产品方面进行深度打通,数据整合,提升产品的智能化。


也可以借助微软的品牌效应对接一线VC,拓展融资资源,还可以在市场和品牌上获得微软的支持与帮助。


END


声  明


本文为拓扑社(微信:tobshe)原创稿件,转载须在文章开头明显处注明来源拓扑社(微信:tobshe)及作者名字。如不遵守,拓扑社将向其追究法律责任。

 

投稿、寻求报道或商务合作,请发邮件至 tobshe@itjuzi.com,或联系拓扑君(微信:tobsir),标注公司-职务-姓名,谢谢。

往期热点回顾

创业速递


资本观点




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存