明略人·徐安华:笔录/研报/征信报告,有NLP加持,看我们如何让机器懂“行话”…
“在现在的时间点上,学术界和基础研究领域已经帮我们提供了非常好的技术“积木,我们将这些‘积木’累积起来,变成企业的城堡,将人工智能真正落地,帮助企业构筑起自己在行业内部的竞争力和护城河。”
--徐安华
今天是周三,从上周到现在,我们一直在讲行业应用,从公安如何进行高效情报研判到金融如何提升风控和营销的效率,如何落地普惠金融项目,再到工业领域如何通过技术解决诸如轨道交通领域的问题,关于行业人工智能我们讲了很多应用,今天我们来讲讲技术。从哪儿开始讲呢?从让机器“懂人话”开始吧,技术上也叫做自然语言处理。
我们曾经讨论过人工智能能不能谈恋爱这个事儿,发现在和Siri的互动中,没让TA理解人类的感受是一件还挺难的事儿。但是,让机器分析口供、阅读研报,做智能客服,消化医学文献,这些都是自然语言处理在行业中切实帮助到我们提高效率的业务正在各行各业进行着。自然语言处理技术发展了60年,怎么能让机器理解专业的行业知识?
明略数据的行业人工智能,是让我们的机器利用自然语言处理的技术在行业应用中,读懂“垂直领域”专家的语言,把行业的语言转化成知识图谱,输出行业垂直领域的知识和智慧,让机器懂那些行业专家的话,懂风控,懂破案。
徐安华,明略数据技术合伙人,自然语言处理技术专家。2014年末加入明略数据后,从事大数据引擎上SQLl引擎级别的行列权限开发,自然语言处理技术的研究,现任关系挖掘产品某支线产品经理。
https://v.qq.com/txp/iframe/player.html?vid=h0513fmqxof&width=500&height=375&auto=0
以下为内容文字整理版。
大家好,我叫徐安华,是明略数据的技术合伙人。我的职责是把人工智能技术、自然语言处理技术,引入到我们的企业级客户当中去,让他们的效率能够得到极大的提升。
那么什么是自然语言处理呢?其实,这件事情非常简单,我们每一个人都在用自然语言进行沟通交流,我们说的话、看到的文字,全部都属于自然语言,唯一的区别在于,我们是在用人脑进行处理,而这个层面上来讲,我们每一个人都是自然语言处理的高手。
但我们今天主要谈及的是机器如何去理解自然语言处理。iPhone有一款非常好用的数字处理助手叫做Siri。Siri第一次出现的时候,我记得是在iPhone 4s上,当时我们几个同事买了一台最新的iPhone 4s。我们对Siri说了很多中文、英文,Siri通通都听不懂,但我们期待它能听懂。因为在iPhone广告里面,Siri是能够听懂美国人说的英语的,并且能对答如流。所以,我们当时非常怀疑的一件事情是,我们的中式英语是不是Siri听不懂,并且在那个时间点上,我们就非常坚信机器是能够理解自然语言的、是能够帮到这件事情的。其实,Siri从接受我们的语言处理到它理解里面的内容、再到它最后把信息合成,然后以语音的形式给出回答就是机器做自然语言处理的一个完整的过程。
自然语言处理严格从定义上来说,主要分为两个部分,第一个部分叫做语音识别,什么意思?语音识别就是把我们通常所说的话转化成文字,无论是微信也好,或者其他很多的社交软件也好,现在都有这项功能,它能够极大地节省大家录入的时间。第二个部分是对语义的理解,简单来说就是对文字内容的理解。
第一件事情“语音的识别”,在Google、百度这样的大公司已经做的非常好了,他们的准确率能够达到99.3%,除非是涉及到非常特殊的情况,比如说四川话、上海话这些内容,它也许处理的不够好,但是,从总体上看它的准确率已经非常高了,并且已经能够达到实用效果了。
而在对于“语义的理解”这第二件事情上,因为语言本身具有丰富性、多义性,再加上在这个相关领域相同的文字所表达的含义又是不一样的,所以在这个过程中,理解语义就会变得非常困难。举个例子,比如非常简单的一句话“我叫小明”,就会产生至少2种以上的意思。第一种,就是我的名字叫小明;或者我的昵称叫小明。第二种,就是这件事情是小明负责的,我帮你喊小明过来。在这两个不同的语境下,非常简单的这四个字,代表着两种完全不同的含义。
既然语义的理解这么困难,我们为什么还要持续去做语义的理解,尤其是让机器去做语义的理解呢?因为在这个世界上,有75%以上的数据都是这种非结构化的数据,包括视频、图片、文字,文字在这其中占据了绝大部分。这个信息的存储,或者说这种信息的表达,我们可以畅想一下,假如我们可以更好地去理解文字中含有的语义信息,我们把这种功能应用到银行的客服机器人上,我们就可以做到在24小时随时随地去询问银行的业务细则,我们不用考虑银行的客服人员什么时候上班,也不用考虑银行的客服是不是会显示这个坐席忙。再比如说现在北京的房价非常的离谱,所有人都在关心北京的房价什么时候再涨、我什么时候该买进房子,如果我们能够把社交媒体上、网络上大家对这些信息的讨论、收集、整理,最后提炼出来一些观点,这样对于我们在什么时间点买入房子、什么时间点做投资,就会非常有帮助。
很多未来学家预言,通用的人工智能可能要到2050年才能实现,有一些更乐观人可能觉得这个数字是在2035年,也有人说2025年就能实现。不管怎么样,这个数字离我们当今还是有一段的时间。那么,这些技术在我们当前的这个时间点上,怎么样才能发挥它最大的价值?
在明略数据内部,我们认为我们需要做好三件事情来保证在当前这个时间点上,我们的技术、我们的人工智能技术、我们的语义理解技术能够发挥最大的价值。
第一件事情,我们认为技术的上界要跟应用的下界有一个非常好的结合。就是我们技术,它其实能解决的问题是有限的、人工智能所能理解的问题也是有限的。比如说,我们非常著名的现代钢铁侠ElonMusk今天要造一架音速超过5倍音速的这样的一架客机。像Elon Musk这么牛的人,今天他依然做不了这件事情,即使他现在能力再强,依然造不了能够飞到音速5倍的飞机。为什么呢?因为现在飞得最快的飞机是美国的军用飞机,它最多也只能到达音速的3倍,也就是说这样的飞机发动机还没有出现。所以,没有任何一个人可能造出一架达到音速5倍的客机。
我们回过头来,在语义理解这个领域现在做的最好的可能是iPhone的语音助手Siri。你可以问她今天的天气是怎么样的,她会告诉你今天的气温、今天是否下雨、今天的风力,但如果你今天考试成绩不好,你问Siri我这次考试会不会不及格,我相信Siri可能会告诉你:Sorry,我不懂你这个问题……或者,其他的非常敷衍地回答。在这种情况下,我们就知道其实已经到达了技术点上界。而这种应用本身在这个情况下,不是特别地适用。
第二件事情也是非常非常重要的,就是我们在做人工智能语义理解的过程中,我们用到很多的技术都是机器学习相关的技术,我们用到很多的模型是非常抽象的,在我们把问题解决了之后,客户会问我们问题是怎么解决的、出了错误该怎么去调整……很多时候我们只能遗憾地告诉客户,这个模型就是这样的没有办法去调整,因为算法就是这样的。最最著名的例子是最为火热的这个深度学习技术,它是个典型的黑盒,你告诉他输入,他给你一组输出,至于说中间有哪些参数更为重要、哪些事实更为重要、应该怎么样去调整、怎么样去更加适合我们的业务……现在没有人能够做到这一点。
当然,现在有一些非常好的研究机构,也有一些非常著名的机器学习的研究者,在不断朝着这个具有可解释性的机器学习、深度学习的方向在探索,但是到目前为止,还没有非常好的成果。
在明略数据内部,我们在服务很多的客户过程中也不断会遇到一些问题。跟大家举一个例子,我们在服务公安客户的时候,一个非常典型的场景叫做串并案,在这个场景下,我们有很多的文本信息,需要找到这个文本信息它所描述的是否是同一个犯罪嫌疑人,这些文本信息从技术的角度上来说,你可以用简单的文本相似性,如果这些文本里面所使用的词的数量、种类、个数比较接近,我们就认为这个文本说的是同一个事情。但事实上呢?对于我们有着非常丰富的业务经验的客户来说,他们做事情判断的依据不是这两个文本之间到底用了几个形容词是一样的,或者说他用了几个动词是一样的,他需要的是业务的知识,我们需要把文字的内容提升到语义的级别,需要从这个文本里面它所蕴含的这个犯罪嫌疑人的身份、体征、口头禅,以及这件事情所发生的时间、地点,这样的一些信息通通提取出来,那么,业务人员在做判断的时候,所有这些要素是有优先级的,因为我们精确的提取出来语义级别的信息帮助他们,在筛选这些非常重要的业务要素的时候,才有可能找到需要的更重要的要素。从而从一些维度上,能够更精确的去控制目前遇到的业务问题。
第三点,也是非常重要的一点,那就是虽然现在所有的人都在讲大数据,大数据落地最多的地方也是在企业级客户,但事实上从语义理解这个层面上来说,企业内部的数据是小数据,互联网里面的数据才是大数据。企业内部的数据往往蕴含了企业很多的私有的信息,也许非常重要,没有办法公布出去。但是,这些信息里面它所需要的一些要素,比如说会涉及到哪些词汇、哪些公司的名字、哪些地址信息……这些信息就是公开数据里所蕴含的信息。如果我们可以把公开领域的这些数据、公开领域的这些信息引入到企业内部,我们是完全能够在企业内部做起来专门属于企业内部的人工智能。有句话说的非常好,就是当你数据少的时候,有多少人工才可能有多少智能。要做到真的人工智能,我们希望的是有更多的智能,所以我们需要更多的数据。这也是现阶段,几乎所有的人工智能领域的大牛们,一直在说我们需要非常多的数据,我们做深度学习需要非常多的数据。虽然我们之前讨论到人工智能,通用的人工智能离我们可能还非常遥远,但是在现在的这个时间点上,我们的学术界,包括我们的基础研究领域,以及帮我们提供了非常好的工具、为我们提供了非常好的积木。我们要做的就是把这些积木在特定的行业、特定的应用下把它累计起来,最后把它变成企业的护城河、变成企业的城堡,用这些真的人工智能在企业里面落地的应用,帮助我们的企业构筑起来他们在行业内部的竞争力、在行业内部的护城河,并且我相信现在的基础工具已经非常丰富了,我们还缺这种行业里面应用、去实现行业人工智能这样的成功案例。
明略数据是一家以大数据起家,致力于实现垂直行业领域的人工智能的公司。我相信在不远的将来,我们一定能够帮助大家实现行业内的人工智能。谢谢大家!
我是徐安华,我是明略人,我们用科技延伸人类智慧。
新一轮人工智能的革命已经到来。明略人作为“行业人工智能”的推动者,秉承着“极客追求·极致服务”的精神,正在凭借着自身强大的数据处理能力、学习能力,整合资源,结合各行业知识,深入大数据智能挖掘,在各领域形成行业人工智能应用雏形。2017年,我们将与客户比肩同行,加速实现传统行业的智能化升级,让人类在专业领域更高效。
未来是人机共存的时代
未来,明略人用科技延伸人类智慧
本周五,大家最最期待的压轴节目即将上演~
你们是不是很期待?
《尤旸与人机交互:把专家的经验用图的形式展现出来》
敬请期待!
实战分享五
尤旸与人机交互:把专家的经验用图的形式展现出来
关注明略数据官方微信,回复“明略人”,或点击下方明略人菜单栏,随时关注《明略人》更新。