达观数据陈运文:计算机如何像人一样做阅读理解?
人工智能的发展在运算智能和感知智能上已经取得了很大的突破和优于人类的表现,而在以理解人类语言为入口的认知智能上,现在计算机已经可以实现哪些事情,未来这方面的突破和技术落地又集中在哪里?
5月25日,在达观数据主办的2018长三角人工智能应用创新张江峰会上,汇聚了中国领先的人工智能企业的创始人和管理者,SAP、真格基金、云知声、七牛云、安永、沪江、喜马拉雅、森亿智能、平安等企业都在大会上进行了分享讨论。达观数据创始人陈运文在会上进行了《人工智能与阅读理解》的演讲。
本文对分享的精彩内容进行了整理,在不改变原意的前提下有删改:
汉字最早诞生的时候是刻在甲骨上,人类发明文字之前和动物一样,只能把掌握的信息、对于自然界的了解通过我们的基因传给下一代。但基因能承载的信息非常有限,它没有把更多的智慧传承给下一代。
荣幸的是人类各个民族都发明了自己的文字,在人类的文字诞生以后,我们通过文字记载的方式把人类更多的智慧,一带一带的传递下去。人类对于文字的运用和理解已经有几千年的历史,计算机诞生以后,能不能让计算也像人一样,帮助我们更好更快的进行文字的阅读、理解和分析呢?
我们现在这个时代,信息化程度已经非常高了。各行各业所有的文档,不管是word、PPT、pdf、邮件、微信,大量的信息都在以文字的方式承载和传递。我们平均每个人每天,有接近1/3的时间用在和文字打交道上。
各行各业的工作岗位都进行着文字的阅读。比如,人事每天要看大量的简历,财会人员每天要看大量的报表,法务人员每天要审大量的合同、起草协议,市场人员每天要做活动文案和新闻稿件的写作。这些工作,有时耗费了非常多的精力和时间。
计算机和人相比有两大特点:
计算机可以运用这个来做很多人很难做到的事情。例如,通过阅读上亿篇文章,计算机可以记住上亿篇文章里面的每一个字。这样就可以让计算机来发现新文章中的错别字。我们曾做过一个实验:两千字的文章里面放十个错别字,给人半个小时时间,很少有人能在半小时内把十个错别字都找出来。但是计算机一分钟之内就可以全部找出来。
当计算机阅读过海量的合同之后,下一次给它看一个合同,它可以告诉你当前的合同有哪些风险,哪些问题,哪些字词语句的漏洞,哪些数字归置的问题。这个能力来自于计算机海量的阅读和记忆能力。计算机做文字的信息处理挖掘比人更快更强。
今天来看,文字的自动化处理面临一个非常好的机遇。深度神经网络的技术从2006年由Hinton教授提出来以后,经过十多年的发展越来越来成熟。尤其是用在文本处理领域。用长短式记忆的神经网络,可以达到一个非常好的文字分析理解的效果。
所以很多行业里面,越来越多的基础性的文字处理工作可以交给计算机完成,让劳动力释放出来,做更多有创造性和有价值的工作。
人从一年级开始学语文,到成年以后进行专业文书的阅读,通过阅读了很多文章从里面归纳出规律,当看新的文章便根据人脑里面记的规律来进行工作。
同样的,计算机阅读文本的数量是人的几万倍。通过阅读海量的文本,从中总结规律,建立模型,当“看到”新的文本时计算机就可以像人一样完成相关的工作。
计算机所做的工作之一就是进行句法结构分析。比如这句话,“美国总统特朗普3月22日签署总统备忘录。”
计算机解读这句话和小学语文老师教大家进行句法结构分析是一样的。计算机会自动化分析出“特朗普”是个主语,“签署”是一个谓语,前后是它的修饰成分,计算机理解了文字含义,就可以帮助我们做很多自动化的工作。
达观用深度网络神经技术,让计算机能够像人一样解读这句话。比如:小明去达观数据开会。这句话我们把它输入到达观的双向的神经网络里面,让神经网络理解这句话哪个是主语,哪个是谓语,并正确的理解文法,然后自动化进行文字处理工作。
文本的分析挖掘,大致有三个阶段,这和小学语文老师讲语文时类似。
1. 字词级分析
2. 段落级分析
3. 篇章级分析
我们让计算机做一篇文章的阅读时,它是先理解每个词的意思,再理解每个句子的意思,最后再理解文章的意思。计算机可以瞬间对于字词进行切分,可以自动的分析出来,哪个是动词哪个是名词,哪个是形容词,哪个是副词。
进行字词级别的拆解之后,可以识别出哪个是人名哪个是地名哪个是关键要素。如果是合同的话,可以拆解出合同的信息。
计算机还可以把一万字的报告,简写成两三百字的内容。把文章里面的核心观点提取出来,用户对于文章有哪些意见进行打标签,自动分析情感是正面还是负面。进行文章内容的审核判断。
我们也可以让计算机写一首诗,以让计算机帮我们写对联,任意出一个上联,“人工智能汇张江”,计算机可以自动生成很多的下联。计算机还可以把一篇文章改写成武侠小说,法律文书等不同文体。
今天计算机进行文字处理的能力已经接近普通人的水平,在很多的应用场景里面可以用它来代替我们重复性的工作。
比如达观研发的新闻稿的文字校对系统,可以协助文字工作者进行校对;文档智能审阅系统,可以协助审计人员进行财务报表账目信息的抽取,以及协助政府补贴项目的申请、印标书的核对等等。
总结一下,计算机来进行文字处理,可以用四句话来解释:
1.千层网络,有深度神经网络,模拟人脑进行文字的阅读理解;
2.万卷诗书,让计算机阅读过海量的文章之后,它能够理解这些文章的含义,并建立起语言模型,代替我们的工作;
3.寒暑相推,系统要不断的迭代进化,让它的能力一点点提升,进而能达到人类的水平;
4.而岁成焉,最后实现一个非常强大、有能力的系统。
阅读