查看原文
其他

阿里巴巴副总裁司罗:达摩院如何搭建 NLP 技术体系?

CSDN App CSDN 2020-12-18

在 CSDN 主办的第三届“AI 开发者大会(AI Procon)”主会上,作为阿里巴巴副总裁、达摩院语言实验室首席科学家、ACM 杰出科学家,司罗在题为《为商业搭建语言桥梁》的演讲中,介绍了 NLP 的技术发展及阿里在该领域的落地实践。

演讲者 | 司罗
整理 | 王金许
责编 | 唐小引
出品 | CSDN(ID:CSDNnews)

司罗把人工智能分为四个层面。在计算智能层面,近年来取得了一定成就,而在更高层面的感知、认知和创造智能上还在探索中。

感知智能是指找出自然界的实体,比如找到新闻、故事中的人名、机构名、地址等相关信息。认知智能是在这些实体间找到相应关系,并进行有效推理,比如在海量新闻、故事之中,找到某个事件发生、发展、高潮和结束的整个过程。而创造智能是更高的层面,比如是否可以由计算机做出内容自洽的长篇小说等相关内容。

他认为,要实现完整的人工智能,离不开自然语言处理技术完成相应的语义理解能力。

作为“人工智能皇冠上的明珠”,自然语言智能要实现的是人与计算机之间用语言进行有效通讯。它融合了计算机学、数学、统计学、心理学、语言学等学科于一体,涉及自然语言的分析、抽取、理解、转化和生成等多个课题。

7 月 3 日上午,在 CSDN 举办的第三届“AI 开发者大会(AI Procon)”主会上,作为阿里巴巴副总裁、达摩院语言实验室首席科学家、ACM 杰出科学家,司罗在题为《为商业搭建语言桥梁》的演讲中,介绍了 NLP 的技术发展及阿里在该领域的落地实践。

他总结了 NLP 技术近年的飞速发展有三大趋势:

  • 第一,深度语言模型的发展,引领很多自然语言技术和应用都取得了非常快的进步;

  • 第二,越来越多的传统公有云服务技术从通用功能走向更多定制化服务,提供更精准、准确的服务;

  • 第三,自然语言商业化的途径,一定是与行业和场景紧密结合,只有这样,才能更大发挥自然语言技术的商业价值。

以下是司罗在大会上的演讲内容,由 CSDN(ID:CSDNnews)编辑:

阿里巴巴是一家技术驱动的公司。我们非常深刻的认识到,人工智能、机器智能、自然语言智能的重要性,所以我们大约三年前成立了达摩院语言实验室。首要的目标是构建阿里巴巴自然语言技术体系,能够支撑阿里经济体内部关于自然语言的技术和相关的应用。其次,我们的技术是开放的,希望能够开放出我们的技术赋能阿里巴巴的合作者,发展普惠的自然语言技术。第三,我们希望能够创新自然语言技术,和学术界、工业界的朋友们一起能够探索未来智能。

达摩院语言实验室成立三年来,进行了大量技术的深入研发,也参加了一些技术评测,在很多评测之中取得了比较好的结果。

比如在 2016 年,ACM CIKM Cup 个性化电商搜索的第一名,2017 年年初美国标准计量局信息抽取英文实体分类比赛第一名,2018 年,在著名的 SQuAD 机器阅读理解中,首次在精确阅读方面超越了人类的结果。2018 年,机器翻译评测(WMT)取得了 5 个语向自动评测的第一名,以及最近在深度语言模型方面取得的好成绩。


NLP 技术平台


我们的 NLP 技术是通过很多的平台来更加规模化的支持相关业务,这里我会介绍几个相关技术平台。

首先是我们打造的阿里自然语言技术平台,这个平台从底层的自然语言数据,包括分词词性数据,实体语料库、新闻语聊库、情感语聊库等,收集了大量自然语言相关的数据。

在此之上,我们构建了基础算法,包括从最简单的分词开始的词法分析到句法分析、语义分析、篇章分析等等。通过这些基础技术,我们构建了垂直技术,如内容搜索、内容推荐、问答、情感分析、意图识别等等。这些技术结合起来,支撑了很多跟 NLP 相关的应用,如搜索、推荐、广告、客服、物流等相关工作。

我们打造的 NLP 技术平台,在阿里内部有了比较大的影响力,现在每天有超过 1000 个业务方使用,每天的调用量有几千亿上万亿次。

我希望简要介绍的第二个技术平台是翻译技术平台,阿里巴巴是一家国际化的公司,所以国际化战略一定是需要机器翻译、多语言技术来全面支撑。我们打造的翻译技术平台,从底层的语料平台开始,从因特网上抓取各个行业的语料,包括众包群员的能力、相关知识库的建立,我们也建设了多语言 NLP,包括多语言分词、实体识别等相关的技术。

我们的核心机器翻译技术,包括传统的统计翻译技术,也包括最近两年比较时兴的神经网络机器翻译技术,同时我们也有自己的核心技术特点,在一些方面有我们创新性的工作,比如说如何把词典翻译原来的沉淀下的人工语料融合起来,与数据驱动的机器翻译模型相结合。

那么我们所做的知识驱动的机器翻译,如干预机制等,能够大幅度的提升重点术语的翻译的准确性。同时在人机协同,通过机器翻译,大幅度提升员工翻译的效率以及多模态翻译等方面,做了很多一些创新性的工作。这些技术组成了我们解决方案,包括电商,比如说标题、详情、评论等相关翻译,也包括人机协同平台的翻译、多模态翻译等等,这些技术支撑了广阔的阿里经济体内部的国际化场景。目前,有几十个业务方每日的调用量有大约 10 亿次的调用量,创造了数亿美元的国际跨境贸易和其他国际业务的商业价值。

前面两个技术平台主要是用于阿里经济体内部的赋能,我们的技术是开放的,希望把我们的技术开放出去,让更多的合作者能够受惠。

当我们走向更加宽广的外部场景时,发现 NLP 的需求多而杂,场景化、业务化有高度定制的依赖,而且很多重要的业务,数据高度的隐私化,这缺少一些平台化支持这些非常多样化的、复杂的、有定制化需求的场景。

我们设计了 NLP 自学习平台,这是一个面向低龄算法基础用户设计的,包括数据标注、训练预测一体化的服务平台,现在也已经通过阿里云向外输出平台的能力,它有易用、快捷、专业、成本低的特点,也就是说只需要少量领域相关的数据,就可以得到比较高的准确率。

经过一段时间的积累,我们在一些重要的行业,比如说电商、通信、司法、金融等行业也积累了大量的行业数据和知识。这些数据和知识与我们提供的的 NLP 原子解决方案能力在一起,能够帮助我们的合作者创造大量的业务价值。

这张毕业证显示的是我们 NLP 学习平台提供的一些能力事例,包括原子能力,文本抽取、文本分类、短文本匹配,包括场景化里支持电商的商品评价分析、情感分析,也包括我们的垂直应用、智能合同管理等方面的工作。

比如文本信息抽取方面,我们可以从合同文本之中抽取出甲方、乙方等合同重要的要素。从简历中,我们可以抽取到重要的个人信息以及工作经历等等相关的信息。文本分类是另一个非常重要的广阔的应用,可以提供很多场景下重要的解决方案。比如对于电商评价、电商沟通的文本,我们可以识别出广告、辱骂等相关内容。

另一方面,对于评价来说,我们也可以做出情感分析,这个评价背后所代表的是正面的还是负面的情感?是和哪些属性相关的情感?比如说电视机屏幕很亮,但是音量不够,对于不同的属性就有不同的情感。还有在意图识别的问答场景之中,我们可以对短文本的意图通过分类做出比较精确的识别判断。


NLP 语言模型


前面提到的技术平台背后有很多自然语言相关的技术,其中一项非常核心的技术就是语言模型,语言模型用来描述自然语言的表示顺序、结构、意义生成的过程。传统的语言学方法是使用上下文相关文法等一些规则性的表述,来对语言进行建模。但这样的方法对于新语法、新语言、新词意义的变化,适应性比较差。那么所以目前比较流行的是数据驱动的方法,特别是最近几年深度学习相关的语言建模的方式,通过大量的语料和相关的应用任务,学习语言的表示和结构。

Bert 是谷歌 2018 年所建立的深度语言模型,自 2018 年发布以来,带动了 NLP 方面进一步深度语言模型的建设,起到了比较大的影响力。

阿里巴巴达摩院也在预训练语言模型上做了很多的工作,其中 Structbert 模型是一项重要的基础工作,它充分利用词句之间的结构关系,来对语言进行建模,而且它可以把分类和生成两种不太相同的任务综合起来,利用不同的模型,对不同类型的任务进行适配,从而产生更好的效果。Structbert 模型的论文发表在了今年 ICLR 的会议上。

从词、句这样的文本结构信息,也可以自然地扩展到图文结构信息,我们能够借用 OCR 输出的关于文本框和文本片段在一页之中的位置信息,来更好的分析不同文本段、文本框之间的关系。同时对于表格来讲,我们可以根据每一个槽位在表格中所处的位置,来进行更加细致的语义分析,加入这些图文结构之后,可以帮助我们更好的理解相关的文字信息的意义。相应的工作也广泛应用于海关、报关、银行单据、信息抽取等相关的场景。

深度语言模型在搜索、排序、机器阅读理解方面也有非常深刻的应用。比如说深度语言模型能够更加精确的匹配文本之间的相似度,所以应用到搜索排序过程中可以提高搜索的准确率。

机器阅读理解是另一项重要的应用。它是指对于用户提出的一个问题,能够在文档之中直接找到相关的答案。由于深度语言模型可以更好的做底层语义理解,所谓应用于机器阅读理解,也能够产生更加精准的答案。我们相应的工作在 MSMARCO 机器阅读理解和搜索的技术评比中也都取得了好的成绩。这些技术广泛的应用于客服、企业、政府搜索等相关的业务场景。

自然语言技术应用于广阔的各行各业的场景,我个人认为需要有数据、知识、技术和场景不断的迭代优化。比如,在阿里经济体内部,我们要充分利用丰富的企业内部场景,同时通过阿里云和合作伙伴开拓广阔的外部的业务场景进行打磨,能够积累全面的多领域的数据和知识。

基于这些数据和知识,我们可以建立更加完善的、领先的基础和应用技术,从而更好的提供广阔的内外部场景的相应自然语言技术,这样形成迭代升级,不断进行正反馈,能够提升算法的效果,增加业务的价值。


NLP 应用场景和解决方案


我简要介绍一下几个重要业务场景,以及所设计的自然语言相关的解决方案。

首先是电商翻译业务场景应用于跨境电商等等领域。我们提供的电商翻译场景的解决方案不是单点机器翻译的技术,其实是贯穿整个跨境电商的全流程。比如说在最开始网站信息的本地化,我们如何提供本地化的地道的语言来进行网站的建立。同时,我们需要从其他的搜索引擎和社交媒体,通过地道的引流的语言,能够对用户、消费者进行引流。

用户和消费者到达网站之后,有可能需要做跨语言的商品搜索。比如俄罗斯的用户可能用俄语来搜索,但是我们原发的商品是英文的商品,所以我们需要进行跨语言搜索,同时我们需要把商品信息的内容翻译成本地语言,包括标题、评价、图片等等很多的信息来促进用户的转化。之后在支付、物流、客服等场景,也需要提供相应的翻译和多语言解决方案。所以我们提供了跨境电商整体流程的翻译和多语言解决方案,在阿里的业务场景以及有很多合作伙伴的合作中产生了比较大的价值。

另一个翻译相关的平台性产品是钉钉翻译服务平台。我们都知道钉钉逐步变成企业服务、企业沟通的一个重要的平台。钉钉上很多的企业都有翻译和多元需求,我们希望能够提供一站式翻译的能力,来帮助这些企业解决翻译需求。

我们提供了一系列的工具产品,包括文档翻译、文本翻译、语音图像翻译、即时信息翻译等等。同时我们的平台服务不只有机器翻译的能力,也包括人机协同的能力,因为很多重要的信息最终还是需要专家来确认翻译的结果,我们提供完整的一站式的解决方案,希望能够为钉钉上的企业用户更好、更高效的解决翻译和多语言相关的需求。

地址信息管理系统是我们现在通过阿里云向外输出的一个新产品,目前正处在公测阶段。它的定位是基于地址知识库能够对多元、多模态,比如包括文本、语音相关的地址进行解析、搜索、匹配、标准化、编码等等多种能力。

其中第一个核心能力就是匹配归一,我们可以把多样不同形式表示的同一个地址进行匹配归一,还可以对这些地址进行纠错、补全等等。第二,我们提供精细到户室号的标准化解决方案,能够提供更加精准的地址相应的定位。第三,我们现在正在研发语音对话地址推理系统,可以广泛的应用于客服以及报警等等相关的应用中。

比如报警通话大约有 20~30%的时间,其实都是通过语音在确认相应的地点,本身是一个很大的成本消耗和时间消耗。我们研发的基于语音对话地址推理系统,根据语音识别的结果上下文,能够精准的找出相应的地址信息,能够大大提升整体的通话的效率。

事件分析是自然语言一个非常重要的任务,我们提供了事件分析的能力来实现事件文本的结构化图谱化,便于数据的串并、检索、推理等场景。我们对于一些重要行业的实体和关系有了大量的数据和知识积累,可以识别出这些实体,并找出它们相应的关系。

泛通讯是一个非常重要的行业,达摩院和阿里云通信一起携手,希望通过 AI 赋能通讯行业来助力资源型的产品和相关智能化升级。对于短信、语音、邮件等都设计了相关的赋能解决方案。比如在短信方面,通过音辨、形变模型的建立,能够更好地识别短信之中一些涉黄、涉暴力、涉赌等相关的风险信息,能够帮助过滤危险短信,这样降低通道被关闭的风险。同时,我们也可以通过文本意图识别来识别出短信所包含的行业和意图指向,这样能够更好的和底层通道进行匹配,提高整体的发送效率,能够更好实现更多的商业价值。我们也在语音、邮件等方面,把我们的功能和泛通讯的业务场景紧密结合起来,通过 AI 赋能泛通信行业。

智能司法是一个有着巨大社会价值的行业,我们所做的工作是希望和一起开放出算法能力,集成在他们的解决方案之中,能够更全面地赋能司法行业。

随着司法建设的不断深入,其实是有越来越多的案件进入司法流程,但法官人数和法官时间是没有大的增长,所以需要我们全面提升整体司法的效能。我们提供的相应解决能力,贯穿了司法全流程。

特别是在庭审以及判决这些重要的阶段,比如说庭审阶段,我们通过识别结果,能够找到相应司法重要的案由、要素、争议焦点等等信息,把这些信息通过摘要的形式反馈给法官,甚至能够建议法官询问什么样的问题,之后能够自动生成相应的判决书,大大加速了庭审的过程。我们在很多地方已经落地,在一些重要的案由上,能够从几十天的庭审流程的时间降低到一两天庭审的时间,大大提升了效率。

智能合同是我们通过 AI 能力赋能行业的一个重要方向。我们都知道,合同是规范企业间商业交易的重要的手段,我们的工作是希望能合同管理的流程来提升管理和审查合同效率。

我们主要的工作分为三方面,合同审查对于合同之中的重要要素进行识别,进行查缺、对比,看重要的要素是否有缺失、有矛盾等等。我们通过所积累的企业的大量的数据,来判断合同涉及的双方是否有履行合同所涉及大量的风险。还有合法合规性检查,合同是否符合相应重要的行业法条法规等等。我们通过这些能力能够更好地提升管理和审查合同效率,目前已经和多家大型企业合作。同时,我们也提供行业相关的定制化合同、智能管理的能力。

医疗是一个有着非常大社会价值和商业价值的行业,我们的 NLP 技术覆盖了医学文本结构化分析、医学信息抽取、数据归一,辅助诊断等方方面面的能力,通过这些能力和相应的 ISV 合作,用于医院和卫健委的很多医疗行业的流程性管理中。比如诊前诊中的辅助诊疗、诊后管理病例质检和 DRGs 保险相关的技术科研,也提供医疗翻译等等相关的能力,目前已经落地数 10 家医院、卫健委和疾控中心等等。今后我们会更加深入医疗 NLP 这些基础方面的工作,同时也希望和更多的 SP 合作,构建更大的产品、技术和业务的影响力。

阿里达摩院语言实验室的目标是构建自然语言技术体系,赋能合作者发展普惠的自然语言技术,同时也非常希望和学术界、工业界的朋友一起创新自然语言技术,探索未来智能。

系列阅读:

张钹院士:探索第三代人工智能,需要勇闯无人区的人才!


别错过,现在还可以直接看 AI 开发者大会直播回放!


2020 年 7 月 3 - 4 日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)(大会官网:https://aiprocon.csdn.net/)以线上直播的形式与开发者相见。

大会有 10000+ 人报名参与,参与人群覆盖 50+领域、4000 家企业。其中有来自行业内 70+ 顶尖企业、开源社区与科研高校的近 100 位行业领袖、技术大咖与研究学者。

 (扫码入群,锁定大会直播和演讲 PPT)

本次大会历时 2 天,共设立 6 大主题、20 大精彩分论坛。为人工智能爱好者带来满满的技术干货:AI 入门与实践进阶、AI 教育与人才培养、AI 核心技术应用与落地、AI 行业发展与趋势以及 AI 开源与生态建设、AI 投资与创业,将前沿技术进行到底。

现在,点击【阅读原文】,可直接进入大会直播回放主页,观看大会所有论坛精彩回放。

点分享点点赞点在看

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存