查看原文
其他

李维 | 《写在NLP小书出版之时》

点击上方蓝字可以订阅哦!


近日,《汉语知识丛书》系列中的《自然语言处理答问》出版了。该书以答问的形式,用浅显易懂的语言深入浅出地阐述了符号规则学派对于自然语言结构深度解析的创新和实践。

作者为此书作小记一篇,发于科学网上。经责编修改后,今刊于本号,以飨读者。




 写在NLP小书出版之时 



文 | 李维

科大讯飞研究院首席研究院 李维


这本NLP小书《自然语言处理答问》终于出版了,心里还是蛮感慨的。看商务这个《汉语知识丛书》系列,所选皆中国语言学界前辈,如雷贯耳。大家小书,精华荟萃,有幸追随,不胜惶恐。尤其是朱德熙先生的学术经典《语法答问》,当年入行的启蒙之作之一,几十年来读了不知道多少遍,屡读屡新,高山仰止。

本书体例所限,未留题献致谢之处。可此书从酝酿到封笔,一波三折,几近难产,其间几十番校改亦似陷入死循环。如今终于付梓,回顾给予各种支持的老师、同事和亲友,心存感念。没有他们的推举、合作和指正,便没有本书的面世。

题献还真考虑过,从学术启蒙和传承看,毫无疑问理应献给我的恩师,以示符号逻辑学派在中国的传承和发展。当时的设计是:

为往圣继绝学


谨以此作

献给中国机器翻译之父

刘涌泉 刘倬 先生


首先要感谢的自然是商务印书馆的责任编辑冯爱珍。两年多来的策划布局、反复校正体现的是商务老专家的敬业和严谨。商务印书馆在中国出版界的品质和口碑,原来是有这样一批“一字不苟”精益求精的编辑精英撑起、光大。近三年无数的编辑往来通信,终于迎来了她的祝贺:

喜讯:祝贺李维力作即将问世,比肩国内一流语言学家


朱德熙、李荣、何九盈、李新魁、冯志伟、邢福义……大家小书,厚积薄发;尖端知识,深入浅出。


三十多年来,李维博士始终站在自然语言处理的前沿领域,专心从事研究和应用开发工作,不仅有深厚的理论积累,也建立了很好的自然语言处理系统架构。他熟知自然语言处理相关的各种方法,在很多方面具有独到的见解和思辨。本书是他厚积薄发的倾情奉献,讲述自然语言处理相关的理论知识和应用技术,深入浅出,简明实用。从事人工智能、自然语言处理等研究的专业人士,以及在读后学,将受益颇丰。


本书的主要理论与实践源自人工智能的理性主义路线(称为符号逻辑派),与近三十年来的经验主义主流(称为机器学习派)相对照。其在自然语言处理领域的起点是乔姆斯基的形式语言理论。我有幸师从中国机器翻译之父刘涌泉和刘倬先生多年,又有机会从前辈董振东和冯志伟教授获得计算语言学的教诲和熏陶。其后辗转欧美,机缘巧合一头扎进工业界,投入自然语言技术的工业实践二十余载,形成独有的理论创新与实践成就。

我的合作者郭进博士在关键时刻,高屋建瓴,挽救了此作,不至于胎死腹中。郭兄也是相知快30年的老友了,当年他在中文分词领域叱咤风云,是大陆研究界第一位在本行顶尖期刊《计算语言学》发表论文的学者,实际上是这个领域的理论终结者。20年前,我在TREC第一次问答系统得奖的时候,我们在会上不期而遇。他来到我的hotel彻夜长谈,一定要问我怎么做的系统,表现出的浓厚兴趣令人感动。作为语言学家,我从入行就步入了语言学逐渐从主流舞台出局的国际大势(见《丘吉:钟摆摆得太远》)。科班主流出身的郭兄摈弃门户之见,不耻下问,颇让我意外惊喜。后来我们就NLP两条路线的纠缠有过很多争辩讨论。早在与商务酝酿本书之前,郭兄就力促著书立说,不要断了符号逻辑的香火。到终于动手了才知道,要把话说清楚,很不容易。想说的话太多,头绪繁杂。写了一章,就陷入出不来,我说放弃算了。郭兄指出,这是系统工程,不宜用你语言处理的那套bottom-up归纳式梳理。终于郭兄同意top-down指挥,宏观掌控,强调不许枝枝蔓蔓走题。毕竟是工程老将架构大师,布局谋篇如烹小鲜,从此柳暗花明。人生有很多跨越时空的奇妙片刻,连缀成串,让人很难相信没有一种缘分的东西(见附录“零  缘起”)

本书论及的话题在两个微信群与群主及同行友人多次切磋,深受教益。一个是《人工智能简史》作者尼克的AI群,一个是白硕老师的语义计算群。本书申报过程中,承蒙清华大学人工智能马少平教授和北京大学中文系教授詹卫东专业推荐。2017年,詹教授还特邀笔者上北大“博雅语言学”讲座论《洞穿乔姆斯基大院的围墙》。同年,受孙乐研究员邀请,出席中文信息学会2017年学术年会,做主题演讲《中文自动句法解析的迷思和痛点》。这些演讲为本书相关章节内容的宣讲与反馈提供了平台。高博提供服务的立委NLP频道(liweinlp.com)也为本书的相关话题及其背景提供了数字平台。

特别需要感谢的是网上老友米拉(mirror)先生对本书初稿的谬赞。米拉说:“有些伽利略对话的意思,有趣得很。”他反复推敲,细致入微,以其科学见识和文字功力,很多审改堪称一字之师。直到最后定版前,死期只剩五天,我说终于从死循环中出来啦,米拉坚持:“我再学习修正一版如何?换了人就不一样了。我试试吧,总是要完美些才好。将来是准备推荐夫人做学中文的教材呢。”让人哑然失笑。当年我因为喜欢米拉的文字隽永,为他编辑过《镜子大全》。这是投桃报李,还是惺惺相惜呢。

毛德操先生也是本书的助产婆。特别是关于乔姆斯基批判,我从毛老和白硕老师处得到的教益最多。毛老是计算机业界著作等身的专家。我跟毛老说,在您的多次“蛊惑”和鞭策下,我终于开始“著书立说”了。毛老激励道:“哦,好事情啊!我当然要拜读。说到符号逻辑派,正是现下AI界新秀们的缺门。不说钟摆是否一定会回摆,至少是互补。我觉得你的书会大有可为。你不妨先在中国出版,然后把它译成英文在美国再出一次。”我有些受宠若惊:“英文出版就不提了,美国出版界我两眼全黑,又是非主流的东西。其价值也许需要潮起潮落以后的某个时间,会被重新发掘和认识。这也是为什么咬牙写出来的理由。NLU符号逻辑派本来已经断层。我第一步是想保证内容的学术性,要经得起时间和同行的批评。”毛老的很多建议很精彩,令人折服,不妨摘要分享给本书的读者:





1)前面应该有个introduction,要照顾初学者特别是跨行者。自然语言处理本来就是跨度很大,但是人家往往视作畏途,他们连乔姆斯基是谁都不知道。所以得把门槛降下来。

2)书的定位,我觉得不妨是:最有学术性的科普,最接近科普的学术。

3)书的体裁采用问答,当然也是好的。问答的特点是提问方不作陈述,不表达观点,所以我想改成对话也许更好,就像伽利略的《关于两个世界体系的对话》。三方对话也许还要更好,一方是深度学习,一方是符号推理—乔姆斯基,还有一方是符号推理—乔姆斯基批判。






我的老同学王建军教授在学术严谨性与章节安排方面提出了很好的建议。特别感谢宋柔老师、张桂平老师、周流溪老师的鼓励和建议。同行友人周明、李航、李利鹏、雷晓军、洪涛、Wang Wei、陈利人、黄萱菁、薛平、姜大昕、执正、欧阳锋也提供了种种鼓励和帮助。在成书出版过程中,受到了公司领导周伯文、何晓冬、裴健、胡郁、高煜光、贾岿的支持,一并致谢。

在符号NLP落地应用的过程中,我不同时期的搭档和助手,牛成、Lokesh、李磊、唐天、Ben、马丁,帮助实现了产品的规模化,显示了自然语言创新的价值。田越敏、Olia、郭玉婷、侯晓晨等同学仔细阅读了本书的初稿,她们的反馈意见保证了本书对于后学的可理解性。

做了一辈子工匠,著书立说从来没有正式列入我的人生计划表。在两年的成书过程中,家人也跟着激动自豪,分享“一本书主义”的喜悦,尤其是老爸、太太的鼓励。最后是女儿甜甜的贡献。讲解词典黑箱原理的时候,觉得可以采纳互联网流行的段子插个图。为避免无意侵权,只得求甜甜帮忙。甜甜欣然应允,于是书中有了两幅女儿给老爹画的插图,别有趣味。



甜甜说画的就是老爸,我觉得蛮像的,倒是画她自己不怎么像。

这注定是一本小众冷书。但愿所传承创新的符号自然语言学术,藕不断、丝相连。有如人工智能理性主义的潮起潮落,庶几留下一声历史的回响。谁知道呢,50年河西,神经并非历史的终结。钟摆回摆的时节,历史或被重新发现。

夜阑人静,耳机中飘来秘密花园的名曲,那是新世纪《落雨的时节》(Sometimes when it rains),绵延不绝,绕梁三日。

记于二零二零年七月十五日夜半旧金山苹果镇。



★图书信息★



《自然语言处理答问》

李维 郭进 著


大家小书,厚积薄发;

尖端知识,深入浅出。


识别二维码即可购买此书


1

内容简介

自然语言处理(NLP)是人工智能(AI)的重要应用领域,是继图像和语音处理技术(感知技术)突破之后的另一个令人期待的关涉认知技术的核心环节。

本书以答问的形式,站在人工智能应用的角度,深入浅出地阐述符号规则学派对于自然语言结构深度解析的创新和实践;对计算语言学的历史进行回顾和批判,提出洞穿乔姆斯基层级体系的可行架构和机制;以中文信息处理为主题,揭示多层深度句法解析对于自然语言应用的革命性作用的原理和威力;针对困扰中文信息处理近半个世纪的三大迷思,指出分词并非中文独有的前处理,词性辨识不必先行,递归并非自然语言的本性;通过对这三大问题的解答,揭示多层中文分词与解析的关系,词类识别与句法角色的关系,离合词(如“洗澡”)带来的词典与句法的接口关系等,从而梳理通向中文深度解析之路的痛点及难点,以及这些语言处理技术的创新所展示的深度句法解析在大数据场景中已经显示出来的应用价值,勾画其广阔的应用前景。


2

目录

<上下滑动可查看目录>

零 ……………………………  01

壹 自然语言与语言形式…………  03

贰 语言的符号模型………………  19

叁 中文分词的迷思………………  41

 词性标注的陷阱………………  58

 语言递归的误区………………  83

陆 乔姆斯基语言学反思…………  96

柒 深层解析是图不是树…………117

捌 有限状态的机制创新…………133

玖 错误放大与负负得正…………165

拾 歧义包容与休眠唤醒…………186

 

附录一 术语索引…………………205

附录二 解析结构图图例…………214

<上下滑动可查看目录>





往期回顾




商务印书馆2018年度语言学出版基金评选揭晓

李宇明:中国语言研究断想

曲卫国:中国外语教学与研究70年

黄行:中国民族语文事业七十年

陆俭明:现代汉语语法研究发展的历程

2019海内外中国语言学者联谊会暨第十届学术论坛在京举行

让名著阅读真正走进语文课堂 | 为中国未来而读——2019阅读行动研讨会在长春举行

教育部、国家语委发布2018年中国语言文字事业发展状况

语言生活皮书 | 王春辉:中国语言扶贫历程

语言生活皮书 | 田源:汉语音译词走红海外

《义务教育常用词表(草案)》研制报告


辞源

教师工具书

学生工具书

新书

中国辞书学会

佳文摘选

语言天地

书单

博士姐姐小课堂

图书编校质量差错案例



点击“阅读原文”可购买此书

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存