AI课堂|NLP入门:为什么草莓和西瓜更亲?
为了增涨知识共同进步,接下来我们将通过系列文章,与大家一起学习百度技术学院(bit.baidu.com)的人工智能技术课程。本次的首期科目是我们每个人最熟悉的——中文课,中文自然语言处理。
“噢我的上帝,比尔你再这样,我可要踢你的屁股了。”
如果你看过译制片,一定知道尴尬的翻译难免会让人出戏。
世界上有不同的文化,为了实现更好的沟通,学习对方的语言是个讨巧的捷径,但在面对强大的中文时,歪果仁也很是令咱们熏疼……
把“美”字标记成两个“¥”:
“奥”字被理解成了一个举刀向前的战士:
“哭”字被非常写意地标记为一只流泪的狗……
图片来自@央视新闻 微博
人类理解中文尚且如此,机器就更“惨不忍睹”。当你满怀欣喜地下了新游戏,本想用“唠嗑药别停”这个昵称注册的时候却被告知不允许使用,因为包含敏感词“嗑药”……
既然中文这么难学,那百度的程序员们又是怎样让机器做到“更懂中文”呢?
今天就来讲一讲,人类是怎么给计算机上中文课的?请各位同学打开书第一章第一节。
《中文自然语言处理知识入门与应用》
我可是要当上海贼王的人
“要当上海贼王”该如何断句?
笑话出在断句上,是“当/上海贼王”还是“当上/海贼王”,这是一个问题,学名叫做“交叉歧义”。
怎么解决?So easy~既然机器不会分词,那我们就从分词(Word Segmentation)教起好了。
计算机在拿到一个句子之后,先会把它拆分成合理的、完整的词汇,再做进一步观察。
但是有些词人家天生就比别人长一截,这又怎么办呢?
😇 天使、爱、美丽
也可以是 “天使爱美丽”
显然,没听过《天使爱美丽》这部电影的朋友应该怎么也想不到“天使、爱、美丽”三个词还可以组合成一个词。
《天使爱美丽》电影剧照
那么问题来了,计算机可从不“看电影”,所以这些知识都得提前告诉它。当然不是拎着耳朵告诉它,毕竟我们都是有身份证的人。可以通过用命名实体识别(Named Entity Recognition)技术,将人名、地名、作品名这些具有特定意义的词汇进行提前告知。
计算机在知道“天使爱美丽”是个电影名后,进行检索时就会机智匹配作为电影名出现的“天使爱美丽”相关网页,而不是“爱美丽的天使”、“美丽的天使爱”等干扰项。这种在“茫茫人海”中找到彼此信物的行为,学名叫做“粒度”。
既然都聊到“美丽”了,那接下来咱们来讲一个美丽的房间。
“房间里还可以欣赏日出”
是说房间本身还可以吗?
图样图森破,显然不是,什么方位词、动名词、定中,这些听到就头大的东西是计算机深度理解中文的关键。计算机一手抓“词性标注”一手抓“依存句法分析”,两手抓,两手都很硬。
说了这么多,都还只是“纸上谈兵”,接下来给大家看看百度AI是怎么超越二维平面,在中文中实现海陆空“立体打击”的~
呆瓜和草莓
哪个跟西瓜更亲?
呆瓜和西瓜都有一个“瓜”字,那是不是它们两个更相近呢?其实不然,从语义上来理解,同属果蔬的西瓜和草莓才更亲,也就是语义相似度更接近。
不过,要让计算机学会透过现象看本质,好像很难。但换个思路,把词汇都“向量化”,再去计算相似度,问题几乎就迎刃而解了。
词向量表示是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算。
通过把语文题转化为数学题的独门秘籍,计算机理解中文的水平可以说是灰常高了。
宿醉 The Hangover (2009) 画面片段
甚至可以判断出与“车头如何放置车牌”相似的句子。比许多直男朋友不知道好到哪里去了!
好了,今天的AI小课堂就先讲(侃)到这里,以上内容改编自在百度技术学院官网(bit.baidu.com)开设的《中文自然语言处理知识入门与应用》。
本节课程介绍了中文自然语言处理中的基础技术以及它们是如何被用于解决实际应用问题的,重点如下:
0、什么是自然语言处理(NLP)
计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。百度自然语言处理NLP 支持:词法分析、依存句法分析、词向量、DNN语言模型、短文本相似度等。可用于智能交互、深度问答、内容建模、用户画像建模,语义分析等场景。
1、分词(Word Segmentation)
将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列。用以解决“交叉歧义”,如“我可是要当上海贼王的人”。
2、命名实体识别(Named Entity Recognition)
识别自然语言中具有特定意义的实体(人、地、机构、时间、作品等),可将“天使爱美丽”识别为电影名。
3、词性标注(Part-of-Speech Tagging)
为自然语言中的每个词汇赋予一个词性(名词、动词、形容词等)。
4、依存句法分析(Dependency Parsing)
自动分析句子中的句法成分(主语、谓语、宾语、定语、状语、补语等成分),与“词性标注”功能一起分析、理解句子。
5、词向量与语义相似度(Word Embedding & Semantic Similarity)
依托全网海量数据和深度神经网络技术,实现了对词汇的向量化表示,并据此实现了词汇的语义相似度计算。用以分析呆瓜和草莓,哪个跟西瓜更相似。
6、文本语义相似度(Text Semantic Similarity)
依托全网海量数据和深度神经网络技术,实现文本间的语义相似度的计算。
想要了解、学习更多AI知识的朋友欢迎点击“阅读原文”到官网学习相关课程~
下课!想要在这里一起学习的朋友,欢迎持续关注我们的系列文章哟~