【新书】从Word2Vec到BERT的自然语言处理嵌入进展，附下载

AINLP 2020-10-22

嵌入向量（ embedding）是一项广受欢迎的技术，有着众多应用。最近Mohammad和Jose撰写了《Embeddings in Natural Language Processing Theory and Advances in Vector Representation of Meaning》，共163页pdf，该书首先解释了传统的词向量空间模型和词嵌入(如Word2Vec和GloVe)，然后介绍了其他类型的嵌入，如语义、句子和文档以及图形嵌入，此外还概述了上下文化表示(如ELMo、BERT)的最新发展状况，并解释了它们在NLP中的潜力。非常值得关注，推荐大家学习！

获取方式：

关注下方公众号，回复 embedding 即可获取网盘链接：

目录与内容

自2010年代早期以来，嵌入(Embedding)一直是自然语言处理(NLP)的流行词汇之一。将信息编码为低维向量表示，在现代机器学习算法中很容易得到集成，这在NLP的发展中起到了核心作用。嵌入技术最初集中在单词上，但很快注意力开始转向其他形式:从图形结构(如知识库)，转向其他类型的文本内容(如句子和文档)。

第2章中提供了一些基本的NLP和机器学习应用于语言问题的背景知识。然后，简要介绍了词汇语义中常用的一些主要的知识资源。

第3章讨论了单词表示，从传统的基于可数的模型的简要概述开始，接着是最近的基于预测的和基于字符的嵌入。在同一章中，还描述了一些专门用于嵌入的技术，例如跨语言单词嵌入，以及单词表示的通用评估方法。

第4章讨论了嵌入结构化知识资源的各种技术，特别是语义图，将概述最近的主要方法对于图的嵌入，并总结其应用和评价。

在第5章中，重点讨论了单词的个别含义的表示，即:文字意义。讨论了两类意义表示(无监督的和基于知识的)，然后讨论了这类表示的评价技术。

第6章是关于上下文嵌入的最新分支。在本章中，首先解释这种嵌入的必要性，然后描述主要的模型以及它们如何与语言模型相联系。在同一章中，还介绍了解释和分析上下文模型有效性的一些工作。

第7章超越了单词的层次，描述了如何将句子和文档编码成向量表示。介绍了一些著名的监督和非监督技术，并讨论了这些表示的应用和评估方法。

第8章解释了最近讨论的词嵌入的一些伦理问题和固有偏见。本章还介绍了消除词嵌入的一些建议。

最后，在第9章中，提出了结束语和开放式研究的挑战。

获取方式：

关注下方公众号，回复 embedding 即可获取网盘链接：

喜欢此内容的人还喜欢

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多