A. 词性标注(Part of Speech Tagging)B. Skip Gram 和N-Gram 提取C. 连续性词袋(Bag of Words)D. 依存句法分析(Dependency Parsing)和成分句法分析(Constituency Parsing)答案:D
10.用余弦相似度表示的词之间的差异将显著高于0.5
A. 正确B. 错误答案:A
11.下列哪项是关键词归一化技术?
A. 词干提取(Stemming)B. 词性标注(Part of Speech)C. 命名实体识别(Named Entity Recognition)D. 词形还原(Lemmatization)答案:A与 D词性标注(POS)与命名实体识别(NER)不是关键词归一化技术。
12.下面哪个是NLP用例?
A. 从图像中检测物体B. 面部识别C. 语音生物识别D. 文本摘要答案:DA和B是计算机视觉应用案例,C是语音应用案例。
13.在包含N个文档的语料库中,随机选择的一个文档总共包含T个词条,词条“hello”出现 K 次。如果词条“hello”出现在全部文档的数量接近三分之一,则TF(词频)和 IDF(逆文档频率)的乘积的正确值是多少?
A. KT * Log(3)B. T * Log(3) / KC. K * Log(3) / TD. Log(3) / KT答案:C
14. 下列算法中减少了常用词的权重,增加了文档集合中不常用词的权重的是?
A. 词频(TF)B. 逆文档频率(IDF)C. Word2VecD. 隐狄利克雷分布(Latent Dirichlet Allocation)答案:B
15.从句子中删除“and”、“is”、“a”、“an”、“the” 这样的词的过程被称为?
A. 词干提取(Stemming)b. 词形还原(Lemmatization)C. 停用词(Stop Words)D. 以上所有答案:C
16.将句子或段落转换为tokens的过程称为词干提取(Stemming)
A. 正确B. 错误答案:B这是分词(tokenization),而不是词干提取。
17.在给到任何神经网络之前,Tokens都会被转换成数字
A. 正确B. 错误答案:A在自然语言处理中,所有的词在输入到神经网络之前都被转换成数字。
18.找出其中的异类
A. nltkB. scikit learnC. SpaCyD. BERT答案:D除了BERT是一个词嵌入方法以外,其它都是NLP库。
19.TF-IDF帮你建立
A. 文档中出现频率最高的词B. 文档中最重要的词答案:BTF-IDF有助于确定特定词在文档语料库中的重要性。TF-IDF考虑了该词在文档中出现的次数,并被出现在语料库中的文档数所抵消。
20.从给定的句子、段落中识别人名、组织名的过程称为?
A. 词干提取(Stemming) B. 词形还原(Lemmatization) C. 停用词消除(Stop Word Removal) D. 命名实体识别(Named Entity Recognition) 答案:D
21.下列哪一项不是预处理技术?
A. 词干提取和词形还原(Stemming and Lemmatization)B. 转换成小写(Converting to Lowercase)C. 删除标点符号(Remove Punctuation)D. 删除停用词(Removal of Stop Words)E. 情绪分析(Sentiment Analysis)答案:E情绪分析不是一种预处理技术。它是在预处理之后完成的,是一个NLP用例。所有其他列出的都用作语句预处理的一部分。
A. CountVectorizerB. TF-IDFC. 词袋模型(Bag of Words)D. NERs答案:ACountVectorizer可帮助完成上述操作,而其他方法则不适用。
23.将词表示成向量被称为神经词嵌入(Neural Word Embeddings)?
A. 正确B. 错误答案:A
24.下列哪种词嵌入支持上下文建模(Context Modeling)?
A. Word2VecB. GloVeC. BERTD. 以上所有答案:C只有BERT(Bidirectional Encoder Representations from Transformer)支持上下文建模。
25.下列哪种嵌入方式支持双向上下文(Bidirectional Context)?
A. Word2VecB. BERTC. GloVeD. 以上所有答案:B只有BERT支持双向上下文。Word2Vec和GloVe是词嵌入,它们不提供任何上下文。
26.下列哪种词嵌入可以自定义训练特定主题?
A. Word2VecB. BERTC. GloVeD. 以上所有答案:B
27.词嵌入捕获多维数据,并表示为向量?
A. 正确B2. 错误答案:A
28.词嵌入向量有助于确定2个tokens之间的距离?
A. 正确B. 错误答案:A可以使用余弦相似度来确定通过词嵌入来表示的两个向量之间的距离。
29.语言偏见是由词嵌入训练中使用的历史数据引入的,下面哪项不是偏见的示例?
A. 新德里之于印度,北京之于中国B. 男人之于电脑,女人之于家庭主妇答案:A陈述B是一种偏见,因为它把女人变成了家庭主妇,而陈述A不是一种偏见。
30. 以下哪项是解决NLP用例(如语义相似性、阅读理解和常识推理)的更好选择?
A. ELMoB. Open AI’s GPTC. ULMFit答案:BOpen AI的GPT能够通过使用Transformer模型的注意力机制(Attention Mechanism)来学习数据中的复杂模式,因此更适合于诸如语义相似性、阅读理解和常识推理之类的复杂用例。
31. Transformer架构首先是由下列哪项引入的?
A. GloVeB. BERTC. Open AI’s GPTD. ULMFit答案:CULMFit拥有基于LSTM的语言建模架构;这之后被Open AI的GPT的Transformer架构所取代。
32. 以下哪种架构可以更快地训练,且需要更少的训练数据?
A. 基于LSTM的语言建模b. Transformer架构答案:B从GPT开始,Transformer架构就得到了支持,而且训练速度更快,所需的数据量也更少。
33. 相同的词可以通过___________来实现多个词嵌入?
A. GloVeB. Word2VecC. ELMoD. Nltk答案:CELMo(Embeddings from Language Models)词嵌入支持同一个词的多个嵌入,这有助于在不同的上下文中使用同一个词,从而捕获上下文而不仅仅是词的意思,这与GloVe、Word2Vec不同。Nltk不是词嵌入。
词袋模型与N-gram最基本的文本表示模型是词袋模型(Bag of Words)。基本思想是把每篇文章看成一袋子词,并忽略每个词出现的顺序。具体来看:将整段文本表示成一个长向量,每一维代表一个单词。该维对应的权重代表这个词在原文章中的重要程度。常用TF-IDF计算权重。公式为:其中TF(t,d)为单词t在文档中出现的频率,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性。表示为IDF(t)=log文章总数包含单词t的文章总数+1IDF(t)=log\frac{文章总数}{包含单词t的文章总数+1}IDF(t)=log包含单词t的文章总数+1文章总数直观的解释是如果一个单词在非常多的文章里面都出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚。缺点 单词程度的划分有时候并不是一个好的做法。比如Natural Language Processing一词,单个单词拆分的语义与三个词连续出现的语义并不相同。改进 通常可将连续出现的N个单词构成的词组作为一个特征放到向量表示中去。构成N-gram模型
RNN的求解可以采用BPTT(Back Propagation Through Time)算法实现。实际上是BP的简单变种。RNN设计的初衷在于捕捉长距离输入之间的依赖关系,然而使用BPTT的算法并不能成功捕捉远距离依赖关系,这一现象源于深度神经网络中的梯度消失问题。由于预测误差沿神经网络每一层反向传播,当雅克比矩阵最大特征值大于1时,随着离输出越来越远,每层的梯度大小会呈指数增长,导致梯度爆炸。反之若最大特征值小于1,梯度大小会指数减小,产生梯度消失。梯度消失意味着无法通过加深网络层数来提升预测效果,只有靠近输出的几层才真正起到学习的作用,这样RNN很难学习到输入序列中的长距离依赖关系。梯度爆炸可以通过梯度裁剪来缓解,即当梯度的范式大于某个给定值的时候,对梯度进行等比缩放。而梯度消失问题需要对模型本身进行改进。深度残差网络是对前馈神经网络的改进。通过残差学习的方式缓解了梯度消失的现象,从而可以学习到更深层的网络表示。对于RNN来说,长短时记忆模型及其变种门控循环单元等模型通过加入门控机制,很大程度上缓解了梯度消失带来的损失。 在CNN中采用ReLU激活函数可以有效改进梯度消失,取得更好收敛速度和收敛结果,