查看原文
其他

Stanford CS224n追剧计划-Week3(附上期复习回顾)

夕小瑶 夕小瑶的卖萌屋 2021-02-05

一只小狐狸带你解锁NLP/ML/DL秘籍


前言

「Stanford CS224n追剧计划」是由夕小瑶的卖萌屋发起的开源课程学习公益项目以唯二两个开放课程平台为基础,实现同期学员交流讨论、专业助教答疑解惑和资源共享三大功能,解决大家学习stanford CS224n公开课的困难,帮助大家更高效的学习。

1 夕小瑶@Stanford CS224n追剧群

目前已有上千志同道合的同期小伙伴加入,加入讨论群可以提问问题、交流课程与课后作业、分享资料、助教答疑、连线斯坦福等。扫码添加夕小瑶微信,回复口令「追剧」获取入群邀请。

2 CS224n-winter-together开源项目

我们发起了 CS224n-winter-together github开源项目,每节课发布后,鼓励大家将自己的课后作业解决方案和课程学习笔记以markdown,pdf或jupyter notebook的格式发布到该开源项目中,与其他小伙伴分享,并获得个人品牌和github主页的曝光。 此外,开源项目会定期收录讨论群中的优质问题和解决方案,更多详情见项目README。项目github地址:

https://github.com/xixiaoyao/CS224n-winter-together



课程大纲



课程计划一共持续11周,如下:

  • week3:Matrix Calculus and Backpropagation/ Linguistic Structure :  Dependency Parsing【本周】


Matrix Calculus and Backpropagation(矩阵微积分与反向传播)


课后作业:

 

Linguistic Structure :  Dependency Parsing(语言结构:依存分析)

注:感谢@gongle提供中文字幕


课后作业:https://github.com/xixiaoyao/CS224n-winter-together/tree/master/Assignments/assignment3


也可订阅号夕小瑶的卖萌屋后台回复【week3】获取本周课程ppt、官方笔记、参考资料和课后作业。



上周课程week2总结回顾



week2优秀作业链接

@Bryce:https://github.com/xixiaoyao/CS224n-winter-together/tree/master/Assignments/assignment2/Bryce

@Valar丶Morghulis:https://github.com/xixiaoyao/CS224n-winter-together/tree/master/Assignments/assignment2/MakiNaruto

 

week2优秀笔记

感谢群友@Valar丶Morghulis 提供优秀笔记







课程学习笔记


引言

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。 英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。在做推荐系统或者智能音箱等应用时,NER的作用显得尤为重要,某些词的歧义可能会导致意想不到的后果。如下图,你可能会问:两辆面包车捐献给史密斯堡的是未来的学校还是叫“未来”的学校呢?为了解决这个问题,Word-Window classification分类方法被提出,主要思想是从中心词附近的单词来进行判断,中心词是不是实体。和Skip-grim算法相似,也有一个窗口。

Word-Window classification

在进行分类训练时,上一课训练的词向量在这里派上用场了。假设现在中心词为Paris,窗口为5,每个词的词向量维度为,将一个窗口内所有的单词进行拼接后,得到拼接矩阵作为训练输入。然后利用神经网络进行训练。随机初始化一个矩阵,定义神经元的激活函数为sigmoid。这张图的顶点的计算结果,即为Paris在这段窗口中心的得分。

注:为神经元激活函数,z为第一层神经元计算后的输出结果。为了方便简写为

Maximum Margin Objective Function

如果令S为“真”标签窗口的得分 (Museums in Paris are amazing)为“假”标签窗口的得分 (Not all museums in Paris)   最后,定义在所有训练窗口上的优化目标函数为:为什么用此优化函数的详细讲解 当损失函数变化值大于时,更新权重,否则停止更新。为了更新权重,利用神经网络的反向传播来完成。更多网络计算过程和反向传播推导可移步:https://www.jianshu.com/p/e089a655c323


答疑汇总Q1: 问一下,如何理解红框中的这句话?为啥一个词有两个向量?

             

A: 感谢群友@Roverrrrr 提供回答一个词既可以是center word也可以是context word  所以有两个向量,分别对应embedding层和output layer。
Q2:这里k个负采样,包不包括窗口内的样本呢,从损失函数来看的话,如果随机选到了窗口内的单词,应该会有负面影响吧?

             

A: 感谢群友@无趣的橙子乙 提供回答除了这条句子给的那个词,所有其他词不是都算负标签么?那在不在窗内没所谓。前半部分是正样本,后半部分是负样本。本来正样本个数=词窗,负样本个数=词库次数-正样本。对负样本这个东西降采样怎么也影响不到正样本(词窗里面的东西)


还在等什么,拉上身边的小伙伴,一起上车叭~~

扫码添加好友后,

回复【追剧】入群




夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

内容过于专业,胆小者慎入

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存