Stanford CS224N追剧计划Final Project & Week5 - Seq2Seq、注意力机制与机器翻译
一只小狐狸带你解锁NLP/ML/DL秘籍
1 Github项目地址
https://github.com/xixiaoyao/CS224n-winter-together
2 Stanford CS224n追剧群
扫码添加小夕微信,回复口令「追剧」入群。
课程大纲
课程计划一共持续11周,进度如下:
week2:Word Vectors 2 and Word Senses/Word Window Classification and Neural Networks
week3:Matrix Calculus and Backpropagation/ Linguistic Structure : Dependency Parsing
week5: Machine Translation, Seq2Seq and Attention / Practical Tips for Final Projects 【本周】
本期内容
Machine Translation, Seq2Seq and Attention(机器翻译,Seq2Seq和注意力机制)
课后作业:无
本期另一个重要内容是Final Project。
与去年一样,今年的默认题目依然是SQuAD机器阅读理解系列——Question Answering on SQuAD 2.0。详情见:
https://github.com/xixiaoyao/CS224n-winter-together/blob/master//Project/default-final-project-handout.pdf
Final Project有一定难度,因此鼓励大家可以在微信讨论群中组队攻克,且建议每个队伍不超过3人。
Practical Tips for Final Projects
注:感谢@gongle提供中文字幕
GitHub访问困难的小伙伴也可以在订阅号「夕小瑶的卖萌屋」后台回复【week5】获取本期课程ppt和Final Project等资料。
上周精选
上周精选
week4优秀作业链接
@BobOfRivia:https://github.com/xixiaoyao/CS224n-winter-together/tree/master/Assignments/assignment4/BobOfRivia@geekhch:https://github.com/xixiaoyao/CS224n-winter-together/tree/master/Assignments/assignment4/geekhch
week4精选FAQ
Q1. Seq2seq的decoder的输入是不是上一个step的输出?
助教答:train 阶段是 teacher-forced训练方式,输入的是ground-truth,inference 阶段是取上一个step的输出。这存在一个不一致,为了解决这个不一致,出现了很多工作,推荐阅读ACL2019 best paper.
Q2. 多标签和多分类问题,哪个是互斥的?
@李俊毅 回答:多分类问题,一个样本只能属于一个类别,不同类别之间互斥。多标签问题,单个样本可以同时拥有多个不同的标签。
Q3. 有没有多语言词向量?
助教答:参考paper《A Survey Of Cross-lingual Word Embedding Models》和后续引用它的文章。
Q4. counting based model中,对word-document matrix矩阵进行SVD分解以后(USV'),为什么词向量的表征是以U的每一行而不是以US的每一行呢?
助教答:每个特征值的大小表示对应位置的属性值的重要性大小,左奇异矩阵的每一行即代表每个词的特征向量,右奇异矩阵的每一列表示每个文档的特征向量。
week4优秀笔记
感谢群友@体重不到130不... 提供优秀笔记
完整笔记地址:
https://github.com/xixiaoyao/CS224n-winter-together/tree/master/FeatureNotes/geekhch
从这里👆查看群友@体重不到130不... 前四节的笔记。以下为本周笔记目录
哦
优质课程学习笔记
cs224n学习笔记L6: Language models and RNNs
笔记链接:https://blog.csdn.net/geek_hch/article/details/104520145文章目录
一、语言模型
1.1 什么是语言模型(LM)
1.2 n-gram语言模型
1.2.1 n-gram数学原理
1.2.2 n-gram缺点
1.3 为什么要研究语言建模
1.4 LM理解
二、神经网络语言模型
2.1 基于窗口的语言模型
2.2 RNN
2.3 RNN优缺点
2.4 如何训练RNN模型
2.5 RNN反向传播
2.5.1 基本计算公式及其推导
2.5.2 时间序上的反向传播
2.5.3 RNN-LM文本预测及生成
2.6 RNN其他用法
三、评价语言模型:困惑度(perplexity)
四、术语笔记
cs224n学习笔记L7: 梯度消失和高级RNN
笔记链接:https://blog.csdn.net/geek_hch/article/details/104543068文章目录
一、梯度消失及爆炸
1.1 RNN中的梯度消失(推导)
1.2 梯度消失会带来的问题
1.3 梯度爆炸带来的问题及解决办法
二、更复杂的RNN
2.1 Long Short-Term Memory(LSTM)
2.1.1 LSTM的结构
2.1.2 LSTM前向传播
2.1.3 LSTM为什么解决了梯度消失的问题
2.1.4 LSTM的发展历程
2.1.5 Bidirectional RNNs
2.1.6 muti-layer(stacked) RNNs
2.2 GRU(gated recurrent units)
2.3 GRU vs LSTM
三、梯度消失与爆炸广泛存在
四、应用技巧
还在等什么,拉上身边的小伙伴,一起上车打卡学习鸭~~
扫码添加小夕后,
回复【追剧】入群
可
能
喜
欢
夕小瑶的卖萌屋
关注&星标小夕,带你解锁AI秘籍
订阅号主页下方「撩一下」有惊喜哦