查看原文
其他

Stanford CS224N追剧计划Final Project & Week5 - Seq2Seq、注意力机制与机器翻译

夕小瑶 夕小瑶的卖萌屋 2021-02-05

一只小狐狸带你解锁NLP/ML/DL秘籍

简介「Stanford CS224n追剧计划」是由夕小瑶的卖萌屋发起的开源开放NLP入门项目,借助github和微信群为大家提供同期小伙伴打卡讨论、内容沉淀、作业笔记和FAQ共享、连线斯坦福等服务。关于该计划的详请见这里 。

1  Github项目地址

https://github.com/xixiaoyao/CS224n-winter-together

2 Stanford CS224n追剧群

扫码添加小夕微信,回复口令「追剧」入群。




课程大纲


课程计划一共持续11周,进度如下:
  • week5:  Machine Translation, Seq2Seq and Attention / Practical Tips for Final Projects 【本周】


本期内容



Machine Translation, Seq2Seq and Attention(机器翻译,Seq2Seq和注意力机制)


课后作业:无


本期另一个重要内容是Final Project


与去年一样,今年的默认题目依然是SQuAD机器阅读理解系列——Question  Answering on SQuAD 2.0。详情见:


https://github.com/xixiaoyao/CS224n-winter-together/blob/master//Project/default-final-project-handout.pdf


Final Project有一定难度,因此鼓励大家可以在微信讨论群中组队攻克,且建议每个队伍不超过3人


Practical Tips for Final Projects

注:感谢@gongle提供中文字幕


GitHub访问困难的小伙伴也可以在订阅号「夕小瑶的卖萌屋」后台回复【week5】获取本期课程ppt和Final Project等资料。



上周精选



week4优秀作业链接

@BobOfRiviahttps://github.com/xixiaoyao/CS224n-winter-together/tree/master/Assignments/assignment4/BobOfRivia@geekhch:https://github.com/xixiaoyao/CS224n-winter-together/tree/master/Assignments/assignment4/geekhch

 

week4精选FAQ

Q1. Seq2seq的decoder的输入是不是上一个step的输出?

助教答:train 阶段是 teacher-forced训练方式,输入的是ground-truth,inference 阶段是取上一个step的输出。这存在一个不一致,为了解决这个不一致,出现了很多工作,推荐阅读ACL2019 best paper.


Q2. 多标签和多分类问题,哪个是互斥的?

@李俊毅 回答:多分类问题,一个样本只能属于一个类别,不同类别之间互斥。多标签问题,单个样本可以同时拥有多个不同的标签。


Q3. 有没有多语言词向量?

助教答:参考paper《A Survey Of Cross-lingual Word Embedding Models》和后续引用它的文章。


Q4. counting based model中,对word-document matrix矩阵进行SVD分解以后(USV'),为什么词向量的表征是以U的每一行而不是以US的每一行呢?

助教答:每个特征值的大小表示对应位置的属性值的重要性大小,左奇异矩阵的每一行即代表每个词的特征向量,右奇异矩阵的每一列表示每个文档的特征向量。


week4优秀笔记

感谢群友@体重不到130不... 提供优秀笔记

完整笔记地址:

https://github.com/xixiaoyao/CS224n-winter-together/tree/master/FeatureNotes/geekhch

从这里👆查看群友@体重不到130不... 前四节的笔记。以下为本周笔记目录






优质课程学习笔记


cs224n学习笔记L6: Language models and RNNs

笔记链接:https://blog.csdn.net/geek_hch/article/details/104520145

文章目录

一、语言模型

1.1 什么是语言模型(LM)

1.2 n-gram语言模型

1.2.1 n-gram数学原理

1.2.2 n-gram缺点

1.3 为什么要研究语言建模

1.4 LM理解

二、神经网络语言模型

2.1 基于窗口的语言模型

2.2 RNN

2.3 RNN优缺点

2.4 如何训练RNN模型

2.5 RNN反向传播

2.5.1 基本计算公式及其推导

2.5.2 时间序上的反向传播

2.5.3 RNN-LM文本预测及生成

2.6 RNN其他用法

三、评价语言模型:困惑度(perplexity)

四、术语笔记

cs224n学习笔记L7: 梯度消失和高级RNN

笔记链接:https://blog.csdn.net/geek_hch/article/details/104543068

文章目录

一、梯度消失及爆炸

1.1 RNN中的梯度消失(推导)

1.2 梯度消失会带来的问题

1.3 梯度爆炸带来的问题及解决办法

二、更复杂的RNN

2.1 Long Short-Term Memory(LSTM)

2.1.1 LSTM的结构

2.1.2 LSTM前向传播

2.1.3 LSTM为什么解决了梯度消失的问题

2.1.4 LSTM的发展历程

2.1.5 Bidirectional RNNs

2.1.6 muti-layer(stacked) RNNs

2.2 GRU(gated recurrent units)

2.3 GRU vs LSTM

三、梯度消失与爆炸广泛存在

四、应用技巧



还在等什么,拉上身边的小伙伴,一起上车打卡学习鸭~~

扫码添加小夕后,

回复【追剧】入群





夕小瑶的卖萌屋

_

关注&星标小夕,带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜哦


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存