写给NLP研究者的编程指南

人工智能前沿讲习 2022-06-01

收录于合集 #学术人生 57个

最近AllenNLP在EMNLP2018上做了一个主题分享，名为“写给NLP研究者的编程指南”（Writing Code for NLP Research）。

内容干货满满，仅仅只是看了slide就知道是非常有意思的一次演讲了。slide共有254页之多，这里我简单做个摘要，分享一些有意思的内容。

有时间的话推荐大家直接看slide，下面是地址，请自备梯子。

https://github.com/allenai/writing-code-for-nlp-research-emnlp2018/blob/master/writing_code_for_nlp_research.pdf

下面是整个分享的大纲。通过这次演讲，你可以学到如何写代码来促进你的研究，以及可复现的实验。

这里有两种写研究代码的模式，一种是写原型，一种是写组件。

我们先从写原型的方式开始介绍。

当我们开始写一个原型代码的时候，我们要做到下面三点。

写代码要快
跟踪实验结果
分析模型结果

快速开发

要做到快速编程，不要从头开始写所有内容，而是使用框架。这里的框架不仅指tensorflow或pytorch之类的框架，也可以理解为模板。比如上图中如果写trining loop的部分，已经有人写好了。我们只要看懂后，直接拿来用就行，没有必要从头开始自己写所有部分。

上面提到的一些内容，都是可以找到现成框架来套用的。

Don’t start from scratch! Use someone else’s components.

如果有人把你想用的东西模块化了，还等什么，直接拿来用啊！

要想快速开发，另一个建议就是先复制，再重构。要记住，我们是在写原型，不用在乎什么可用性，先把代码写work了再说。如果实现的效果不错的话，再回去重构。

另外，我们要有好的编程习惯。比如起有意义的变量名，写注释帮助理解。记住，我们是写给人看的，不是机器！

跟踪实验结果

可以准备一个Excel表格，来记录实验结果

每次只改变一个部分，方便跟踪实验结果的变化其原因在于哪里。

这里光是embedder，我们就有很多种选择

使用设定文件来记录模型的改变，方便我们以后查询当时的设定。

分析模型结果

在训练的时候，可视化对于分析模型表现是非常重要的。这个技能必须掌握。

Tensorboard可以提供很多分析结果。

Tensorboard能帮我们找到优化的bug。比如上图中的embedding梯度有两个数量级的差别。

原因在于embedding的梯度是稀疏梯度，即只有一部分会被更新。但是ADAM中的动量系数是针对整个embedding计算的，所以解决方法是直接引入特定的优化器：DenseSparseAdam。

对于预测结果，如果和做到交互式的方式来查看的话，是最好的。

开发组件

与写原型不同，开发可重复使用的组件有很多要注意的地方。

Code Reveiw是必不可少的。Review的时候，不仅能发现错误，还能提高代码的可读性。

如果我们不是软件开发人员的话，对于持续集成以及构建自动化这两个词可能比较陌生。通常我们只说持续集成的时候，也包含了构建自动化的意思。想要做到这点，要多写测试才行。

当然，如果我们不是开发一个很多人都会用到的库，上面这些步骤是用不到的ㄟ(▔,▔)ㄏ

不过测试很重要，如果是原型开发，也要做一些最基本的测试。

对读取的数据进行测试，看是否正确。

对模型进行测试，比如检查维度是否一致。

可以看到这两种测试的代码都不会很多。所以不要犯懒了，好好写测试吧。

关于AllenNLP库的一些介绍，这里就不花时间讨论了，感兴趣的可以看slide中p141~p205的部分。

下面直接进入分享的部分。

分享研究

简化安装的流程，令代码运行在任何平台，使用隔离的环境。

下面是使用Docker的一些优点。

用docker开发的好处不用多说，大家想必也已经都知道了。当然，缺点也是有的。

至于Python的包管理系统，AllenNLP采用了ANACONDA。

Docker是不错，但不适合做本地开发，这样的话，使用一些本地的包管理系统反而更方便。

最后做个总结

快速开发原型（要安全）
写安全的产品代码（要快）
好的流程有利于做出好的研究
使用正确的抽象
查看AllenNLP（广告）

这次分享的slide看了几遍，很多地方看得自己脸上发热，不写测试什么的说到了痛处。现在人工智能领域对于算法工程师的要求已经不是能掉个包，谈谈研究那么简单了，工程实践能力已经变得越来越重要。写优秀的代码，做优秀的研究，二者是一个互相促进的过程。最后放上原slide链接，感兴趣的最好自己看一遍。

https://github.com/allenai/writing-code-for-nlp-research-emnlp2018/blob/master/writing_code_for_nlp_research.pdf

如果你有什么想法，欢迎评论区讨论。

作者其他个人平台
Github: https://github.com/BrambleXu
Medium: https://medium.com/@bramblexu
Twitter: https://twitter.com/BrambleXu
知乎: https://www.zhihu.com/people/life-learner-lux/activities

原文地址：https://zhuanlan.zhihu.com/p/48504619

@知乎：赤乐君

本文版权归《赤乐君》，转载请自行联系。

点击文末阅读原文或扫描上方二维码报名

历史文章推荐：

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

写给NLP研究者的编程指南

快速开发

跟踪实验结果

分析模型结果

开发组件

分享研究

加州伯克利大学计算机系是如何培养计算机人才的？

CVPR2019 | 最新高效卷积方式HetConv

合集下载 | 2018年图灵奖得主“深度学习三巨头”主要贡献和代表性论文

火爆GitHub的《机器学习100天》，有人把它翻译成了中文版！

机器学习中的最优化算法总结

深度学习500问！一份火爆GitHub的面试手册

深度学习最常见的 12 个卷积模型汇总，请务必掌握！

CVPR2019 | 专门为卷积神经网络设计的训练方法：RePr

深度神经网络模型训练中的最新tricks总结【原理与代码汇总】

基于深度学习的艺术风格化研究【附PDF】

最新国内大学毕业论文LaTex模板集合（持续更新中）

您可能也对以下帖子感兴趣

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

“家属和记者取得联系”：记者的退场意味深长

圈内疯传某谣言

不要放过这些人渣

“被指居者”之死：嫌犯身体遭长时间束缚，警方称指居使用械具是惯例

生成图片，分享到微信朋友圈

写给NLP研究者的编程指南

快速开发

跟踪实验结果

分析模型结果

开发组件

分享研究

您可能也对以下帖子感兴趣