查看原文
其他

NLP.TM[17] | 系列阶段总结

机智的叉烧 CS的陋室 2022-08-08


【NLP.TM】

本人有关自然语言处理和文本挖掘方面的学习和笔记,欢迎大家关注。


假期期间,总结一下自己几个系列的文章!首先是NLP.TM。

NLP.TM是开的时间最长,但似乎不是文章最多的一个,内容也可能会有一些参差不齐,但是这里面可以说是记录了自己的学习和探索历程,这是我从科研入门确认方向后开始的方向,文章中会有一些我开荒探索的影子,毕竟很多内容都是自己探索出来,挖掘出来的。

这里面有两篇和总体大节奏不同的文章,但是却回顾了我NLP从无到有的过程,里面有我探索的经验吧,在当时刀耕火种,材料不足的年代,确实有些不同。

NLP.TM[8] | 我的NLP学习之路
NLP.TM[10] | 做算法?数学专业的我教你突破数学关

入门:开拓与探索

开始的时候,我只是接到导师的一个任务,和NLP有关,3个月内出论文,没错就是这么一个内容很简单但是内涵很复杂的任务,具体情况不多说,在上面第一篇提到的文章里面,下面要谈的是我开拓期间的内容。

为了了解NLP是什么,能做什么我啃了《统计自然语言处理》以及上了当时仅有的NLP课程,在深蓝学院的,没想象的好,但是至少让我知道了NLP是个啥,而在文章里,我也对我上的几次课做了总结,这就是我这个系列的第一个阶段。

NLP.TM[1] | 听说想看我写NLP?
NLP.TM[2] | NLP和TM的深度概述
NLP.TM[3] | 句法分析综述
NLP.TM[4] | 情感(观点)分析
NLP.TM[5] | 观点分析(笔记篇)
NLP.TM[6] | 信息抽取

这个阶段,文章上都是概述,讲的是NLP领域的边界和内容,让大家了解,NLP领域里面都有什么工作,里面应该是就缺一块语音,个人在当时的视角看这块确实对我来说没什么用吧。

词嵌入

之前从TF-IDF之类的词袋模型走来(由于词袋模型比较简单,网络材料也比较完善,所以我没想单独写),词嵌入哪怕到现在未知仍然是主流,而且我也初步接触开始用到,于是就写了两篇,按照我的风格,也是从网络资源说的比较少的方向来写,用更新的视角给大家谈谈词嵌入,以及他的实现。

NLP.TM[7] | GloVe模型及其Python实现
NLP.TM[9] | 再看word2vector

没写ELMO、BERT,原因很多,一个很核心的原因在于——很多我现在视角下的场景并用不上,W2V和GloVe已经够用了。

各种任务的思路

其实在这个阶段,我已经基本完成了科研的摸爬滚打,进入毕业的状态,因为毕业的资料很多所以我其实时间还是很放松的,了解了很多采用深度学习或者有关方法来解决的任务,并尝试把有代表性的给大家介绍。


NLP.TM[11] | tensorflow做基础的文本分类

NLP.TM[12] | Keras做基本的文本分类

NLP.TM[13] | 命名实体识别基线 BiLSTM+CRF(上)

NLP.TM[14] | 命名实体识别基线 BiLSTM+CRF(下)

NLP.TM[15] | 短文本相似度-CNN_SIM

NLP.TM[16] | SIGIR2019: 深度NLP在搜索系统中的应用

这里面其实只有3个任务,文本分类、命名实体识别、语义相似度,只有这几个,这几个其实已经基本覆盖我能用到的场景了,其实NLP要是把其中几个领域搞明白,会应用,其实就已经能跨过很多门槛了,多问问自己最简单的会了没有。

日后

日后的话,由于我是做的搜索方面的工作,所以会在NLP与搜索之间来回走动,搜索和NLP的关系真的很密切,很多任务需要NLP来完成,我会把我关键论文的笔记和自己的经验分享给大家。

  • 关键、基础、实用的论文

  • 应用经验

当然的,指望我去追BERT之类的前沿,去追热点,可能性不高,一个,现实应用在于简单可用,你用高端的模型要给出高端模型的优势,否则其实所谓的高端其实毫无意义,要看清自己的场景需要什么。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存