赵薇被控七宗罪 主因疑是……

扑朔迷离!赵薇发帖“没跑”,随后又删帖…

鄂州幸福的一家三口疑似乱L事件

成都MC浴室最新照片和截图流出,最全事件梳理来了!

和田地区万名教师集体发声亮剑宣讲宣誓大会在于田举行

Facebook Twitter RSS

分享到微信朋友圈

点击图标下载本文截图到手机
即可分享到朋友圈。如何使用?

AINLP

谷歌开源Embedding可视化工具

中虽然包含了丰富的信息表达,但是肉眼看上去是数不胜数的数字,无法看出其内在的信息关联,因此,将Embedding的信息可视化到肉眼可见的空间是非常重要的工作。
2020年10月15日

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

最后我们已经将这门课程的视频和课件打包,如果需要,可以扫码关注以下公众号后回复“DLHLP”获取该课程视频和相关课件网盘链接,另外我们建立了一个李宏毅老师课程的学习交流群,感兴趣的同学可以添加微信
2020年7月11日

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

nn.ReLU())但是实际开发中,这样写基本没什么意义,我们需要的是根据具体任务定义自己的模型。这在pytorch中也是很容易的一件事。分2步:继承Moulde类,重写init、forward函数
2020年6月25日

超赞!百度词法分析工具 LAC 全面升级,2.0 版在线极速体验

tags_list),对应每个句子的切词结果word_list和每个词的对应词性标注的tags_list,其所用的词性标记集如下,包括4个常用的专名类别(PER,
2020年6月24日

如何让Bert在finetune小数据集时更“稳”一点

不知道大家在使用tensorflow或者pytorch版本的官方bert源码时,有没有发现他们的Adam实现源码与原版的Adam实现略有不同。我们先来简单回顾一下Adam算法的流程:
2020年6月17日

百度aistudio事件抽取比赛总结——记一次使用MRC方式做事件抽取任务的尝试

使用bert类模型做span抽取类型的MRC任务通常能够得到很可观的效果。传统的一些sota方法通常需要分别对query和passage进行encode,然后设计各种attention方法(q-p
2020年6月15日

这个NLP工具,玩得根本停不下来

文本分类/情感分析几个可作为Baseline的文本分类模型清华THUNLP多标签分类论文笔记:基于类别属性的注意力机制解决标签不均衡和标签相似问题【论文串烧】基于特定实体的文本情感分类总结(PART
2020年6月11日

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

ainlper),文章如果合适并且授权AINLP公众号原创标志,我们愿意给予一定的物质感谢,包括单篇200元稿费
2020年6月10日

2015-2019年摘要模型(Summarization Model)发展综述(一)

Mails等)上,抽取式摘要模型的表现都优于生成式摘要模型的表现;直至2019年各种预训练语言模型大量出现,大幅提高了生成式摘要模型的表现,尤其是以T5(Google)或PEGASUS(Google
2020年6月7日

2015-2019年摘要模型(Summarization Model)发展综述(二)

为摘要生成任务构造合适的预训练任务,是目前摘要模型发展的趋势,虽然[42]在提出预训练任务时采用的是RNN-based结构的模型,但这些预训练任务的思想都可以用于Transformer-based
2020年6月7日

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

但是这个函数显然不是一个单调函数,因此传统的最简单贪心算法无法在常数级的量级上逼近最优解,每个迭代并不能保证通过增益分数选择的句子在当前cost的条件下是最合适的(下面有具体的实例说明)。
2020年6月7日
2020年6月6日

Node2Vec 论文+代码笔记

embedding,都是需要先获得一个序列,而很多算法也都在如何获得这个序列上下功夫。就直观感受来看,随机游走在图上显然是比较合适的方式,这其实也是一种随机采样。
2020年6月2日

图文并茂!746页机器学习笔记等你领取(附下载)

Liang希望能做一份教程,以浅显易懂的方式去讲解它,降低大家的学习门槛。为此花费了数月时间,经常做到深夜,把自己的学习笔记整理成了这份教程。
2020年6月1日

相似词检索,近义词查询,同义词大全,这里不仅仅限于中文

查询相似词,严格的说,基于词向量的相似词不能代表语言学意义上的近义词、同义词,但是可以匹配上一些近义词、同义词,甚至反义词,所以可以作为一个参考,由人来自己选择其中的近义词、同义词或者反义词,例如:
2020年6月1日

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

其中,专门针对Bert模型的蒸馏方法有很多,如tinybert,distillBert,pkd-bert等等。虽然有这么多蒸馏方法,但是仔细研究也能发现它们或多或少都有一些共同点,例如:
2020年5月28日

当当四折购书,推荐一份书单

当当年中庆图书活动进行时,全场五折,我们联合出版社给大家准备了实付200-30的优惠码,叠加后可以用170买到400的书,大致4折,有购书需求的同学可以下手了:
2020年5月26日
2020年5月24日

仅供娱乐,藏尾诗生成器来了

除了藏尾诗生成器,我还衍生了一个“写尾诗”的功能,就是输入几个字,这几个字一定要出现在古诗的尾部,关注AINLP公众号,回复“写尾诗输入内容”触发:
2020年5月22日

薅当当羊毛的机会又!双!!叒!!!叕!!!来了

阿里巴巴本地生活研究院算法团队联合知名场景文本算法作者撰写,产业应用和学术前沿的一次思想碰撞!从组件、算法、实现、工程应用等维度系统讲解基于深度学习的OCR技术的原理和落地,提供大量案例
2020年5月19日

86岁MIT教授Gilbert Strang的线性代数小课:2020新视野下的线性代数

https://ocw.mit.edu/resources/res-18-010-a-2020-vision-of-linear-algebra-spring-2020
2020年5月17日

【Github】NLPer-Interview: NLP 算法工程师相关的面试题

深度学习基础这部分主要讲述深度学习方面的基础知识,是核心点,但很多情况下,很多面试官的题基本差不多,不过我个人觉得,有这种全局的,全面的知识框架是有益的。
2020年5月17日

中文命名实体识别工具(NER)哪家强?

词性和专名类别标签集合如下表,其中词性标签24个(小写字母),专名类别标签4个(大写字母)。这里需要说明的是,人名、地名、机名和时间四个类别,在上表中存在两套标签(PER
2020年5月14日

李航老师《统计学习方法(第二版)》清华大学课件完整版下载!

统计学习方法即机器学习方法,是计算机及其应用领域的一门重要学科。本书分为监督学习和无监督学习两篇,全面系统地介绍了统计学习的主要方法。
2020年5月14日

学自然语言处理,其实更应该学好英语

如何学习自然语言处理:一本书和一门课如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享CS224N
2020年5月9日

【Github】nlp-paper: 按主题分类的自然语言处理文献大列表

AINLP技术交流群的'NLP-S'同学今天在群里推荐了一个NLP相关的论文整理项目:changwookjun/nlp-paper
2020年5月4日

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.0.0.Downloading
2020年5月3日

DistilBERT Understanding

本文的研究表明,使用经过知识蒸馏得到的的比预训练的小得多的语言模型,可以在许多下游任务上达到类似的性能,而且可以在移动设备上运行。
2020年5月2日
2020年5月1日

太赞了!Springer面向公众开放电子书籍,附65本数学、编程、机器学习、深度学习、数据挖掘、数据科学等书籍链接及打包下载

施普林格(Springer)是世界著名的科技期刊、图书出版公司,这次疫情期间面向公众免费开放了一批社科人文,自然科学等领域的正版电子书籍(据说是400多本),towardsdatascience
2020年5月1日

【新书】从Word2Vec到BERT的自然语言处理嵌入进展,附下载

第3章讨论了单词表示,从传统的基于可数的模型的简要概述开始,接着是最近的基于预测的和基于字符的嵌入。在同一章中,还描述了一些专门用于嵌入的技术,例如跨语言单词嵌入,以及单词表示的通用评估方法。
2020年4月29日
2020年4月25日

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.0.0.Downloading
2020年4月19日

当当的羊毛,快薅,这一次要拼手速!

更全面的深度强化学习手册!详解深度强化学习领域近年来重要进展及其典型应用场景,涵盖新的理论算法、工程实现和领域应用(涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域)。
2020年4月12日

【数据集】OCR_DataSet:有关OCR的数据集并统一标注格式

每张图形内的字符串icdar2017rctwhttps://blog.csdn.net/wl1710582732/article/details/89761818检测&识别语言:
2020年4月10日

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

“非常好的一门课,不像其他课程那么水,完完整整的哥伦比亚课程,如果认真学完肯定收获很多,花的时间绝对物有所值。科林斯的讲解非常清晰,内容涵盖了语言建模,解码算法,学习算法几个方面。
2020年4月3日

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

触发古诗自动生成(自动续写),输入内容不要超过7个字,会根据字数随机生成几首五言绝句、七言绝句、五言律诗、七言律诗:
2020年3月27日

逆向而行,中文轻量级预训练模型的探索之路

本次任务覆盖了四种不同的下游任务,包含sentence-pair分类,single-sentence分类,命名实体识别和阅读理解。限于篇幅,具体的数据集介绍,请登陆网站查看介绍以及数据示例。
2020年3月22日

From Word Embeddings To Document Distances 阅读笔记

我们寻找每个词对应最相近的词作为该词的距离。如Obama最相近的是President,那么我们将计算他们之间的距离作为这对pair的距离。依次寻找到所有词对应的相近词距离,最终相加作为最终结果。
2020年3月21日

这门斯坦福大学自然语言处理经典入门课,我放到B站了

如果你看到这里,觉得还不过瘾,我们建立了一个NLP入门学习群,提供给入门学习NLP的同学进行交流,欢迎加入。感兴趣的同学可以添加微信AINLPer(id:
2020年3月19日

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

传统的KD方法在训练时,为了让压缩后模型尽量与原始模型相似,会设计一些loss来计算两个模型之间的差异程度,比如原模型和新模型的输出概率的kl-divergence、mean-squared
2020年3月18日

可解释性论文阅读笔记2-Leveraging Language Models

span,Cos-E-open-ended表示explanation只包含Cos-E-selected,w/o表示输入中只包含解释不包含question。
2020年3月16日

谈谈文本匹配和多轮检索

聚合层将每一个Utterance和Response在每一层的匹配矩阵合并成3维,将多层在channel维度合并,得到2(L+1)通道,再算上Utterance维度,得到4维张量;
2020年3月12日

12个NLP预训练模型的学习笔记

(2)由于词向量没有包含上下文信息,而模型隐藏状态向量有包含上下文信息,所以隐藏状态向量应该比词向量包含更多的信息。因此,将两者的维度绑定到一起是不合理的,隐藏状态向量的维度应该远大于词向量的维度。
2020年3月9日

宅家追课正当时,李宏毅老师2020新课深度学习与人类语言处理正式开放上线

如果觉得这个还不过瘾,可以关注AINLP公众号,回复"DLHLP",获取这门课程前2节课程视频和Slides,以后会持续更新相关资料。
2020年3月8日

文本摘要(text summarization)最新研究热点、发展趋势,里程碑论文推荐

那么,摘要除了这些研究话题,还有什么其它的研究概念呢?这里我们通过300篇左右论文,做了如下抽象,定义了该任务下比较重要的一些研究概念,强烈建议领域新人查阅;可以大大加快你在该任务下的论文阅读速度
2020年3月7日

CLUECorpus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合

Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。具体的数据介绍和我们的实验分析参见我们的技术报告。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型
2020年3月4日

CLUEDatasetSearch:搜索所有中文数据集,附常用英文数据集

所以,如果再国内有一个网址,能够提供导航到大众能广泛使用和测评的数据集,并且可以提供简单的介绍,就可以帮助大家进行相关工作,也能促进中文自然语言处理紧跟当前世界技术的发展,并促进相关应用的发展。
2020年2月29日

模型压缩实践系列之——layer dropout

这里主要说一下实践的几个细节注意点,实现方式主要是用pytorch。针对的任务是对话系统中的意图分类。基础模型是bert。目前pytorch的fairseq已经放出了开源的代码,可以参考。
2020年2月21日

Reformer: The Efficient Transformer

我们在合成任务上进行了实验,一个是长度为64K的文本任务(enwik8),一个长度为12K的图像生成任务(imagenet-64generation)。在这两个实验中都表明,Reformer
2020年2月19日

用 SQL 而不是 Python 处理文本数据

https://github.com/wangkuiyi/code-review-what/blob/master/crawl/crawl.gogithub.com
2020年2月15日

用 GPT-2 自动写诗,从五言绝句开始

关键词“写诗/作诗”触发诗歌的自动生成,例如输入“写诗春”,自动作诗模型会基于“春”进行自动续写,会给出以“春”开头的诗,给出其他的字同理,目前不能多于五个字,因为只能自动生成五言绝句:
2020年2月15日
2020年2月8日

2020秋招总结:凡是过往,皆为序章

网上的面经十分多,面向NLP岗的面试经验,推荐别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!,当时也是对着准备了一遍。关于面经,我更想说说一些软性的建议,可以参考看看:
2020年2月6日

新书下载 | 面向机器学习的数学(Mathematics for Machine Learning)

Learning)》是一本新书,由伦敦帝国理工学院的几位教授出版,于2020年出版,该书pdf电子版是完全公开的,在该书主页可以直接下载:https://mml-book.github.io/
2020年2月5日

中文NER任务实验小结报告——深入模型实现细节

该模型的效果还是不错的,但是由于lstm+CRF本身效率就不高,再加上使用了BERT,可想而知其inference的速度确实比较慢,因此需要根据实际情况来选择。最终该模型得到的f1分数为:0.939
2020年2月4日

模型压缩真的有用吗?

诸如Bert等深度学习的参数太多了,模型太大了,消耗的计算资源过多,进一步加大了深度学习爱好者们的“贫富差距”,不够和谐。以Bert-large为例,训练一次需要64G显存的google
2020年2月2日

强化学习圣经:《强化学习导论》第二版(附PDF下载)

architecture等方面都有重大贡献。自2003年起,Sutton就出任iCORE大学计算机科学系的教授,在这里他领导了强化学习和人工智能实验室(RLAI)。
2020年1月31日

自然语言处理经典《Speech and Language Processing》第三版最新版下载(含第二版)

这个版本与上个草稿版本相比,新增了第10、22、23、27章节,着重重写了第9、19和26章节,并根据读者的建议对其他章节做了一些修正。
2020年1月29日

大幅减少GPU显存占用:可逆残差网络(The Reversible Residual Network)

从而得出l层神经单元误差和l+1层神经单元误差的关系。这就是误差反向传播算法,只要求出输出层的神经单元误差,其它层的神经单元误差就不需要计算偏导数了,而可以直接通过上述公式得出。
2020年1月22日

风云三尺剑,花鸟一床书---对联数据集和自动对联机器人

微软研究院的这个“对联语料库”的规模是67万对,所采用的技术是他们自己的web语料库自动获取技术。开玩笑的说,如果周明老师能给我这个语料库,我也能几天之内构建一个简单的“52nlp自动对联系统”。
2020年1月21日

使用Encoder-Decoder模型自动生成对联的思路

Encoder-Decoder框架可以看作是一种文本处理领域的研究模式,应用场景异常广泛。下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示:
2020年1月21日

鼠年春节,用 GPT-2 自动写对联和对对联

这一年来,以BERT为代表的预训练模型不断推陈出新,席卷整个自然语言处理(NLP)领域,这其中NLP的难题之一自然语言生成(NLG)也得到了很大的助力,特别是去年上半年
2020年1月21日

transformer-XL与XLNet笔记

content表示hθ(xz≤t)hθ(xz≤t),简写为hzthzt。与传统transformer中的隐状态相似,其可编码xztxzt的上(下)文xz
2020年1月18日

基于Netty的联机版坦克大战

消息处理以服务端为例,服务端程序需要根据不同的消息类型,采取不同的处理方式。最简单的实现方式,就是使用if-else先识别消息类型,再对消息进行处理,但每增加一种消息类型,就需要增加一个if分支。
2020年1月17日

CLUENER2020:中文细粒度命名实体识别数据集来了

包括中央行政机关和地方行政机关两级。中央行政机关有国务院、国务院组成部门(包括各部、委员会、中国人民银行和审计署)、国务院直属机构(如海关、税务、工商、环保总局等),军队等。电影(movie):
2020年1月16日

flyai医疗智能问答比赛小结

model的mask方式。用bert做NLG其实有很多业界大牛都在尝试。最近微软放出的UniLM的代码,我计划抽时间详细看一下,据说效果不错。另外由于平台的限制,一些自回归的language
2020年1月10日

机器翻译中的强化学习:优点、缺点以及不足

的技术,核心思想还是构建伪平行语料,让其先生成一部分目标语言的句子,来提升自己的性能。当然,我们需要假定生成的目标句子足够的好,从而能够为模型训练带来帮助。实践之中,常常会使用
2020年1月7日

从互联网爬虫、自动驾驶到对话机器人,什么是Semantic(语义)?

至于这个“大按钮”和“小按钮”其实在不同的浏览器软件、不同浏览器宽度、不同平台(手机、电脑、平板)、不同设备(例如设备分辨率不同),可能所代表的像素大小(实际大小)其实是可以不一样的。
2020年1月6日

【Github】BERT-NER-Pytorch:三种不同模式的BERT中文NER实验

美 B-LOC国 I-LOC的 O华 B-PER莱 I-PER士 I-PER我 O跟 O他 O谈 O笑 O风 O生 Orun
2020年1月6日

使用Python复现SIGKDD2017的PAMAE算法(并行k-medoids算法)

研究现状尽管k-medoids具有更好的鲁棒性,但是由于其计算复杂度过高,所以人们用的主要还是k-means算法。有许多研究者尝试解决k-medoids算法的效率问题,
2020年1月5日

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

认真的给AINLP公众号征个稿,之前在AINLP技术交流群分享过,现在希望更多有技术写作习惯的同学看到。
2020年1月5日

推荐系统技术演进趋势:从召回到排序再到重排

对于推荐系统而言,准确描述用户兴趣是非常重要的。目前常用的描述用户兴趣的方式主要有两类。一类是以用户侧特征的角度来表征用户兴趣,也是最常见的;另外一类是以用户发生过行为的物品序列作为用户兴趣的表征。
2020年1月4日

可解释性论文阅读笔记1-Tree Regularization

寻找神经网络模型的决策树表示[1],对输入和输入的梯度进行敏感性分析[2],寻找模型的编程化表示[3],寻找模型的规则集合表示[4]
2020年1月3日

推荐系统的发展与简单回顾

一方面此类技术与推荐结合才刚刚开始探索,背后有太多问题需要人力去挖掘和探索;另一方面在公司的业务中敢不敢上这种前沿课题的探索与实验甚至上线接大流量,部门老大的魄力很关键。
2020年1月2日

AINLP年度阅读收藏清单

文本分类/情感分析几个可作为Baseline的文本分类模型清华THUNLP多标签分类论文笔记:基于类别属性的注意力机制解决标签不均衡和标签相似问题【论文串烧】基于特定实体的文本情感分类总结(PART
2020年1月1日

清华THUNLP多标签分类论文笔记:基于类别属性的注意力机制解决标签不均衡和标签相似问题

上的一篇老论文了,最近因为一些事情正好遇上,当时大概看了一下就发现这篇文章正好解决了我之前在做多分类任务时没有解决的问题。所以拿来记录一下,顺便研究下代码。
2019年12月29日

CCF BDCI2019 金融信息负面及主体判定 冠军方案解析

BDCI)是由中国计算机学会大数据专家委员会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事,是全球大数据与人工智能领域最具影响力的活动之一。
2019年12月26日

“原子”因果常识图谱

值得一提的是,作者给标注员开的时新是12美金,高于联邦规定的8美金。可能这样能激励标注员用心标注高质量的数据吧。一个人996的话一天干12小时,一周干6天,一个月可以拿
2019年12月26日

中文歌词生成,缺不缺语料?这里有一个开源项目值得推荐

却还为我的梦加油\\n阿信:\\n心疼过了多久\\n周杰伦:\\n过了多久\\n合:\\n还在找理由等我settings.py的参数说明DOWNLOAD_DELAY:每个request请求的间隔时间
2019年12月25日

生成式对话seq2seq:从rnn到transformer

虽然bert之后,bert的后继者还在续写着SOTA,但是bert们的大计算量,显存消耗,训练消耗却让工业界望而却步,无法及时的享受bert们的红利。于是乎,bert模型的压缩和提速被安排上了日程。
2019年12月23日

自然语言理解难在哪儿?

不过,以上NLP任务都只是在不断“逼近”对文本的理解,是对文本语义的局部表示。要实现对文本的完整理解,需要建立更完备的语义结构表示空间,这种更完备的语义表示经常成为上述NLP任务进行结构预测的依据。
2019年12月22日

Siamese network 孪生神经网络--一个简单神奇的结构

Siamese和Chinese有点像。Siam是古时候泰国的称呼,中文译作暹罗。Siamese也就是“暹罗”人或“泰国”人。Siamese在英语中是“孪生”、“连体”的意思,这是为什么呢?
2019年12月22日

当我们谈论“推荐系统”时在谈论什么?

除了为算法推理计算而存在的架构,还有周边配套工程也被大家重视起来:埋点技术、日志流、分层AB实验、数据分析、算法测试等。这些技术都是推荐系统的重要组成部分,而相关资料却不如算法资料多。
2019年12月22日

最简单的BERT模型调用方法

当然,实现起来是有一些tricky的,而且tokenizer并不是真正的bert的tokenizer,中文大部分不会有太大问题,英文的话实际上因为考虑BPE,所以肯定是不行的。
2019年12月20日

快速掌握TensorFlow中张量运算的广播机制

(4,)这是由于numpy和tensorflow中的张量在进行运算的时候形状不满足广播机制的要求,不理解广播机制的同学可能会通过各种魔改代码来让代码正常运行起来,但是却不知道为什么那样改就可以。
2019年12月19日

关系提取简述

“在演唱会现场粉丝的要求下,周杰伦不得不演唱了一首网络歌曲《学猫叫》”,(周杰伦,演唱,学猫叫)显然不是我们想要的。关于置信度的计算可以参考上面提到的笔记,对一个
2019年12月18日

2019年机器学习/ 深度学习热门论文集锦

取而代之的是,它针对分解阶数的所有可能排列最大化序列的预期对数似然性。这些排列的结果是,每个位置的上下文都可以由左右两个标记组成。由于每个位置都学会了利用所有位置的上下文信息,因此捕获了双向上下文。
2019年12月16日

做对话机器人的各家企业,都在关注哪些问题

TPU的速度是GPU的80倍。结论是租用Google的TPU,要比使用GPU便宜的多,1/10不到。坑是TPU可能要绑定Tensorflow使用。(目前还不支持PyTorch和MXNet?)
2019年12月15日

白话attention综述(上)

,这势必会造成信息损失;二是它并没有将输入序列和输出序列的对齐信息考虑进去,比如在翻译问题中,翻译到目标语言的不同位置时,原语各个位置需要投入的关注显然不会是一样多的。因此,注意力模型应运而生。
2019年12月14日

AINLP-DBC GPU 使用体验指南

在使用之前有一点必须先特别强调下:当你所用的机子过了租用时间后,你是【没办法再登陆的】。所以一定要及时做好相关文件的保存、传输(后面会说到具体方法,邮件中也有这块内容),别训练了半天最后啥都没了。
2019年12月14日

深度剖析知识增强语义表示模型——ERNIE

上述的各个模型都特别好,怎么应用呢,进入了自然语言深度学习特别经典的预训练和下游任务的微调的机制,我们可以通过大量的无监督语料去学习一些简单的深度学习任务,就能得到一个很好的模型,比如bert
2019年12月14日

EE转CS,拿了多个行业offer,最终选择NLP算法岗的同学的秋招总结

本来下笔有好多想写的东西,但是我看网上都大同小异。在实际操作的过程中,遇到了问题就多谷歌,多百度,应该都能解决。有几点我觉得是我在秋招当中最为吃亏的,同样也是我在秋招之前网上没有看到过类似的经验的。
2019年12月12日

用于中文闲聊的GPT2模型:GPT2-chitchat

3(由于闲聊对话生成的内容长度不是很长,因此生成部分在CPU上跑速度也挺快的)更多的参数介绍,可直接看train.py和interact.py中的setup_train_args()函数中的参数说明
2019年12月11日

NLP预训练模型:从transformer到albert

bert在token序列之前加了一个特定的token“[cls]”,这个token对应的向量后续会用在分类任务上;如果是句子对的任务,那么两个句子间使用特定的token“[seq]”来分割。
2019年12月9日

征稿启示| 让更多的NLPer看到你的文章

价值20个小时1080TI的GPU云算力(也可以使用其他机器例如2080或者2080TI算力)+知识星球"AINLP芝麻街"的嘉宾身份。
2019年12月8日

BottleSum——文本摘要论文系列解读

最近,看到了一些尝试用不同于深度学习模型的思想和方法去做文本摘要。在ACL2019上就有利用信息论的基本思想来做摘要的论文,之前已经对其做过解读,感兴趣的同学可以移步:A
2019年12月8日

来,试试彩虹屁生成器

却想让每个认识我的人都知道你。你就像⻜机、火车一样;你晚了,我等你;我晚了,你就⾛了。螃蟹在剥我的壳,笔记本在写我;漫天的我落在枫叶雪花上;而你在想我。如果你的⼀⽣需要有⼈捧在手上
2019年12月7日

动手学深度学习 + TF2.0开源项目,不容错过

2.0进行深度学习的童鞋。本项目并不要求你有任何深度学习或者机器学习的背景知识,你只需了解基础的数学和编程,如基础的线性代数、微分和概率,以及基础的Python编程。
2019年12月6日

知识图谱存储与查询:自然语言记忆模块(NLM)

的特点要求导入的数据尽量是结构化的,也就是我们要事先有实体和它的类别(实体的属性可有可无),实体与实体间的关系(关系的属性可有可无)。我们期待能从对话或无监督的语料中自动提取实体和关系,然后自动
2019年12月3日

腾讯 800 万中文词向量 API Demo 搭建

jsonify({'word1':word1,'word2':word2,'similarity':float(model.similarity(word1,
2019年12月2日

ALBERT 告诉了我们什么?

其实,从模型创新的角度来看,ALBERT其实并没有什么很大的创新,如果是一个轻量级的任务,相信这种模型压缩的方式早就做烂了。可惜的是,计算资源限制了绝大多数的实验室和公司,只能看头部公司笑傲风云。
2019年12月1日

【Github】TextCluster:短文本聚类预处理模块 Short text cluster

./data/output具体参数设置可以参考cluster.py文件内_get_parser()函数参数说明,包含设置分词词典、停用词、匹配采样数、匹配度阈值等。
2019年12月1日

我们建了一个免费的知识星球:AINLP芝麻街,欢迎来玩,期待一个高质量的NLP问答社区

这个星球目前已经“灰度发布”了一段时间,目前有接近600街民入驻,也产生了一些高质量的精华主题:
2019年12月1日

Dive into BERT:语言模型与知识

BERT-Large在开放域质量方面取得了显著成果,其P@10精度为57.1%,而使用任务特定的监督关系提取系统构建的知识库为63.5%。但是从上图中可以看出P@1精度就惨不忍睹….
2019年11月29日

好的研究想法从哪里来

做过一些研究的同学会有感受,仅阅读自己研究方向的文献,新想法还是不会特别多。这是因为,读到的都是该研究问题已经完成时的想法,它们本身无法启发新的想法。如何产生新的想法呢?我总结有三种可行的基本途径:
2019年11月27日

Meta-Learning:Learning to Learn and Applications

上的一次尝试,思路也很直接,机器翻译任务中存在着大量的语言,他们的语料因为使用范围、人数等原因本身就少,规模不大。那么,能不能利用富语料
2019年11月26日

RoBERTa:高级丹药炼制记录

于是乎,为炼炉好丹药,有心者,便是沐浴更衣,洗脸漱口,举着三炷香,朝着祖师爷爷们拜上一拜,还请讨口饭吃。却说祖师爷爷们,都乃何人,元始天尊韩丁其一,灵宝天尊贲桥其二,道德天尊杨立昆其三。
2019年11月25日

中文文本纠错算法--错别字纠正的二三事

效果:现有错别字纠正package大部分是通用领域的错别字检查,缺乏统一的评判标准,效果参差不齐。长句效果差,短句、单词效果好一些,未来应用到产品中,也要根据标点符号截成短句,再进行错别字检查。
2019年11月24日

SpanBert:对 Bert 预训练的一次深度探索

根据几何分布,先随机选择一段(span)的长度,之后再根据均匀分布随机选择这一段的起始位置,最后按照长度遮盖。文中使用几何分布取
2019年11月22日

AI界最危险武器 GPT-2 使用指南:从Finetune到部署

的结果,方法很简单(只用了20分钟写代码),每次用要基于文本中的关键词,还有句末几个词,在谷歌直接搜索,然后将获取检索片段基于最后几个词连接起来,只要这样不停做甚至能生成
2019年11月20日

用腻了 CRF,试试 LAN 吧?

仅仅叠加BiLSTM以期更好的编码输入序列信息。BiLSTM-LAN可以理解为即叠加了BiLSTM也叠加了softmax,用来更好的学习输入和输出序列的表示。3.
2019年11月19日

BERT fintune 的艺术

里有下句预测任务,所以会有两句拼接起来,上句与下句,上句有上句段向量,下句则有下句段向量,也就是图中A与B。此外,句子末尾都有加[SEP]结尾符,两句拼接开头有[CLS]符;
2019年11月18日

知识图谱从哪里来:实体关系抽取的现状与未来

实体关系抽取是一个经典任务,在过去的20多年里都有持续研究开展,特征工程、核方法、图模型曾被广泛应用其中,取得了一些阶段性的成果。随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破。
2019年11月16日

AINLP公众号新增"狗屁不通文章生成器"接口

防止文章过于内容重复加入更多啰嗦话.加入马三立<开会迷>里的内容加入手写体直接渲染出图片的功能(仅仅用于测试本人的打印机是否工作正常,
2019年11月16日

值得留给子孙后代的计算机课程

20岁获得博士学位的精壮小伙子手把手教你“世界上最优美的算法”--动态规划,透过电脑屏幕,你能感受到他对算法的热爱。一个好的讲者,应该是真的热爱知识,也热爱分享知识的人,Prof.
2019年11月15日

深度学习中不得不学的Graph Embedding方法

具体来讲,网络的“同质性”指的是距离相近节点的embedding应该尽量近似,如图4,节点u与其相连的节点s1、s2、s3、s4的embedding表达应该是接近的,这就是“同质性“的体现。
2019年11月14日

文本自动摘要任务的“不完全”心得总结

表示一个候选句子与文档其他句子相似度的均值,在一定程度上表现了一个句子在整个文档中的重要性。除此之外,这个还可以有其他度量方法,比如下面章节讲textrank时计算得到的每个句子的权重就可以作为。
2019年11月12日

神奇的Embedding

Things![8],表示可以对任何东西都生成其Embedding,并开源了StartSpace[9]。任何可以形成网络结构的东西,都可以有Embedding的表示,Chih-Ming
2019年11月11日

双十一当当百万图书5折封顶,还有满200减30优惠码

一本讲述行业标准化的深度学习实践,详细解释人脸识别、人脸检测及物体检测算法,并附有代码。对比分析了Watson、Azure等主流平台的开源API业界知名人士撰写,Tarry
2019年11月10日

当BERT遇上知识图谱

embedding来还原回结构信息。还是以上图为例,重排后,CEO和Apple被插入在了Cook和is之间,但是is应该是接在Cook之后一个位置的,那么我们直接把is的position
2019年11月10日

从老宋的角度看,自然语言处理领域如何学习?

因此,我这里并不介绍秋招准备的东西,而是日常学习中,自然语言处理你应该学习哪些东西,当然这是我按照我个人的学习推荐的,如果你要急于准备秋招,建议去牛客刷面经,对面试帮助极大。
2019年11月9日

SemBERT: BERT 的语义知识增强

的输出向量拼起来。但当你准备拼的时候,就突然发现问题了,这特么怎么对不上,就像你拿着两孔插头去插三孔插座一样。
2019年11月9日

子词技巧:The Tricks of Subword

需详细解释的一点是关于训练细节,也是最开始我比较迷惑的地方。因为加入每个可能的词对都需重新训练语言模型,这样所要的计算资源会很大。读原文会发现,作者对这块特意进行了解释,通过以下策略来降低计算量:
2019年11月6日

200行写一个自动微分工具

调用了Add的forward方法,并用[5,5,5]、x1与x2、加法操作构造新的Tensor,然后赋值给yy
2019年11月5日

ELECTRA: 超越BERT, 19年最佳NLP预训练模型

MLM和BERT:[MASK]标志确实会对BERT产生影响,而且BERT目前还有一个trick,就是被替换的10%情况下使用原token或其他token,如果没有这个trick估计效果会差一些。
2019年11月3日

BERT 的演进和应用

fine-tune。对于第三点,作者是通过利用多个语言来辅助少资源的语言建模任务,例如利用英语和印地语来帮助建模尼泊尔语,实验发现,相比英语,同为梵语后代的印地语能够更大幅地降低
2019年10月31日

CCL“中国法研杯”相似案例匹配评测竞赛 - TOP队伍攻略分享

中国计算语言学大会作为国内自然语言处理领域权威性最高、规模和影响最大的学术会,聚焦于中国境内各类语言的智能计算和信息处理,为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。
2019年10月30日

定个小目标,发它一个亿条微博语料

听两首歌切来切去//@风吹铃铛响叮叮:同一个愿望。//@江南大野花:隔一段时间不是这边灰了就是那边灰了,切来切去像在赶集
2019年10月29日

DigSci科学数据挖掘大赛:如何在3天内拿下DigSci亚军

本文将基于在中国计算机大会方案宣讲PPT中的内容,给出此次比赛的完整方案,主要从赛题理解、建模核心思路、算法核心思想等角度阐述,同时对相关细节进行了适当的拓展讲解。涉及SIF
2019年10月28日

Google工业风最新论文, Youtube提出双塔结构流式模型进行大规模推荐

为了评估所提出算法框架的有效性,我们进行了在item频率预估上的仿真实验、Wikipedia上的检索实验以及Youtube上的实验。这里我们主要关注于在Youtube线上的实验。
2019年10月27日

T5 模型:NLP Text-to-Text 预训练模型超大规模探索

页的论文,发现其中的分析无疑是诚意满满(都是钱)。类似这样的大型实验探索论文也有一些,首先提出一个通用框架,接着进行了各种比对实验,获得一套建议参数,最后得到一个很强的
2019年10月26日

Transformer (变形金刚,大雾) 三部曲:RNN 的继承者

,加上句子里的位置,就会产生一个二维的位置坐标,论文中对这个位置进行了向量化,并且加入了运算中(但是我并没有懂这样做的用途,因为使用的只有最后一层的);
2019年10月25日

Google T5速读

embedding之外没什么新的东西,在GLUE以及机器翻译上的提升都很有限,但作者本来的意图也是做一个全面的分析,砸百万美元替大家排忧解难,此处应有掌声。
2019年10月25日

2021 校招算法岗, 劝退还是继续

本人已经打算去百度了,虽然价格不高,但部门核心,偏业务,百度还是香啊。这篇文章是以我这个水平以及我看到的情况来进行分析的。考虑到大家一般刚毕业都是要去大厂的,因此,本文以大厂招聘情况为主。
2019年10月23日

BERT 瘦身之路:Distillation,Quantization,Pruning

模型蒸馏,是希望能将用技巧将大模型中精华(暗知识)取出,注入到小模型中,从而使得小模型具备大模型的好性能。而通常蒸馏出的小模型,又要比直接用相同模型训练得到模型性能要好,这也是蒸馏意义所在。
2019年10月22日

一文读懂最强中文NLP预训练模型ERNIE

构建一个三分类任务来判别句子的距离,0表示两个句子是同一个文章中相邻的句子,1表示两个句子是在同一个文章,但是不相邻,2表示两个句子是不同的文章。通过构建这样一个三分类任务去判断句对
2019年10月22日

送10本HanLP作者新书《自然语言处理入门》,人人都能看懂的NLP入门书

息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。
2019年10月20日

超小型bert横空出世:训练和预测提速10倍

之前介绍过中文预训练模型ALBERT《中文预训练ALBERT模型来了:小模型登顶GLUE,Base版模型小10倍速度快1倍》,现在
2019年10月19日

简单有效的多标准中文分词

20171精心设计的对抗神经网络,针对每个语料库提取分词标准相关或无关的特征。然而该工作并没有达到前沿的准确率,甚至联合训练的成绩还比不上以前单独训练的分数,无法体现联合学习的本意与优势。
2019年10月19日

【Github】2019年达观信息提取比赛第九名代码和答辩PPT

https://github.com/lonePatient/daguan_2019_rank9
2019年10月18日

【PySpark入门】手把手实现PySpark机器学习项目-回归算法

在电商中,了解用户在不同品类的各个产品的购买力是非常重要的!这将有助于他们为不同产品的客户创建个性化的产品。在这篇文章中,笔者在真实的数据集中手把手实现如何预测用户在不同品类的各个产品的购买行为。
2019年10月16日

电脑也能写出连贯的文章吗?

Coherence句子们在讨论同一个中心的实体(称之为Center).这个研究角度会追踪一个语篇里面,目前被讨论的实体是什么,如果实体变来变去,显然这个语篇就不是一个很连贯的语篇.
2019年10月15日

中文语言理解基准测评(chineseGLUE)来了,公开征集数据集进行中

很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。再次,语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。
2019年10月8日

揭开YouTube深度推荐系统模型Serving之谜

而且由于YouTube采用了用户观看时长Ti作为权重,因此式子进一步等于Ti*p,这里真相就大白了,由于p就是用户打开视频的概率,Ti是观看时长,因此Ti*p就是用户观看某视频的期望时长!
2019年10月7日

抛开模型,探究文本自动摘要的本质——ACL2019 论文佳作研读系列

则是控制相关性和informativeness在计算importance时的权重。根据实际情况,可调整两个权重,看重哪个就调高哪个。在真实的模型设计和训练时,可以将其作为超参数,使用验证集来调参。
2019年10月6日

AINLP-DBC GPU 云服务器租用平台建立,价格足够便宜

我用过不少深度学习服务器,也包括一些GPU云服务器,相对来说,GPU云服务器是比较贵的。最近深脑链的同学让我试用了通过DBC
2019年10月4日

中文预训练ALBERT模型来了:小模型登顶GLUE,Base版模型小10倍速度快1倍

使用了大的batch_size来训练(4096)。LAMB优化器使得我们可以训练,特别大的批次batch_size,如高达6万。3)使用n-gram(uni-gram,bi-gram,
2019年10月2日

【NLP】ALBERT粗读

因此作者使用了小一些的E(64、128、256、768),训练一个独立于上下文的embedding(VxE),之后计算时再投影到隐层的空间(乘上一个ExH的矩阵),相当于做了一个因式分解。
2019年9月30日

法研杯要素识别第二名方案总结:多标签分类实践与效果对比

"原告诉称,原被告原系夫妻关系,双方于2015年3月18日经河南省焦作市山阳区人民法院一审判决离婚,离婚后原告才发现被告在婚姻关系存续期间,与他人同居怀孕并生下一男孩,给原告造成极大伤害。"},
2019年9月28日

【Github】nlp-roadmap:自然语言处理路相关路线图(思维导图)和关键词(知识点)

主要总结了NLP相关的路线图(思维导图)和关键词(知识点),包括概率和统计、机器学习、文本挖掘、自然语言处理几个部分。以下是作者在Reddit上的介绍文章:
2019年9月27日

【论文笔记】命名实体识别论文

模块,来分别学习标注员的公有信息和属于不同标注员的私有信息。对抗学习的思想体现在公有块的学习过程中,以不同标注员作为分类目标进行对抗学习。从而达到优化公有模块的学习质量,使之收敛于真实数据
2019年9月26日

经典!工业界深度推荐系统与CTR预估必读的论文汇总

起初是因为在唐杰老师的微博上看到其学生整理的一个关于Bert论文高引用相关的图片(https://weibo.com/2126427211/I4cXHxIy4)。
2019年9月23日

推荐两份NLP读书笔记和一份NLTK书籍代码中文注释版

labeling等等等等。这对于全局地了解NLP领域有着极其重要的意义。书里面的知识并不需要烂熟于心,但是刷上一两遍,起码对于NLP任务有基本认识,下次遇到了知道去哪里找还是非常有意义的。
2019年9月22日

【Github】Data Competition Top Solution: 数据竞赛top解决方案开源整理

https://medium.com/@ducha.aiki/thanks-radek-7th-place-solution-to-hwi-2019-competition-738624e4c885
2019年9月20日

几个可作为Baseline的文本分类模型

实验表明,在输出层加上L2正则化并没有改善性能,dropout是有用的,虽然作用不明显,这可能是因为参数量很少,难以过拟合的原因所致。文章建议不要轻易的去掉正则化项,可以将
2019年9月18日

XLNet 论文笔记

本文通过考虑给定序列所有可能的顺序(序列长度的阶乘种可能)来达到使用双向的上下文信息的目的,其直觉是:如果模型的参数在所有的顺序中共享,模型自然而然能够学习从所有位置(当然包括双向上下文)收集信息。
2019年9月17日

BERT论文笔记

本文由作者原创授权AINLP首发于公众号平台,点击'阅读原文'直达原文链接,欢迎投稿,AI、NLP均可。
2019年9月12日

【Github】ML-NLP:机器学习、NLP面试中常考到的知识点和代码实现

Learning)、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。
2019年9月12日

基于RASA的task-orient对话系统解析(三)——基于rasa的会议室预定对话系统实例

开发自定义的NLU模块,根据实际需要添加所需的模块。我在做会议预定时,只添加了extractor和classifier模块,分别对应实体抽取和意图识别两个模块,可以结合人工规则和机器学习模型。
2019年9月11日

最近三年四大顶会深度推荐系统上的18篇论文

2018,提出MCRec算法借助丰富的元路径和互注意力机制进行Top-N推荐,可以有效学习user、item以及基于元路径的上下文的表示从而学习他们之间的交互。效果好于NeuMF等,并开源了代码。
2019年9月10日

RoBERTa for Chinese:大规模中文预训练RoBERTa模型

假设你将RoBERTa预训练模型下载并解压到该改项目的roberta_zh_large目录,即roberta_zh/roberta_zh_large运行命令:export
2019年9月8日

【Github】nlp-tutorial:TensorFlow 和 PyTorch 实现各种NLP模型

这个tutorial面向自然语言处理学习者提供基于TensorFlow和PyTorch的相关NLP模型实现,绝大多数实现不超过100行,可以参考:
2019年9月4日

【论文】Awesome Relation Extraction Paper(关系抽取)(PART V)

之前介绍的关系抽取系列文章主要是属于pipeline形式的,即第一步用实体识别将关系对抽取出来,第二步才是对关系对的分类,这样的做法会导致误差的传递。另外有一种解决方案是端到端的joint
2019年9月3日

基于RASA的task-orient对话系统解析(二)——对话管理核心模块

action以及其他预置的action模板只能实现最简单的场景,如果要实现复杂的场景,需要根据不同场景,自定义action,可以选择继承这些模板,在上面进行功能的添加和完善。有关于form
2019年9月2日

认真推荐一份深度学习笔记:简约而不简单

PDF链接:https://github.com/jianzhu/dl-notes/blob/master/deep_learning.pdf
2019年8月31日

KDD 2019高维稀疏数据上的深度学习Workshop论文汇总

NN网络针对高维事件日志进行自动特征工程。MNN将特定窗口的输入特征向量转换为稠密的中间特征表示并进行缓存,供增量学习和预测。实验证明可以减少人工参与,以及节省训练和预测的耗时。
2019年8月30日

法研杯cail2019阅读理解比赛记录(第5名团队分享)

这一部分也是到比赛后期才去做的工作,其实应该在每个模型训练完都去分析错误,我也是犯懒,只想着怎么去修改模型了就把这块工作拖到了最后。根据我本地的测试和观察在测试集输出的nbest,观察了到几个问题。
2019年8月29日

ERNIE Tutorial(论文笔记 + 实践指南)

可以通过不断引入各种各样的预训练任务帮助模型高效学习词、句法和语义的表征。通过多任务学习不断更新预训练模型。在微调时,首先用预训练模型的参数初始化,然后根据特定任务的数据进行微调。
2019年8月28日

基于RASA的task-orient对话系统解析(一)

除了上述两个核心内容外,rasa当然还提供其他功能,如response生成,与其他对话系统前端平台对接的接口,以及不同类型的对话模拟接口(包括shell命令行模式,restful
2019年8月27日

【论文】Awesome Relation Extraction Paper(关系抽取)(PART IV)

种对于实体对的表示:,然后把这些向量经过全连接层+softmax后得到每个relation的概率。为了更好地考虑不同语言的特点,可以在全连接层在共享权值的基础上加上每种语言特有的权值矩阵,如
2019年8月26日

法研杯2019阅读理解赛道冠军方案分享(含PPT)

我们的模型结构如下图所示,设计该网络的核心就是将google的bert输出接上词性等特征加上一层传统的highway与GRU后通过MLP来判断答案的label与Span的位置。
2019年8月25日

2019法研杯比赛--阅读理解任务第4名团队参赛总结

2019法研杯阅读理解比赛也接近尾声了,我们团队在第二阶段获得了第5名的成绩,作为一名鶸,能取得这样的成绩很满足了,首先感谢队友@悟空的帮助,接下来是我对这次比赛的总结,希望和大家相互学习,多交流。
2019年8月24日

【Github】GPT2-Chinese:中文的GPT2训练代码

使用方法在项目根目录建立data文件夹。将训练语料以train.json为名放入data目录中。train.json里是一个json列表,列表的每个元素都分别是一篇要训练的文章。
2019年8月23日

就最近看的paper谈谈预训练语言模型发展

...如果要保证训练新任务时不会过分忘记前面训练所得到的成果,似乎各个任务的训练样本比例以及训练时间更加重要。比如你做了一年的阅读理解,突然让你做单向选择,你答的也不会太好。
2019年8月23日

【论文】Awesome Relation Extraction Paper(关系抽取)(PART III)

assumption假设太强,仅仅选取每个bag中的一个句子会丢失很多信息;解决方案是对bag内所有的sentence之间做max-pooling操作,可以提取出instance之间的隐藏关联;
2019年8月21日

Rasa介绍:对话系统、产品与技术

再举个例子,如Elasticsearch、Docker都是非常棒的工具,但是如果官方开始的时候说:你不能自己本地架设,你只能用我的云服务。这样对于很多开发者来说就必然丧失了很大的兴趣。
2019年8月20日

BERT系列文章汇总导读

BERT/注意力机制/Transformer/迁移学习NLP资源大列表:awesome-bert-nlp
2019年8月19日

通过Docker部署深度学习项目环境

进行本地服务器搭建和打包,设置相应的私有镜像地址,在客户机器上只需要安装基础环境,剩下的就是直接进行pull和rename操作,在Dockerfile中通过supervisor之类的设置服务自启动。
2019年8月17日

GPU 显存不足怎么办?

这部分所占用的显存其实并不大,这是因为我们往往采用迭代器的方式读取数据,这意味着我们其实并不是一次性的将所有数据读入显存,而这保证每次输入所占用的显存与整个网络参数来比是微不足道的。
2019年8月16日

Nvidia League Player:来呀比到天荒地老

okay,介绍完模型,我们来看看效果怎么样~ERNIE2.0以及BERT在GLUE上的表现,可以看出在所有任务上ERNIE2.0的效果都超过了原始的BERT和XLNet。但是有一点就是我去GLUE
2019年8月15日

中文自然语言处理相关的开放任务,数据集,以及当前最佳结果

每个子任务下面,会详细介绍相关的任务背景、示例、评价指标、相关数据集及当前最佳结果。以中文分词为例,除了我们熟悉的backoff2005数据集外,还有一些其他数据来源:
2019年8月14日

【论文】Awesome Relation Classification Paper(关系分类)(PART II)

使用CNN+Attention来实现关系分类,设计了较为复杂的两层attention操作,第一层是输入attetion,关注实体与句子中单词之间的联系;第二层是卷积之后的attention
2019年8月12日

推荐一份中文数据,来试试汉字、词语、成语、歇后语在线检索

前段时间给公众号新增了一个成语接龙功能:AINLP公众号对话接口新增成语接龙,这个里面提到的项目用到了一份成语数据,包含了2万多条成语数据和释义。不过这个数据之外,推荐一个更棒的Github项目:
2019年8月11日

【Github】All4NLP:自然语言处理相关资源整理

作者是AINLP交流群里的太子長琴同学,整理了自己平时看过用过的NLP相关资源,分类整理的很细致,推荐Star。项目链接,点击阅读原文可以直达:
2019年8月9日

【论文】Awesome Relation Classification Paper(关系分类)(PART I)

-margin才不计算损失,即负样本得分越小越好;是不是跟SVR的感觉有点像?这样整体的损失函数的目的就是更加清晰地区分正负样本。实验结果显示,自定义损失函数相较于CE损失效果提高2%左右。
2019年8月8日

听说你还没读过 Bert 源码?

因为有些面试官会很抠细节,而我对这些我觉得对我没有啥帮助的东西,一般了解一下就放过了,细节没有抠清楚,事实证明,吃亏了。
2019年8月7日

AINLP对话技能树

聊天机器人相关一行Python代码实现夸夸聊天机器人为了夸夸聊天机器人,爬了一份夸夸语料库夸夸聊天机器人升级:从随机到准个性化来,试试语音(识别)聊天(机器人)来,试试成语接龙
2019年8月6日

基于特定实体的文本情感分类总结(PART III)

Network提出的目的之一就是为了解决RNN、LSTM等网络的记忆能力较差的问题。它维护了一个外部的记忆单元用于存储之前的信息,而不是通过cell内部的hidden
2019年8月3日

基于特定实体的文本情感分类总结(PART II)

Attention细粒度attention的目的是刻画aspect对context或者context对aspect词与词之间的影响关系。首先定义H和Q元素之间的相似矩阵U,注意U的形状为[N
2019年8月1日

【Github】ML-NOTE:注重数学推导的机器学习算法整理

慢慢整理所学的机器学习算法,并根据自己所理解的样子叙述出来。(注重数学推导)
2019年8月1日

中文预训练模型ERNIE超详细使用指南

Github上比源码更有价值的是对应的issue,一个好的开源项目会吸引很多人的关注,issue区里会有很多有趣的思考,所以大家千万不要错过噢~下面就列几个我觉得比较有意思的issue供大家参考。
2019年7月31日

Bert 改进: 如何融入知识

预训练能够捕捉到实体的语义信息,这点是毋庸置疑的,但对于实体间关系的抽取,从模型上来看并不突出,希望有大佬解释一下(论文中是提到可以学习到实体间关系,只是我对此存疑)。
2019年7月30日

陈丹琦博士论文翻译:神经阅读理解与超越(Neural Reading Comprehension and Beyond)

阅读一本优秀的博士毕业论文是最快了解一个领域的方式。这篇论文中会介绍机器阅读理解的前因后果以及最近和未来的发展趋势,并且,这里面会引用大量的参考文献,这都是宝贵的经过整理的NLP相关的学习资料。
2019年7月28日

来,试试成语接龙

成语接龙是中华民族传统的文字游戏。它不仅有着悠久的历史和广泛的社会基础,同时还是体现我国文字、文化、文明的一个缩影,是老少皆宜的民间文化娱乐活动。
2019年7月26日

【论文串烧】基于特定实体的文本情感分类总结(PART I)

作者这里提到了两个概念:target和aspect。我们可以认为target是包含在句子中出现的词,而aspect属于预先定义的比较high-level的类别刻画。基于以上,提出了两种模型:
2019年7月25日

【Github】Chinese-poetry: 最全中华古诗词数据库

https://github.com/chinese-poetry/chinese-poetry
2019年7月24日

听说你急缺论文大礼包?

的文章很多,但大多是用在具体任务中的各种骚操作,不同的任务中采用的Attention是有较大区别的,具体的可以自己看相关领域的文章,如果你想了解超复杂的Attention,
2019年7月23日

BERT源码分析PART III

Predictionget_next_sentence_output函数用于计算任务#2的训练loss。输入为BertModel的最后一层pooled_output输出([batch_size,
2019年7月21日

NLP - BERT/ERNIE 文本分类和部署

requests.post("http://localhost:8501/v1/models/tf_bert_model:predict",20
2019年7月20日

NeuralNLP-NeuralClassifier:腾讯开源深度学习文本分类工具

HMC)任务的支持,同时集成了非常多的文本分类模型。层次多标签分类的神经网络模型目前业界还主要针对特定的模型结构,并没有集成到一起的比较好用的工具。与业界层次多标签分类工具对比情况如下表所示。
2019年7月19日

NLP前沿研究成果大开源,百度PaddleNLP-研究版发布

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/Research/MRQA2019-BASELINE?fr=ainlp
2019年7月18日

Google最新论文,首次引入自动网络设计高效解决大规模深度推荐模型的特征嵌入问题

Embedding)方式是目前常用的特征嵌入方式,所有特征值共享同样的特征嵌入维度。NIS-SE问题就是在给定资源条件下,对于每个离散特征找到最优化的词典大小v和嵌入向量维度d。
2019年7月18日

微软深度学习入门教程更新

,是重定向到微软这个面向中国学生的AI教育项目的子教程上:B6-神经网络基本原理简明教程
2019年7月17日

BERT源码分析PART II

主要介绍BERT的自带分词组件以及pretraining数据生成过程,属于整个项目的准备部分。没想到代码这么多,pretraining训练的部分就不放在这一篇里了,请见下篇~
2019年7月17日

Bert 之后:预训练语言模型与自然语言生成

能够学习到很多通用知识,直接拿这些通用知识去做下游任务就可以获得很好的结果。这其实就是证明预训练语言模型这条道路的正确性,预训练语言模型的确能够学习到语言的很多信息,并具有很强的泛化能力。
2019年7月16日

AINLP公众号新增SnowNLP情感分析模块

0.27333037073511146感兴趣的同学可以直接关注AINLP公众号,直接测试这两个中文情感分析模块:BaiduSenta和SnowNLP
2019年7月15日

来谈谈那些很棒的检索式Chatbots论文(二)

18年一件很火的事件就是bert的出现,其中bert的结构用的是Transformer的Encoder层,而Transformer同样出自于一篇很出名的论文:Attention
2019年7月13日

BERT源码分析PART I

注意,源码阅读系列需要提前对NLP相关知识有所了解,比如attention机制、transformer框架以及python和tensorflow基础等,关于BERT的原理不是本文的重点。
2019年7月12日

来谈谈那些很棒的检索式Chatbots论文(一)

上面的图就是SMN的模型结构,可以很清楚的看到,SMN让response和每个utterance做匹配,形成2D的response-utterance相似度矩阵(similarity
2019年7月11日

【Github】nlp-journey: NLP相关代码、书目、论文、博文、算法、项目资源链接

Similarity)计算等,基于keras和tensorflow,也收集了相关的书目、论文、博文、算法、项目资源链接,并且很细致的做了分类。
2019年7月10日

深度推荐系统与CTR预估2019年上半年值得精读的论文

Value),将长期收益加入排序多目标中进行建模优化。重点在于与baseline使用的深度网络和输入特征都完全一样。详见:Youtube推荐已经上线RL了,强化学习在推荐广告工业界大规模应用还远吗?
2019年7月9日

来,试试百度的深度学习情感分析工具

周末通过PaddleHub试用了一下百度的深度学习中文情感分析工具Senta,还是很方便,于是,将这个作为中文情感分析的一个技能点加入到了AINLP公众号的对话中,感兴趣的同学可以先测试:
2019年7月8日

【Github】深度学习在推荐系统中的应用及论文小结

distribution的样本)。理解的思路其实很简单,generator生成的d'是试图欺骗discriminator的,因此如果D判定d'为well-matched,则因此可以引入large
2019年7月7日

最新语言表示方法XLNet

由于AR语言模型只被训练为对单向上下文(向前或向后)进行编码,因此它不能有效地对深层双向上下文进行建模。相反,下游语言理解任务通常需要双向上下文信息。这导致了AR语言建模和有效的预训练之间的差距。
2019年7月6日

详解BERT阅读理解

实际在用BERT的时候需要根据下游任务在BERT后面接上不同的网络,然后可以只训练接的网络的参数,也可以解冻BERT最后几层一起训练,这就是迁移学习,跟CV领域的一致。BERT的四种主流应用场景:
2019年7月4日

BERT_Paper_Chinese_Translation: BERT论文中文翻译版

Understanding》,提到的BERT模型刷新了自然语言处理的11项记录。算是NLP的里程碑事件,也开始了大公司之间的数据和算力的装备竞赛。放一篇比较好的中文论文翻译。
2019年7月4日

"自动作诗机"上线,代码和数据都是公开的

所以我首先将目光瞄准了诗歌自动生成相关的资料上,在google了一圈后,锁定了ioiogoo同学的这篇文章和两个开源版本实现:
2019年7月2日

【Github】BERT-train2deploy:BERT模型从训练到部署

链接:https://pan.baidu.com/s/1DgVjRK7zicbTlAAkFp7nWw提取码:8iaw如果你想跳过前面模型的训练过程,可以直接使用训练好的模型,来完成后面的部署。
2019年6月29日

14种模式解决面试算法编程题(PART II)

无论何时给定排序数组,链表或矩阵,并要求查找某个元素,你可以使用的最佳算法是二分搜索。此模式描述了处理涉及二分搜索的所有问题的有效方法。二分搜索这么经典的思路我就不多介绍啦,直接看一个可视化复习一下
2019年6月29日

百度深度学习中文词法分析工具LAC试用之旅

为了达到和机器运行环境的最佳匹配,我们建议基于源码编译安装Paddle,后文也将展开讨论一些编译安装的细节。当然,如果您发现符合机器环境的预编译版本在官网发布,也可以尝试直接选用。
2019年6月27日

14种模式解决面试算法编程题(PART I)

好了,今天文章的主题就是分享14种解决面试算法编程题的思路(来自educative),经过本人之前春招笔试面试经验证明确实确实非常非常高频,一定要十分熟悉。对于每一种思路会给出
2019年6月26日

Youtube推荐已经上线RL了,强化学习在推荐广告工业界大规模应用还远吗?

Day上也提到线上实验效果显示这个是YouTube单个项目近两年来最大的reward增长。这虽然不代表着强化学习与推荐系统的结合方案已经很成熟了,至少给大家带来了一些在工业界积极尝试的动力。
2019年6月25日

XLNet:运行机制及和Bert的异同比较

XL的综合体变身,首先,它通过PLM预训练目标,吸收了Bert的双向语言模型;然后,GPT2.0的核心其实是更多更高质量的预训练数据,这个明显也被XLNet吸收进来了;再然后,Transformer
2019年6月24日

一文看懂GAN演进图谱

Goodfellow等人[4]提供了诸多训练稳定GAN的建议,包括特征匹配、mini-batch识别、历史平均、单边标签平滑以及虚拟批标准化等技巧。讨论了GAN不稳定性的最佳假设。
2019年6月23日

阅读理解之(bidaf)双向注意力流网络

机器理解(machinechensition,mc),给定文本资料,根据资料回答问题,这就像我们学生时代的阅读理解,我们需要对给定的文本context和query,给出答案这复杂的过程进行建模。
2019年6月22日

中文自然语言处理数据集:ChineseNLPCorpus

推荐一个Github项目:ChineseNLPCorpus,该项目收集了一批中文自然语言处理数据集的相关链接,可以用来练手,点击阅读原文可以直达该项目链接:
2019年6月21日

一步步理解BERT

加上attention机制,我们就取得了很大的成绩,但是仍然存在一个问题,顺序依赖,如下图:t依赖t-1,t-1依赖t-2,串行的,很难并行的计算,持续的依赖的关系,通常很慢,无法并行:
2019年6月19日

最新!五大顶会2019必读的深度推荐系统与CTR预估相关的论文

传统的网络(图)表示学习方法一般只针对同构的图,但是实际的图往往都是异构的。只包含异构节点的图的表示学习已经被广泛研究,例如metapath2vec提出了异构的random
2019年6月18日

站在BERT肩膀上的NLP新秀们(PART III)

(VQ)获取视频特征。具体是首先利用预训练S3D网络得到1024维的特征向量,接着通过层次聚类将这些特征进行分类(类似于tokenize),然后将每一个segment作为BERT输入的下半部分;
2019年6月18日

一文看懂AutoEncoder模型演进图谱

对于基于神经网络的AutoEncoder模型来说,则是encoder部分通过逐层降低神经元个数来对数据进行压缩;decoder部分基于数据的抽象表示逐层提升神经元数量,最终实现对输入样本的重构。
2019年6月17日

鸟枪换炮,如何在推荐中发挥AI Lab开源中文词向量的威力?

Lab开源的这份中文词向量的覆盖度比较高,精度也比较高。但是词向量里含有大量停用词,导致文件比较大加载速度较慢(数分钟),而且内存消耗较大,实际使用时根据场景需要裁剪以节省性能;
2019年6月15日

推荐召回算法之深度召回模型串讲

而YoutubeDNN则学习统一的(用户、物品)向量空间来代替原来的两个独立的向量空间,使用深度网络将用户、物品映射到这个统一的低维向量空间来发现学习更高阶的用户物品相似性。
2019年6月14日

神经网络佛系炼丹手册

Karpathy。看了一眼之后发现跟之前CS231N课上的其中一节主题非常相似,而且在实际coding中也确实非常实用,于是趁着五一没事就再复习总结一遍记录下来,希望对大家也都有帮助吧。
2019年6月13日

NLP学习新资料:旧金山大学2019夏季自然语言处理课程

推荐一份NLP学习新资料:旧金山大学自然语言处理课程,这门课程将于2019年夏季在旧金山大学数据科学硕士课程中讲授。该课程采用Python教学,使用Jupyter
2019年6月11日

Bert时代的创新(应用篇):Bert在NLP各领域的应用进展

QA中文一般叫做问答系统,是NLP的一个重要应用领域,也是个具有很长历史的子领域了,我记得我读书的时候,差一点就选了这个方向做博士开题方向……好险……当时的技术发展水准,我记得是各种trick齐飞,
2019年6月11日

词向量游戏:梅西-阿根廷+葡萄牙=?

中文词向量玩转腾讯词向量:词语相似度计算和在线查询腾讯词向量实战:通过Annoy进行索引和快速查询玩转腾讯词向量:Game
2019年6月10日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表:awesome-bert-nlp

maksna/bert-fine-tuning-for-chinese-multiclass-classification
2019年6月9日

站在BERT肩膀上的NLP新秀们(PART II)

目前的词向量基本都是在单语言语料集中训练得到的,所以其embedding不能涵盖跨语言的语义信息。为了更好地将多语言的信息融合在一个共享的词表中,作者在文本预处理上使用了字节对编码算法(Byte
2019年6月8日

简单高效的Bert中文文本分类模型开发和部署

https://github.com/SunYanCN/BERT-chinese-text-classification-and-deployment
2019年6月7日

真正理解指针生成网络——Summarization with Pointer-Generator Networks

Summaries}表示参考摘要,即事先获得的标准摘要,Countmatch(n-gram)表示系统摘要和参考摘要中同时出现n-gram的个数,Count(n-gram)则表示参考摘要中出现的n-
2019年6月6日

站在BERT肩膀上的NLP新秀们(PART I)

比如上述中的【上海交通大学】。于是文章提出一种知识集成的BERT模型,别称ERNIE。ERNIE模型在BERT的基础上,加入了海量语料中的实体、短语等先验语义知识,建模真实世界的语义关系。
2019年6月5日

NLP研究入门之道:本科生如何开始科研训练

本科生的关键目标就是全面发展、认识自我,这也是本科生科研训练的重要目标。同学应当正视自身的特点,充分发挥特长,更快进入角色;同时,利用有限的时间和机会,开阔眼界、提升境界,有针对性地弥补自身不足。
2019年6月4日

自然语言理解太难了之中文分词八级测试

结果如预期一样,大部分中文分词工具翻车了,不过这个例子别说对于中文分词工具,即使人工分词也需要反应一下。这也让我想起了之前转载的杨洋同学整理,刘群老师在微博上发起的#自然语言理解太难了#话题:NLP
2019年6月2日

NLP中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

bert)之前介绍词向量均是静态的词向量,无法解决一次多义等问题。下面介绍三种elmo、GPT、bert词向量,它们都是基于语言模型的动态词向量。下面从几个方面对这三者进行对比:
2019年6月1日

NLP研究入门之道:如何写一篇合格的学术论文

一篇NLP论文的典型结构NLP学术会议(甚至包括期刊)论文已经形成比较固定的结构。绝大部分论文由以下六大部分构成:摘要(Abstract)、介绍(Introduction)、相关工作(Related
2019年5月31日

NLP研究入门之道:如何通过文献掌握学术动态

Scholar学术主页时,同学可以通过右上角的Following来关注该学者的最新发表论文情况。例如,下面就是著名学者Geoffrey
2019年5月30日

NLP研究入门之道:走近NLP学术界

值得一提的是,从2016年起,CIPS暑期学校被纳入到了CIPS《前沿技术讲习班》编制,而CIPS组织的各大学术会议的讲习班也编入CIPS《前沿技术讲习班》,由CIPS统一保证讲习班质量。
2019年5月29日

BERT时代与后时代的NLP

。对于两个句子A和B,NSP预测B是不是A的下一个句子。训练时NSP的正样本就是从文档从随机选的两个临近句子,而负样本就是B是随机从文档中选取的,与A的位置没关系。NSP可以学习句子与句子间的关系。
2019年5月28日

NLP研究入门之道:自然语言处理简介

而由于图像中对象的复杂性和多样性,仅在对象识别层面,甚至特定的人脸识别,还有很多技术挑战。只不过是近年来,由于深度学习对非结构数据的强大表示和学习能力,开始让对象识别走向了实用化。
2019年5月27日

NLP研究入门之道:NLP推荐书目

社会计算网络、群体与市场:揭示高度互联世界的行为原理与效应机制原作名:Networks,
2019年5月26日

AI算法工程师手册

推荐一个开源项目:AI算法工程师手册,作者华校专,曾任阿里巴巴资深算法工程师、智易科技首席算法研究员,现任腾讯高级研究员,《Python
2019年5月24日

Gilbert Strang教授的MIT公开课:数据分析、信号处理和机器学习中的矩阵方法

https://www.youtube.com/playlist?list=PLUl4u3cNGP63oMNUHXqIUcrkS2PivhN3k
2019年5月22日

八款中文词性标注工具使用及在线测试

第一个是:stanford-corenlp-full-2018-02-27.zip第二个是:stanford-chinese-corenlp-2018-02-27-models.jar
2019年5月21日

复旦NLP实验室NLP上手教程

任务三:基于注意力机制的文本匹配输入两个句子判断,判断它们之间的关系。参考ESIM(可以只用LSTM,忽略Tree-LSTM),用双向的注意力机制实现。
2019年5月20日

Philipp Koehn大神的神经网络机器翻译学习资料:NMT Book

或者可以在他维护的一个机器翻译课程相关页面上下载,这个主页上有很多已经开过的和再开的机器翻译课程信息:
2019年5月18日

中文分词工具评估:chinese-segmentation-evaluation

打包如果要包含斯坦福分词,修改build.gradle,注释掉exclude(dependency('edu.stanford.nlp:stanford-corenlp'))
2019年5月17日

Python中文分词工具大合集:安装、使用和测试

NLPIR大数据语义智能分析平台https://github.com/NLPIR-team/NLPIRPython接口:https://github.com/tsroten/pynlpir
2019年5月13日

Bert时代的创新:Bert应用模式比较及其它

当然,上述实验结果的结论,还仅仅局限在QA任务上,我估计顶多能扩充到句子对匹配类任务上。至于NLP其它类型任务,比如单句分类或者序列标注任务,还需要额外的证据说明或进行比较分析。
2019年5月12日

中文分词工具在线PK新增:FoolNLTK、LTP、StanfordCoreNLP

最后再说一下,原本计划加上对NLPIR中文分词器的支持,但是发现它的license需要定期更新,对于长久放server端测试不太方便就放弃了;另外之所以选择python,因为我用了Flask
2019年5月5日

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。准确率高。该工具包在标准数据集Chinese
2019年5月1日

来,试试语音(识别)聊天(机器人)

关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译
2019年4月27日

玩转腾讯词向量:Game of Words(词语的加减游戏)

search_k是查询时的参数,影响检索性能,值越大结果越好,但是查询时间越长,好处是可以动态调整,我将search_k设置到500以上时,“机场-飞机+火车”这个例子的结果变为了“火车站”,
2019年4月24日

CS224N 2019最全20视频分享:斯坦福大学深度学习自然语言处理课程资源索引

课程除视频以为的相关资料都可以从schedule下载,包括ppt等:http://web.stanford.edu/class/cs224n/index.html#schedule
2019年4月21日

腾讯词向量实战:通过Annoy进行索引和快速查询

不过这次操作的时候还是直接用annoy的接口,因为基于gensim的word2vec的接口,本身就可以很方便的操作了,以下是简单的操作记录,关键步骤我简单做了注释,仅供参考:
2019年4月18日

玩转腾讯词向量:词语相似度计算和在线查询

词2,期待AINLP后台相似词查询功能能给出两个值词语相似度,这个需求还是很自然的,所以昨晚,我花了一点时间,把这个接口也加上了,感兴趣的同学可以关注AINLP公众号:
2019年4月11日

FlyAI算法竞赛平台初体验

(深度学习)提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例,样例所使用开发框架涉及TensorFlow、Keras、PyTorch.
2019年4月7日

从产品完整性的角度浅谈chatbot

19进行特征提取,并用KD树做简单的索引保存下来。然后对于输入的新图片,也进行特征提取,然后在KD树中进行相似度查找,返回最相似的第K张图片。(K的设置一般取不要太小,不要把一模一样的返回即可)
2019年4月5日

关于聊天机器人,这里有一份中文聊天语料库资源

数据来源及说明语料名称语料数量语料来源说明语料特点语料样例是否已分词chatterbot560开源项目按类型分类,质量较高Q:你会开心的
2019年4月4日

夸夸聊天机器人升级:从随机到准个性化

这方面比较关键的一个问题就是相似问题匹配或者句子语义相似度计算。关于文本相似度,词语或者短语级别的语义相似度在词向量范畴下解决的很漂亮,感兴趣的同学可以体验:《相似词查询:玩转腾讯
2019年4月3日

FlyAI算法竞赛:百万现金奖励实时瓜分

FlyAI是一个为算法工程师提供(深度学习)项目竞赛并支持GPU离线训练的网站。目前每周更新两个以上现金奖励的竞赛项目。项目涉及领域包括图像识别/分类/检测、自然语言处理(NLP)、语音识别等。
2019年4月1日

中文分词文章索引和分词数据资源分享

关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译
2019年3月27日

分词那些事儿

基于统计的分词方法包括:N-最短路径方法、基于词的n元语法模型的分词方法、由字构词的汉语分词方法、基于词感知机算法的汉语分词方法、基于字的生成式模型和区分式模型相结合的汉语分词方法。
2019年3月26日

你是如何了解或者进入NLP这个领域的?

第一次接触NLP是17年11月份,世界文化十五讲的期中论文,写的是《基于文本的『古兰经』情绪分析》,参考简书上对权游的分析,那时候还不怎么会检索,不会谷歌,百度搜到了52nlp有对Stanford
2019年3月23日

推荐系统召回四模型之二:沉重的FFM模型

我们用这个例子来说明FFM的基本思想,FM模型可以看做是FFM模型的一个特例,所以在说明FFM模型思想之前,我们先用上述例子说明FM的思想,然后通过和FM模型的对比,很容易理解FFM模型的基本思路。
2019年3月22日

赠书:8本NLP书籍任你选

规则很简单,4本回复话题留言,我从留言的同学中直接选择获奖者,不按赞排名,这个容易刷,话题是:你是如何了解或者进入NLP这个领域的?另外4本直接抽,公众号后台回复「抽奖」,
2019年3月20日

为了夸夸聊天机器人,爬了一份夸夸语料库

写到这里,估计还是会有同学准备留言索要数据了,因为即使上次区区几十条语料,随便google一下就可以得到的“夸夸语料”都有同学留言索取,所以这里准备多说几句,关于夸夸聊天机器人,关于夸夸语料库。
2019年3月19日

2019斯坦福CS224n深度学习自然语言处理课程视频和相关资料分享

大神坐镇主讲,面向斯坦福大学的学生,在斯坦福大学已经讲授很多年。此次2019年新课,有很多更新,除了增加一些新内容外,最大的一点大概是代码由Tensorflow迁移到PyTorch:
2019年3月16日

初入NLP领域的一些小建议

labeling等等等等。这对于全局地了解NLP领域有着极其重要的意义。书里面的知识并不需要烂熟于心,但是刷上一两遍,起码对于NLP任务有基本认识,下次遇到了知道去哪里找还是非常有意义的。另外
2019年3月15日

如何写一篇合格的NLP论文

Work部分是特别需要导师或其他有经验学者帮助把关的。一是,不能遗漏重要相关工作,这点需要论文作者对相关领域工作保持跟踪;二是,与Introduction要求类似,对已有工作的评述务必精准客观。
2019年3月14日

一行Python代码实现夸夸聊天机器人

关注AINLP后可后台直接对话聊天机器人无名,提供中英双语聊天,可以直接使用中英机器翻译,可以调戏对联机器人,也可以查询相似词,欢迎来撩,欢迎关注:
2019年3月11日

CCL学生研讨会记录-刘知远老师报告《文献综述与研究选题》

刘知远老师报告的主题是“文献综述与研究选题”,这场报告主要向同学们介绍了如何更好地进行文献调研,了解某个研究领域或者课题的最新进展与全貌;如何更好地进行研究选题,为做出高水平创新成果开好头。
2019年3月8日

那些值得推荐和收藏的线性代数学习资源

https://ocw.mit.edu/courses/mathematics/18-06-linear-algebra-spring-2010/(注:这里我修正了一下链接,原文链接已经没有了)
2019年3月6日

推荐系统召回四模型之:全能的FM模型

那么为什么说FM的这种特征embedding模式,在大规模稀疏特征应用环境下比较好用?为什么说它的泛化能力强呢?参考上图说明。即使在训练数据里两个特征并未同时在训练实例里见到过,意味着xi
2019年3月4日

lazynlp:构建大规模语料库的"懒人"工具箱

http://www.thecannabist.co/2017/03/02/jeff-sessions-russia-resign-democrats/74687/Attorney
2019年2月28日

上百种预训练中文词向量:Chinese-Word-Vectors

https://github.com/Embedding/Chinese-Word-Vectors
2019年2月26日

相似词查询:玩转腾讯 AI Lab 中文词向量

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI
2019年2月25日

中国科学技术大学计算机学院课程资源:USTC-CS-Courses-Resource

Zhu)整理的中国科学技术大学计算机学院课程资源,感觉很不错,感兴趣的同学可以关注、投稿,点击文末阅读原文可直达github链接:
2019年2月23日

Jiagu:中文深度学习自然语言处理工具

cnc:test/extra_data/model/cnc.modeljiagu.load_model('test/extra_data/model/cnc.model')
2019年2月20日

Awesome-Chinese-NLP:中文自然语言处理相关资料

文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等实验。
2019年2月17日

效果惊人的GPT 2.0模型:它告诉了我们什么

2.0的结果看,这种采取超深层Transformer+更大量的网页数据去做更好的语言模型,并进而做各种生成式任务,看样子是有前途的。当然,我前面提到,估计要引入情节规划的约束,这个事情才能真正做好。
2019年2月16日

自动对联活动获奖结果以及机器对联赏析

除了参与了自动对联新年活动外,其实他在最早刚放出这个对联机器人的时候也留了几条很有意思的对联:风云三尺剑,花鸟一床书---对联数据集和自动对联机器人
2019年2月12日

NLP Chinese Corpus项目:大规模中文自然语言处理语料

可能的用途:可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。结构:{"id":,"url":,"title":,"text":<text>} </div> </div> <div class="ct">2019年2月11日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409148/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409148/1" target="_blank"> NLP - 基于 BERT 的中文命名实体识别(NER) </a> </h3> <div class="preview"> 序列标注任务是中文自然语言处理(NLP)领域在句子层面中的主要任务,在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别(NER)、Chunk </div> </div> <div class="ct">2019年2月10日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409143/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLfUAa4WbN4VPJbVYDesIZ1xnBx27Azicp1dkJgvibm2utSMqwHPBe8VaAf22wTgGhP3BQ3v7H7pcvQ/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409143/1" target="_blank"> NLP 2018 Highlights:2018自然语言处理技术亮点汇总 </a> </h3> <div class="preview"> 2018》,汇总了2018年学术界和工业界NLP最重要的事件和技术亮点,涵盖强化学习、情感分析、NLP迁移学习、通用NLP、相关数据集等,感兴趣的同学可以直接访问 </div> </div> <div class="ct">2019年2月9日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409124/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJ6ebsefF8FYh5obzd6dM3oZBLicIk4vaTT5otCBaU2ibQPBJZ5aiaH4iceTKxY5Y4gyM8Jc57WJiaJJBg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409124/1" target="_blank"> 调戏对联机器人,赢赠书:机器翻译、智能问答、知识图谱 </a> </h3> <div class="preview"> 最后,欢迎大家在春节期间推荐AINLP公众号给相关同学,我们不仅仅能对对联,我们更愿意作为大家AI、NLP学习道路上的朋友: </div> </div> <div class="ct">2019年2月4日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409108/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSIibdvs1X8Qsp1XZUQP1kUiavrjORYunW3MeSI7gWEXDLdmKYpicx1y1ET4sN8h2GbWTSvO65aticOKbA/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409108/1" target="_blank"> 受限玻尔兹曼机原理及在推荐系统中的应用 </a> </h3> <div class="preview"> 而在反向传递时,激活值则变成输入,输出值变成了原始数据的重构值,也就是RBM在估计激活值为a时而输入值为x的概率p(x|a;w),激活值的权重w和正向传递中的一样。最终两个过程相结合,得到输入 </div> </div> <div class="ct">2019年2月1日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409100/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSLdrkiaGN1XVf5HHibnHzB08pYtFwxlnDq9mgQFPAQ6biak868xQODtw6dyWI61m3IzBPaxFyaVpSfcw/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409100/1" target="_blank"> NLP - 15 分钟搭建中文文本分类模型 </a> </h3> <div class="preview"> 由于长新闻特征比较明显,语料量也比较大,很容易取得比较不错的结果。但是如果我们的语料比较少,特征不是很明显时候直接训练可能会导致模型过拟合,泛化能力很差,此时我们可以使用预训练的词 </div> </div> <div class="ct">2019年1月29日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409078/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409078/1" target="_blank"> funNLP: 从文本中抽取结构化信息的超级资源包 </a> </h3> <div class="preview"> 上的资源整合,内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取等等。以下信息来自Github原文,点击文末阅读原文可直达相关链接。 </div> </div> <div class="ct">2019年1月25日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409073/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLuEHGs5DP1KEQ35rFdutkImvhLYhhEicd9Bqm22RBF2dzX1zXRXw4IC6LYXEcXic3DXLrhVswkvfVg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409073/1" target="_blank"> NLP is hard! 自然语言处理太难了系列 </a> </h3> <div class="preview"> 要去见投资人,出门时,发现车钥匙下面压了一张员工的小字条,写着“老板,加油!”,瞬间感觉好有温度,当时心理就泪奔了。心里默默发誓:我一定会努力的! </div> </div> <div class="ct">2019年1月24日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409030/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409030/1" target="_blank"> 深度学习资源大列表:关于深度学习你需要了解的一切 </a> </h3> <div class="preview"> https://github.com/osforscience/deep-learning-ocean </div> </div> <div class="ct">2019年1月15日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650409023/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSIPqiargBwz24ib8fPmrelHnsM0NhJRBPBTdELktko4Bb7SicgT9fIibvDSibAdhUwpNYs07uibC7mqg29w/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650409023/1" target="_blank"> 放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较 </a> </h3> <div class="preview"> 综合以上几个因素,我们可以看出,RNN目前处于进退两难的地步,我觉得它被其它模型替换掉只是时间问题,而且好像留给它的时间不多了。当然,这是我个人意见。我说这番话的时候,你是不是又听到了水声? </div> </div> <div class="ct">2019年1月13日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408997/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSLB6Qxv640QQtguz4HIBdRHdAwtpwxPZ0DaTdz9kyib9UzhukxRwLKea9z5z5Y7ibJVFQONG0Tf8omw/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408997/1" target="_blank"> 风云三尺剑,花鸟一床书---对联数据集和自动对联机器人 </a> </h3> <div class="preview"> 微软研究院的这个“对联语料库”的规模是67万对,所采用的技术是他们自己的web语料库自动获取技术。开玩笑的说,如果周明老师能给我这个语料库,我也能几天之内构建一个简单的“52nlp自动对联系统”。 </div> </div> <div class="ct">2019年1月8日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408993/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLutkAibYTTlOnfJldd3xTNLocyWljZQias0CYCmSTXQ4MBawqAtTWaV5tprpxGyzb6N0YygervUFJw/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408993/1" target="_blank"> AI Challenger 2018 机器翻译冠军参赛总结 </a> </h3> <div class="preview"> 我们将解码时返回的beam_score作为排序分值依据,但是不同的模型有不同的表现,所以就很难在统一的度量下进行排序。所以针对不同的模型我们引入了不同的权重。使用beam_score×weight </div> </div> <div class="ct">2019年1月4日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408987/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSK7oHMZdp2jUd1cfYCr2MasiafuhJaSAiaFkZrNLYA61IiaXt0css3HibKibjvfjksFOWmlEH9CpPWbCOw/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408987/1" target="_blank"> 公众号索引、关键字和其他相关资源 </a> </h3> <div class="preview"> 框架为这个微信后台混搭了一个“聊天机器人”,除了日常搭讪外,还负责回复用户的日常查询,所以为一些关注度比较高的文章做了关键字和索引,分散在以前的一些文章介绍里,这里再统一贴出来: </div> </div> <div class="ct">2019年1月3日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408982/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408982/1" target="_blank"> 清华大学NLP组整理的机器翻译论文阅读清单 </a> </h3> <div class="preview"> 更多信息请至github链接中查看:https://github.com/THUNLP-MT/MT-Reading-List </div> </div> <div class="ct">2018年12月29日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408971/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLXgiaesrhQzpja6flnK3icVWzFiaX0bvpukvicHBdPwlbh89LBGY3L0jhyK68SDZUuHXTcwiaRCKiae8Fw/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408971/1" target="_blank"> AI Challenger 2018 第4名PPT分享---细粒度情感分析赛道 </a> </h3> <div class="preview"> 本文已获作者授权,作者张礼,目前在新加坡从事NLP方面的算法研发工作。 </div> </div> <div class="ct">2018年12月25日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408932/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSLq2icc7uGctB0wnKhB6BdC19wUuawkynVlltK8afTer8m5oQhz0KQNzUfNZlTsWdsoWtjCIic3ba2Q/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408932/1" target="_blank"> 推荐系统中的矩阵分解技术 </a> </h3> <div class="preview"> 网络中的信息量呈现指数式增长,随之带来了信息过载问题。推荐系统是大数据时代下应运而生的产物,目前已广泛应用于电商、社交、短视频等领域。本文将针对推荐系统中基于隐语义模型的矩阵分解技术来进行讨论。 </div> </div> <div class="ct">2018年12月24日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408926/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408926/1" target="_blank"> AI Challenger 2018 冠军代码分享---细粒度情感分析赛道 </a> </h3> <div class="preview"> Github链接:https://github.com/chenghuige/wenzheng/tree/master/projects/ai2018/sentiment </div> </div> <div class="ct">2018年12月21日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408922/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSLIJAoV8yXKUK6agaiaLyiauEEOy3LFmKmhaUIFvQpxcSWzbIJYhwBXUNyqlg3LKWtxyOKia2pxzziaUg/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408922/1" target="_blank"> AI Challenger 2018 冠军 PPT 分享---细粒度情感分析赛道 </a> </h3> <div class="preview"> 细粒度情感分析赛道冠军阁子大神的PPT分享,已获得阁子大神授权,更多细节可以关注后续AI </div> </div> <div class="ct">2018年12月20日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408878/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSJ1oFe7lgt3MZyOsMa7OzVicfEH0drKOCSYGN1aVkzU3sN3SjJia7bRos0fMEznvsVccqfgyTYx6rpQ/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408878/1" target="_blank"> AI Challenger 2018 简记 </a> </h3> <div class="preview"> 本次评测只允许参赛方使用评测方指定的数据训练机器翻译系统,并对其排名。参赛方需遵守以下关于训练方式的说明。参赛方可以使用基本的自然语言处理工具,例如中文分词和命名实体识别。 </div> </div> <div class="ct">2018年12月19日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408867/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJT0JFoHTVIdPujcsib5tLmrOQGgAgiavib8k1aclIc2XvRJciaGAKz6q3Lkj23v6GyRQs4F4oJniceSOA/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408867/1" target="_blank"> 感知智能到认知智能中对知识的思考 </a> </h3> <div class="preview"> 人类耳、眼、鼻、口和皮肤与世界接触,并将这些信息反馈给大脑的过程是感知过程。今天人工智能正是通过视觉感知、听觉感知先进的传感器和模型算法技术在弱人工智能方面获得比人类更好的执行效率。 </div> </div> <div class="ct">2018年12月17日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408847/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSK7kNia2SmP6UhsvH1LwnbTqVLa3c00TxK2H7hdbHINOsiaHyrEvDrzPAhp6aqfpYeX7ibQ6BwuGtVOw/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408847/1" target="_blank"> polyglot:Pipeline 多语言NLP工具 </a> </h3> <div class="preview"> polyglot实体识别的训练语料来源于维基百科(WIKI),其训练好的模型并没有初次安装,需要下载相应的模型。polyglot支持40种语言的实体类(人名、地名、机构名)的识别。 </div> </div> <div class="ct">2018年12月11日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408830/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSIibdvs1X8Qsp1XZUQP1kUiavrjORYunW3MeSI7gWEXDLdmKYpicx1y1ET4sN8h2GbWTSvO65aticOKbA/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408830/1" target="_blank"> A/B测试的数学原理与深入理解 </a> </h3> <div class="preview"> 从二项分布(np(1-p))的方差得到分子,而分母表示当采用更多的样本时,转化率的误差会随之下降。请注意正面结果的概率等同于转化率,并且因为两个变量的标准误差可以通过相加来合并,得到如下结果: </div> </div> <div class="ct">2018年12月7日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408820/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408820/1" target="_blank"> AI Challenger 2018 文本挖掘类竞赛相关代码及解决方案汇总 </a> </h3> <div class="preview"> Reviews:https://github.com/ShawnXiha/Fine-grained-Sentiment-Analysis-of-User-Reviews </div> </div> <div class="ct">2018年12月3日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408800/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSLsjsicBqnIQCq9FicVuxFGOvfvQHneWQiah3E2SDSN6IWjpVLb8wv1jA6LoxGkcuv6Cwy7CTrJTOWibw/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408800/1" target="_blank"> 详解TensorFlow™ GPU 安装 </a> </h3> <div class="preview"> GPU版本所依赖的python、cuDNN、GPU显卡驱动和CUDA的版本。在安装的时候一定注意版本的对应关系,若Python、cuDNN、GPU显卡驱动和CUDA的版本有低于TensorFlow </div> </div> <div class="ct">2018年11月29日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408778/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSJbQSskiaIGMCHfD4UYrUwtaHkl57MIC14E2aX0SFmIibf9VKlVWic5CMOMscaliaOaVYVvibngbiavSyaw/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408778/1" target="_blank"> 干货 | BERT fine-tune 终极实践教程 </a> </h3> <div class="preview"> 总的来说,google此次开源的BERT和其预训练模型是非常有价值的,可探索和改进的内容也很多。相关数据集上已经出现了对BERT进行修改后的复合模型,如squad2.0上哈工大(HIT)的AoA </div> </div> <div class="ct">2018年11月24日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408772/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKZXDFkvQOoWZRpvNsicjToGKVXZ1XD7icwicjb9YC4ahTWtZqxlIjHk4bic20DqFwqhhIvsTMqiaJmQJg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408772/1" target="_blank"> AI Challenger_2018英中文本机器翻译_参赛小结 </a> </h3> <div class="preview"> [6]的方法对于距离较远的语言之间,需要先用一个质量较好的双语词典做初始化。所以我先用MUSE在训练语料上训了一个词典,然后用两个语言的词向量空间初始化[6]中的模型。英中bleu训到8.x。 </div> </div> <div class="ct">2018年11月23日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408753/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSIMD7PsiaANgHZFn2Z6Zna6XjtJpibsQSvW1ceI61v0iacRFSCWjXm54iaXac4blJwscPicHKp0oJiaUQJg/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408753/1" target="_blank"> 深度学习实践:从零开始做电影评论文本情感分析 </a> </h3> <div class="preview"> (https://github.com/panyang/AINLP),预期配套这个系列相关的文章和教程,欢迎大家关注,也欢迎大家关注我们的微信号: </div> </div> <div class="ct">2018年11月19日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408742/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLSd7rBNQDaeKWibJNPELkic9ZkKXuwy62nNLV2GkU15jgYymQMCMia2Zibd3bk4JrwIeTQyY7hyLVqpg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408742/1" target="_blank"> BERT相关论文、文章和代码资源汇总 </a> </h3> <div class="preview"> https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270 </div> </div> <div class="ct">2018年11月17日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408735/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSLQuuuV1ibFrrQQUvblL0VZOTjT4VBaghdSDToTBZiaQx4MhpNZRWvkW2uEYjFz7SjT8lkDEQ17Bzfw/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408735/1" target="_blank"> 谷歌BERT模型深度解析 </a> </h3> <div class="preview"> Transformer编码器,并在tensor2tensor库中发布。由于Transformer的使用最近变得无处不在,论文中的实现与原始实现完全相同,因此这里将省略对模型结构的详细描述。 </div> </div> <div class="ct">2018年11月16日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408685/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSIgMktVLde5xSr2IDnAJjX773skEEElgibQxEB8PibRzSibMZU9ibXdBIkFia10iaQlaFKmic6tdM4Bice2mg/640?wx_fmt=gif"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408685/1" target="_blank"> Hands-on Machine Learning with Scikit-Learn and TensorFlow 学习笔记 </a> </h3> <div class="preview"> 建议关于时间,这本书是一位美国数据科学家向我推荐的,他从头到尾做完了整本书的所有示例代码,大概用了80个小时左右,以此作为参考,大家自行安排自己的进度 </div> </div> <div class="ct">2018年11月12日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408679/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSI7iaK3cUAPOAWEXZThchWJib78icsuL7RxvoVPeIrweVxM3qAguxAKOprzuu7sfXicnntDN6058k5ruA/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408679/1" target="_blank"> 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 </a> </h3> <div class="preview"> 上面是闲话,闲言碎语不要讲,我们回来讲一讲NNLM的思路。先说训练过程,现在看其实很简单,见过RNN、LSTM、CNN后的你们回头再看这个网络甚至显得有些简陋。学习任务是输入某个句中单词 </div> </div> <div class="ct">2018年11月11日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408667/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLWGBPX5sHrRoX0xFiaIR5ufCVP7ukowktfcHUZNc5ia7On9yEibhibemjtDG4uQ1IPdwfuSia0wCfIKxg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408667/1" target="_blank"> 预训练在自然语言处理的发展: 从Word Embedding到BERT模型 </a> </h3> <div class="preview"> Lab的资深算法专家张俊林博士11月7日关于BERT的PPT分享,已取得授权转载到这里。节选微博上两段相关的信息: </div> </div> <div class="ct">2018年11月9日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408615/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSIibdvs1X8Qsp1XZUQP1kUiavrjORYunW3MeSI7gWEXDLdmKYpicx1y1ET4sN8h2GbWTSvO65aticOKbA/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408615/1" target="_blank"> fastText原理及实践 </a> </h3> <div class="preview"> 树的结构是根据类标的频数构造的霍夫曼树。K个不同的类标组成所有的叶子节点,K-1个内部节点作为内部参数,从根节点到某个叶子节点经过的节点和边形成一条路径,路径长度被表示为。于是,就可以被写成: </div> </div> <div class="ct">2018年11月8日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408594/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLycvScxPcJf1mkQuvricJsCibwVDriaibafWUWS6hiczuIkwiaNibkn2ME6Zib7wXdNac3t7FdyUfias8HFYg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408594/1" target="_blank"> 改个名,抽个奖 </a> </h3> <div class="preview"> 当然,最后要表示一下谢意,6月份的时候,有朋友赠了母校哈工大车万翔老师等人翻译并签名的《基于深度学习的自然语言处理》一书,当时读了一遍,感觉很不错: </div> </div> <div class="ct">2018年11月4日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408566/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKR73kG1eQcrEbERU2PSuoIEOj4vibUG99nOCR7BnA79ACQgib3hInpTnBQVuyWo6go0sdzvxgq5SQg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408566/1" target="_blank"> 一文详解深度学习在命名实体识别(NER)中的应用 </a> </h3> <div class="preview"> 近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named </div> </div> <div class="ct">2018年10月23日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408562/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKAQ5HX6aSBeiamT7shB8vf5A0WOeSaP1Qiabv2dqI3xMf7lADicbwIq3KxVRLfeI4M3ia7nxmvRLgLfg/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408562/1" target="_blank"> 5个例子,秒懂分类算法(达观数据王子豪) </a> </h3> <div class="preview"> 在你眼里乖巧的小明是一个好孩子,同时你也想确保他会在学校做一名“好学生”而不是“坏学生”。这里的区分“好学生”和“坏学生”就是一个分类任务,关于这点,达观研究院可以帮你回答小明的疑问。 </div> </div> <div class="ct">2018年10月20日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408553/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSL5BW4z3yMOO1ICTY3BaQia5vLhNY2tQA5yp4LbzGXOvDWKcmGIkhzN9PKCAQxYqPsnBnEK34FZeZw/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408553/1" target="_blank"> 如何学习自然语言处理:NLP领域经典《自然语言处理综论》英文版第三版更新 </a> </h3> <div class="preview"> 我觉得先要学好英语、数学和编程,因为英文世界的资料更丰富和原创,而数学会让你读论文的时候游刃有余、编程可以让你随时随地实现相关的idea。这好像是废话,那么闲话少说,进入正题。 </div> </div> <div class="ct">2018年10月17日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408523/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSKiaYNuLXD6saxeKm12Xw2VP9NEGeCPxR9SVW0I7DTDic42M7599PKsM50hlfsOYcuoFNia2ibO6uCFJQ/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408523/1" target="_blank"> 提供一个10分钟跑通 AI Challenger 细粒度用户评论情感分析的fastText Baseline </a> </h3> <div class="preview"> baseline,不过结果有点惨不忍睹,最终的F1均值只有0.2多一点,不知道哪个环节出了问题,另外一个问题是,整个训练过程大概花了2、3天,对于我来说稍微有点长。对于文本分类问题,自从有了 </div> </div> <div class="ct">2018年10月2日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408508/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_jpg/nW2ZPfuYqSLAkDxLh44srLHLiavBoLsyLWicFGJuyTb8XFVWZ7mcW1JrJ71slKYXOdGb8MWveLvCsHp0a0CsC4cA/640?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408508/1" target="_blank"> AI Challenger 2018 以及数据竞赛对于求职和工作的意义 </a> </h3> <div class="preview"> 新赛季已经于8月29号启动,总奖金高达300万人民币,单个赛道冠军奖金最高到40万人民币。新赛季英中机器翻译文本大赛继续,提供了一批新的语料,中英双语句对规模大致到了1千3百万句对的水平,真的很赞。 </div> </div> <div class="ct">2018年9月24日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408471/1" target="_blank"> <img data-src="https://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKyCdExbZZA5FCVHEfxFchP6kMic8KL4Kxy2IMGESoEhX9HA8ulltSllVWBEhb4T5Km8zj5Cu4xvCw/640?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408471/1" target="_blank"> AI Challenger 2017 奇遇记 </a> </h3> <div class="preview"> 虽然之前也或多或少的碰到过一些NMT工具,但是这一次我的神经网络机器翻译开源工具之旅是从OpenNMT开启的,这个开源NMT工具由哈佛NLP组推出,诞生于2016年年末,不过主版本基于Torch, </div> </div> <div class="ct">2018年6月10日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408382/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKrZCIR99BGpw5z4PIkVkaeeqDGxeybGfCu5iaDNuianWyriatY1lvKzCQibCmzGicxTl0H2Ry2icfibdjicg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408382/1" target="_blank"> 如何学习自然语言处理:一本书和一门课 </a> </h3> <div class="preview"> 教授。这也是我当年的入门书,我读过这本书的中文版(翻译自第一版英文版)和英文版第二版,该书第三版正在撰写中,作者已经完成了不少章节的撰写,所完成的章节均可下载:Speech </div> </div> <div class="ct">2017年7月24日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">NLPJob</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408313/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKrZCIR99BGpw5z4PIkVkaeeqDGxeybGfCu5iaDNuianWyriatY1lvKzCQibCmzGicxTl0H2Ry2icfibdjicg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408313/1" target="_blank"> Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 </a> </h3> <div class="preview"> 准备工作就绪后,我们首先考虑的是在nltk源代码里的什么地方来添加这个接口文件。在nltk源代码包下,斯坦福词性标注器和命名实体识别工具的接口文件是这个:nltk/tag/stanford.py </div> </div> <div class="ct">2016年7月16日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/2650408276/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKo0LI8E3icJF2dDKexktXgxLX4exmxNbgrXZ9boFYvROPUpvF3eqHXf0etrMLQ8sMN7ncWTTtGkMQ/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/2650408276/1" target="_blank"> QA问答系统中的深度学习技术实现 </a> </h3> <div class="preview"> 生成的ouputs_1是一个python的list,使用concatenate将list的多个tensor拼接起来(list中的每个tensor表示一种大小的filter卷积的结果) </div> </div> <div class="ct">2016年6月15日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/401806648/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/401806648/1" target="_blank"> 正态分布的前世今生索引 </a> </h3> <div class="preview"> 近期发现有很多关于《正态分布的前世今生》的查询需求,这里做一个微信链接总索引,方便大家回复相关的关键字查询:正态分布。荣耀归于rickjin。 </div> </div> <div class="ct">2016年1月10日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/400354518/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSLgsYZXF2ibDAib8OHz7InibuvxDc7X12qab2TluqjrsRDn2aD2Ric5lpviaTTJZ8tY6SDeicNy8o1H0P1A/0?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/400354518/1" target="_blank"> 正态分布的前世今生完结篇:七、八 & PDF版 </a> </h3> <div class="preview"> 极其简单而朴素的一个式子,被人们使用了千百年,而在其身后隐藏着一个美丽的世界,而正态分布正是掌管这个美丽世界的女神。 </div> </div> <div class="ct">2015年11月2日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/400329123/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKsruIvWzwu8Zn7qRd7Xe93ruDUkI6SaLuqOeh1pKD3DC8kicVRCR821PSXWEzWrZED6tdnRB0KIvw/0?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/400329123/1" target="_blank"> 正态分布的前世今生(六) </a> </h3> <div class="preview"> 第二位剑客是戈塞特(Gosset),笔名是大家都熟悉的学生氏(Student),而他手中的宝剑是分布。戈塞特是化学、数学双学位,依靠自己的化学知识进酿酒厂工作, </div> </div> <div class="ct">2015年11月1日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/400303163/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKaESgaLQTctnPyv9vTQEUY6JtulRtJhmHaBTMu2kPNeGxMVepcLEZXpGrnvAoVxdDRHic1EEWBq6g/0?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/400303163/1" target="_blank"> 正态分布的前世今生(五) </a> </h3> <div class="preview"> 而真正把漏洞补上的是来自俄罗斯的几位蜘蛛侠:切比雪夫(Chebyshev)、马尔可夫(Markov)和李雅普诺夫(Lyapunov)。 </div> </div> <div class="ct">2015年10月31日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/400239491/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSLkW30gw02NVicGEyZEujpxLicw7U0Fr3ptfpQaXkX0CRD6ushnNg17wKhiaic9mXibd8WFtKoyFNZnVRw/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/400239491/1" target="_blank"> 正态分布的前世今生(四) </a> </h3> <div class="preview"> 好的,风景欣赏暂时告一段落。所谓横看成岭侧成峰,远近高低各不同,正态分布给人们提供了多种欣赏角度和想象空间。法国菩萨级别的大数学家庞加莱对正态分布说过一段有意思的话,引用来作为这个小节的结束: </div> </div> <div class="ct">2015年10月28日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/400221907/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSJ3yxFDJo5ph4vViajNyjBn23qxB6MzZZl8paU2wd4LkBPHfZiaQmHt1pBibf5vacntDtPtBImwBhYtA/0?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/400221907/1" target="_blank"> 正态分布的前世今生(三) </a> </h3> <div class="preview"> 我们的数学大师陈省身把黎曼和庞加莱称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼的导师,数学圈里有些教授把高斯称为数学家中的佛。 </div> </div> <div class="ct">2015年10月27日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/400179720/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSLVOpcWvg3IdvjAHgOUYLiaUVYlxBfzzx8CbXPQqljl2ZbOI4w9u4TQV9XsibvMzFN4vj9ZLIuPyUwA/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/400179720/1" target="_blank"> 正态分布的前世今生(二) </a> </h3> <div class="preview"> 以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些天文学的问题大体都可以转换为描述如下的问题:有我们想估计的量 </div> </div> <div class="ct">2015年10月25日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/400141157/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSILRaT4eqjoWWqrQzBrNx4bmxtX61Elg7Tw2zT6SM3FGtdGfwn2fu0wiaeCKZPeU2OYib2JV4tbvwfQ/0?wx_fmt=jpeg"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/400141157/1" target="_blank"> 正态分布的前世今生(一) </a> </h3> <div class="preview"> 的最美丽的数学公式之一,如果有人问我数理统计领域哪个公式最能让人感觉到上帝的存在,那我一定投正态分布的票。因为这个分布戴着神秘的面纱,在自然界中 无处不在,让你在纷繁芜杂的数据背后看到隐隐的秩序。 </div> </div> <div class="ct">2015年10月22日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/209887665/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSJgTwJic3Ogq2nZvhD34oop0K1LGMibicpsHqWyqrN5wDZMLTD3JExNzKanqMM0RnvhP07JnUicBa73LA/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/209887665/1" target="_blank"> CIKM Competition数据挖掘竞赛夺冠算法陈运文 </a> </h3> <div class="preview"> 类似数据挖掘中“啤酒与尿布”的经典故事,Query和Query如果频繁在同一个Session中共现,则也可以认为两个Query有紧密的相关关系,事实上这也是搜索引擎挖掘生成相关查询词(related </div> </div> <div class="ct">2015年10月14日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/209847200/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/209847200/1" target="_blank"> 如何计算两个文档的相似度三 </a> </h3> <div class="preview"> 上一节我们用了一个简单的例子过了一遍gensim的用法,这一节我们将用课程图谱的实际数据来做一些验证和改进,同时会用到NLTK来对课程的英文数据做预处理。 </div> </div> <div class="ct">2015年10月12日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/209833863/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKjhzKtEBDmzadB9EZqYqHCChUgtLVMQ4eXRuLsBLbbLXiaPsemmM9yX7zl8Q7sd4UgE83Oykia4KlA/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/209833863/1" target="_blank"> 如何计算两个文档的相似度二 </a> </h3> <div class="preview"> install,但是国内因为网络的缘故常常失败。所以我是下载了gensim的源代码包安装的。gensim的这个官方安装页面很详细的列举了兼容的Python和NumPy, </div> </div> <div class="ct">2015年10月11日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/209775289/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSItQCzqfbqRiaOuLNshfTdJb8FiccBlMNLnKPWkOn8SoPdZbuQHelIyyXObR0ScL3vkYUftFp0S1EPQ/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/209775289/1" target="_blank"> 如何计算两个文档的相似度一 </a> </h3> <div class="preview"> analysis,中文译为浅层语义分析)这两个名词常常混在一起,事实上,在维基百科上,有建议将这两个名词合二为一。以下是课程图谱的一个效果图,课程为著名的机器学习专家Andrew </div> </div> <div class="ct">2015年10月9日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/209621990/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz_png/nW2ZPfuYqSKAnqcViaIWJ40GKChb8uoLoichr44nhO2OSPBzMxhdosvv3Ljc695woogSyoIMlsiaIRuk8ur4jpHZg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/209621990/1" target="_blank"> Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 </a> </h3> <div class="preview"> 聚类,SVM)以及可视化模块等,可以说,Pattern的这一整套逻辑也是这篇文章的组织逻辑,不过这里我们暂且把Pattern放到文本处理部分。我个人主要使用的是它的英文处理模块Pattern.en, </div> </div> <div class="ct">2015年9月30日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/209595442/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKrZCIR99BGpw5z4PIkVkaeeqDGxeybGfCu5iaDNuianWyriatY1lvKzCQibCmzGicxTl0H2Ry2icfibdjicg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/209595442/1" target="_blank"> 中文分词入门之最大匹配法扩展:MMSeg </a> </h3> <div class="preview"> 在进入正题之前,还是先说两句篇外话,上一篇《中文分词入门之篇外》中说到了solol提供了Java版的mmseg,相似的,python版mmseg的作者fakechris也在这里留了言: </div> </div> <div class="ct">2015年9月28日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/209534920/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKrZCIR99BGpw5z4PIkVkaeeqDGxeybGfCu5iaDNuianWyriatY1lvKzCQibCmzGicxTl0H2Ry2icfibdjicg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/209534920/1" target="_blank"> 旧文共赏--中文分词入门之资源 </a> </h3> <div class="preview"> Linguistics”,又可以理解为“SIG汉“或“SIG漢“。而Bakeoff则是SIGHAN所主办的国际中文语言处理竞赛,第一届于2003年在日本札幌举行(Bakeoff </div> </div> <div class="ct">2015年9月24日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> <div class="article"> <div class="image"> <a href="/a/MjM5ODkzMzMwMQ==/208966408/1" target="_blank"> <img data-src="http://mmbiz.qpic.cn/mmbiz/nW2ZPfuYqSKrZCIR99BGpw5z4PIkVkaeeqDGxeybGfCu5iaDNuianWyriatY1lvKzCQibCmzGicxTl0H2Ry2icfibdjicg/0?wx_fmt=png"> </a> </div> <div class="main"> <h3> <a href="/a/MjM5ODkzMzMwMQ==/208966408/1" target="_blank"> 用MeCab打造一套实用的中文分词系统(四):MeCab增量更新 </a> </h3> <div class="preview"> 注意在mecab_chinese_data_binary_v0.3目录下生成了5个二进制文件char.bin,matrix.bin,model.bin,sys.dic, </div> </div> <div class="ct">2015年8月26日</div> <div class="nickname"> <a href="/profile/MjM5ODkzMzMwMQ==" target="_blank">AINLP</a> </div> </div> </div> <script> var lazyLoadInstance = new LazyLoad({ elements_selector: '.articles img' }); </script> </div> <div id="footer"> 自由微信于2016年由 <a href="https://zh.greatfire.org/" target="_blank">GreatFire.org</a>建立。 <div class="timers"> <label>total:</label> 0.37 s<br /> </div> </div> <script> $(document).ready(function() { setInterval(function() { var left = 0; $('#hot-articles .hot-article').each(function() { if($(this).offset().left + $(this).width() > $('#hot-articles').width()) { left = parseInt($('#hot-articles .inner').css('left')) - $(this).offset().left; return false; } }); $('#hot-articles .inner').animate({left: left}); }, 5000); $('#hot-articles .hot-article').click(function(e) { if(e.target != this) { return; } window.open($(this).find('a:first').attr('href'), '_blank'); }); if (/Mobi/.test(navigator.userAgent)) { $('#share-wechat').show(); } $('#share-wechat a.how').click(function() { $('#share-wechat .hidden').toggle(); return false; }); $('.appmsg').click(function() { window.open($(this).find('a:eq(0)').attr('href'), '_blank'); return false; }); }); </script> </body> </html>