机器学习算法与自然语言处理

其他

放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

300美元平替ChatGPT!斯坦福130亿参数「小羊驼」诞生,暴杀「草泥马」

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

​ICLR 2023 | 基于知识图谱的多模态类比推理

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

ChatGPT负责人John Schulman:如何做好研究

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

ChatGPT之后何去何从?LeCun新作:全面综述下一代「增强语言模型」

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
2023年2月23日
其他

Open AI最新文章:AI系统未来如何发展

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
2023年2月20日
其他

ChatGPT数据集之谜

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

大道至简:只靠单一任务训练的语言模型,效果好到惊呆网友

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

ChatGPT背后的经济账

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

有了Fine-tune-CoT方法,小模型也能做推理,完美逆袭大模型

MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自
其他

博士申请 | 北卡州立大学计算机系招收博士/硕士/实习生

杜克大学和北卡教堂山分校,半小时以内车程。三角研究园内含有超过300家公司,包括苹果专注AI的新园区,谷歌的新工程中心,IBM,微软,亚马逊,联想全球总部,Cisco,Red
其他

对话 DenseNet 一作黄高:做有韧劲、能抗压、不断探索未知的科研

、计算机视觉领域一作顶会论文被引次数最高的国内学者、百万青橙奖奖金获得者.....这些标签堆在一起,你觉得背后的人物是什么样子?天才选手,一路开挂,凡尔赛宫发言人?NoNoNo,
2021年9月24日
其他

CPU和GPU,谁才是小学生?

scheduler就是一个“推土机模块”(运算单元是一个模块里共享的)。这样算下来GTX760其实也就是个带超线程的6模块24核48线程,支持AVX1024的加强版推土机CPU(AMD
2021年9月19日
自由知乎 自由微博
其他

Prompt—从CLIP到CoOp,Visual-Language Model新范式

embedding先归一化然后进行点积,最后得到的logits中数值最大的位置对应的标签即为最终预测结果。从CLIP的流程中可以看出,CLIP和PET的prompt使用方式非常相似,A
2021年9月19日
其他

Focal Loss --- 从直觉到实现

第一个技巧对应到公式中,就是针对每个类别赋予不同的权重,即下述这是个简单粗暴有效的办法。方法二、刷题战术每道【题目】的难度是不同的;你要根据以往刷类似题时候的正确率来合理分配精力。---
2021年9月18日
其他

H.T. Kung 关于研究的有用建议

博士论文的类型开启一个新领域提供统一框架解决长期存在的问题彻底探索一个区域与现有知识相矛盾实验验证理论开发一个有野心的系统提供经验数据推导出卓越的算法开发新的方法论开发新工具产生负面结果4.
2021年8月16日
其他

17篇注意力机制PyTorch实现,包含MLP、Re-Parameter系列热门论文

等网络结构,而仅仅采用注意力机制来进行机器翻译任务,并且取得了很好的效果,注意力机制也因此成了研究热点。经过几年的发展,领域内产生了众多的注意力机制论文研究,这些工作在
2021年8月15日
其他

什么是Transformer位置编码?

这两个字符的关系。按照位置编码的的公式,我们可以计算的位置编码,其结果如下:我们可以看看上面公式中,有一部分是似曾相识的:根据上面的公式我们可以看出,似曾相识的部分带入
2021年8月12日
其他

985高校博士:师从院士的我,直到毕业也没和导师单独说过一句话

、新华视点推荐阅读:漫谈VAE和VQVAE,从连续分布到离散分布Huggingface
2021年7月25日
其他

漫谈VAE和VQVAE,从连续分布到离散分布

code的梯度跳过最近邻搜索直接复制到中间编码上。VQVAE相比于VAE最大的不同是,直接找每个属性的离散值,通过类似于查表的方式,计算codebook和中间编码的最近邻作为latent
2021年7月16日
其他

Huggingface BERT源码详解:应用模型与训练优化

任务的预训练;基于BertOnlyMLMHead,而后者也是对BertLMPredictionHead的另一层封装;BertLMHeadModel:这个和上一个的区别在于,这一模型是作为
2021年7月14日
其他

在错误的数据上,刷到 SOTA 又有什么意义?

竞赛。吴恩达老师认为:工业界已经具备较为成熟的算法和代码体系,现在更加缺少的是一套成熟的构建工业化数据集的方法论。然而,正如图灵奖得主
2021年7月4日
其他

视觉增强词向量:我是词向量,我开眼了!

到对应视觉强化的语义空间上,获得的Grounded词向量记作。为了达成这一目的,论文设计了三个部分:语言模型设图文描述数据集为,其中对应文本部分,对应图像部分。我们使用
2021年6月19日
其他

Transformer长大了,它的兄弟姐妹们呢?(含Transformers超细节知识点)

Attention):采用稀疏注意力机制,将O(n)依赖降至线性,解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制,同时兼顾更长的上下文。线性化的注意力(Linearized
2021年6月18日
其他

ERICA: 提升预训练语言模型实体与关系理解的统一框架

此外,作者分析了远程监督关系的多样性/预训练文档数量对于模型效果的提升。实验结果发现,更加多样的远程监督关系与更大的预训练数据集对于性能的提升有积极的作用。d)
2021年6月17日
其他

院士坦言:如果没有项目或“帽子”,不足以让科研人过上“体面的生活”

10版推荐阅读:人人都能看懂的LSTM细节满满!理解对比学习和SimCSE,就看这6个知识点如何理解
2021年6月10日
其他

细节满满!理解对比学习和SimCSE,就看这6个知识点

训练中采样到伪负例的概率,减少它的影响。另外,神经网络是有一定容错能力的,像伪标签方法就是一个很好的印证,但前提是错误标签数据或伪负例占较小的比例。PS:也确有人考虑研究过这个问题,可以参考论文
2021年6月2日
其他

人人都能看懂的LSTM

是因为这里是将其做为输入数据,而不是门控信号)。下面开始进一步介绍这四个状态在LSTM内部的使用。(敲黑板)
2021年6月2日
其他

如何理解 inductive learning 与 transductive learning?

机器学习算法与自然语言处理公众号本文仅作学术分享,若侵权,请联系后台删文处理关于Transductive和Inductive,维基百科上有一段简洁扼要的定义:Transduction
2021年6月1日
其他

因果推断综述及基础方法介绍(二)

group的人群自带偏差,而类似S-learner的方法又会使得treat的作用丢失,那么将人群embedding中并尽可能消除bias和保存treat的作用就非常重要了。BNN
2021年5月21日
其他

因果推断综述及基础方法介绍(一)

DID)在随机试验那部分我们提到,可以采用的前提是,那如果不符合这个条件应该怎么办?有一个比较老且基础的方法是双重差分法,也就是差分两次。这张图讲得非常清楚,首先为什么我们不能用,举个
2021年5月21日
其他

多标签文本分类研究进展

转载自|专知文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。介绍了多标签文本分类的方法。这些方法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于CNN结构、基于RNN结构和基于Transfomer结构的多标签文本分类方法。对多标签文本分类常用的数据集进行了梳理总结。对未来的发展趋势进行了分析与展望。http://cea.ceaj.org/CN/abstract/abstract39605.shtml
2021年5月19日
其他

第一:做学位论文期间,不要有任何度假休息的打算;第二,导师错的时候不多;第三……

Herman)通过自己指导研究生的经历,针对研究生遇到的问题和困惑,从导师的角度对研究生如何顺利完成学位论文,提出了20条劝告,这被称为研究生从事学术研究的赫曼法则(The
2021年5月18日
其他

【学术相关】直博和读完硕士再读博,在能力上的差距有多大?

“星标”,重磅干货,第一时间送达!来源:机器学习初学者直博和读完硕士再读博,在能力上的差距有多大?高赞回答一
2021年5月16日
其他

国科大回应:博士生每月不低于4300元!

java(中文版)等20项福利资源获取方式:进入群后点开群公告即可领取下载链接注意:请大家添加时修改备注为
2021年4月22日
其他

Transformer升级之路:博采众长的旋转式位置编码

的核心运算是内积,所以我们希望的内积的结果带有相对位置信息,因此假设存在恒等关系:所以我们要求出该恒等式的一个(尽可能简单的)解。求解过程还需要一些初始条件,显然我们可以合理地设
2021年4月7日
其他

抽取式摘要最新研究进展

CNN/DM测试集上不同粒度的Oracle摘要对比首先展示了基于事实用Oracle方法抽取摘要的效果,如表5所示,基于事实的Oracle方法提高了抽取方法的理论上界,能够生产更精确的抽取标签。表6
2021年4月1日
其他

「新生手册」:PyTorch分布式训练

https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/mnmc_ddp_launch.pydistributed.launch
2021年3月28日
其他

施一公:国内学术界的潜规则,改变不了我的做事方式

于是,除了亲自对实验室里的每位研究生作系统指导,把实验室里的十数名学生培养成成熟、练达的科研人员,这位尽量找各种理由推掉很多行政会议、项目评审和公众活动的科学家,出现在了一些面向大学生的讲座中。
2021年3月9日
其他

“神奇的”标签增强技术(Label Enhancement)

Enhancement)作者:郭必扬时间:2020.12.29前言:我们习惯于使用one-hot标签来进行模型的训练,但是有没有办法可以构造出更好的标签呢?本文主要根据东南大学的论文“Label
其他

Papers With Code 新增数据集索引功能:覆盖数据集3000+,数百任务、多种语言一网打尽!

即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
其他

我为什么读博, 以及我为什么不读博?这是个问题!

word2vec多模态深度学习综述:网络结构设计和模态融合方法汇总awesome-adversarial-machine-learning资源列表
2020年12月31日
其他

Tensorflow 的 NCE-Loss 的实现和 word2vec

reverse_dictionary可以看到,TF的word2vec实现里,词频越大,词的类别编号也就越大。因此,在TF的word2vec里,负采样的过程其实就是优先采词频高的词作为负样本。
其他

NLP集大成之命名实体识别

哈工大+张三+对话系统。号主,微商请自觉绕道。谢谢!推荐阅读:工业界求解NER问题的12条黄金法则三步搞定机器学习核心:矩阵求导神经网络中的蒸馏技术,从Softmax开始说起
2020年12月26日
其他

杨笛一:女孩长大后数理化可以很好,科研可以很鲜活

Big2013年从上海交大毕业后,杨笛一先是在卡内基梅隆大学语言技术研究所攻读研究型硕士;随后又在李沐、王威廉等学长的建议下读博,开始从事交叉学科研究,并选择了两位十分有份量的导师:Robert
2020年12月25日
其他

多模态深度学习综述:网络结构设计和模态融合方法汇总

即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
其他

awesome-adversarial-machine-learning资源列表

即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
其他

NLP中的少样本困境问题探究

Models》[15]中,根据不同预训练目标对自编码(AE)的BERT、自回归(AR)的GPT-2、Seq2Seq的BART这3个预训练模型进行了对比。不同于CBERT,没有标签信息变为label
2020年12月7日
其他

每日论文速递:自然语言处理相关(11月11日更新版)

哈工大+张三+对话系统。号主,微商请自觉绕道。谢谢!推荐阅读:工业界求解NER问题的12条黄金法则三步搞定机器学习核心:矩阵求导神经网络中的蒸馏技术,从Softmax开始说起