Papers with Code果真是AI领域的学术神器,前段日子,刚和arXiv联手推出了代码链接功能,让研究er们在上传arXiv论文的时候,顺便提提交一下代码。今日,又把机器学习数据集一网打尽。相关页面:https://www.paperswithcode.com/datasets?page=1据Papers with Code的官方推特介绍,这次能够索引的数据集规模达到了3000+,而且提供按任务和模式查找的功能,能够比较数据集的使用情况,浏览基准......如上,此次数据集索引共支持的模式包括图像(1066个),文本(830个),视频(342个),音频(173个)、3D(93)、图形(70)等等共38种模式。至于任务分类,也支持问答(224)、语义分割(159)、目标检测(119)、图像分类(90)等等近百种机器学习任务。数据集涵盖的语言,除了英文、中文、德语、法语等主流语言之外,还支持包括祖鲁语、西兰语、土库曼语等比较小众的语言。值得一提的是,中国的一些方言,例如壮族语言、粤语等等也包括在内。目前Papers with Code还支持所有注册用户上传数据集,只需简单描述数据集,并按下上传,就能贡献机器学习社区!使用起来也非常方便,例如我选择:文本模式、问答任务、中文语言。显示结果如下,共有9个数据集满足要求。Papers with Code 于 2018 年 7 月建立,初衷是帮助机器学习爱好者追踪最新的论文及源代码,快速了解最前沿的技术进展,创立者是剑桥大学的两位高材生Robert Stojnic和Ross Taylor。该网站涉及了多种机器学习任务,包括计算机视觉、自然语言处理、医疗、方法论、语音、游戏、图、时序、音频、机器人、音乐、推理、计算机代码、知识库、对抗等。Papers with Code将 arXiv 上最新的机器学习论文与 GitHub 上的代码对应起来,让用户可以按标题关键词查询,或者按流行程度、GitHub 收藏数、当前最优排列论文。截至2019年12月,Papers with Code 已经累积了 18000 篇论文、1000 项任务和 1500 个排行榜,成为最常用的机器学习资源网站之一。此时,Papers with Code 已并入 Facebook AI ,但其仍然保持平台独立性。在开发结构化搜索上,Papers with Code可谓不遗余力。去年五月份Papers with Code发布了重大更新,当时他们已经拥有2500多个排行榜和20,000多个结果,并且利用他们的结果提取方法,排行榜中的实验结果可以直接链接到arXiv论文中的表格。去年7月,Papers with Code又发布了提取论文模型方法的新功能,方法页面提供了论文的有关方法、架构、相关论文、涉及任务、随时间变化的使用趋势以及该方法所依赖的子组件。其中子组件涉及730多种机器学习的构建基块:优化器、激活、注意层、卷积等。这次更新的数据集功能以ImageNet为例,简介:基准,以及使用imagenet数据集的论文数(随时间变化):
下载1:四件套
在机器学习算法与自然语言处理公众号后台回复“四件套”,
即可获取学习TensorFlow,Pytorch,机器学习,深度学习四件套!
下载2:仓库地址共享
在机器学习算法与自然语言处理公众号后台回复“代码”,
即可获取195篇NAACL+295篇ACL2019有代码开源的论文。开源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code
重磅!机器学习算法与自然语言处理交流群已正式成立!
群内有大量资源,欢迎大家进群学习!
额外赠送福利资源!深度学习与神经网络,pytorch官方中文教程,利用Python进行数据分析,机器学习学习笔记,pandas官方文档中文版,effective java(中文版)等20项福利资源
获取方式:进入群后点开群公告即可领取下载链接
注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]
例如 —— 哈工大+张三+对话系统。
号主,微商请自觉绕道。谢谢!
推荐阅读:
Tensorflow 的 NCE-Loss 的实现和 word2vec
多模态深度学习综述:网络结构设计和模态融合方法汇总
awesome-adversarial-machine-learning资源列表