其他

数据库开源 | 200人中英文混说数据库开放申请

2018-04-11 关注前沿科技 量子位

各位语音识别领域的攻城狮小伙伴们,福利来啦!

量子位将与冲浪科技共同开放开源数据库:200人中英文混说数据库冲浪科技为本次数据提供方。此外,我们还将共同打造一个语音识别技术社群,邀请语音领域的研究者进入,为大家打造一个技术交流平台。进入社群的同学,在下次数据开源时可优先申请。

数据集详细信息

采集语言:中英文混读
总人数:200人(约120小时)
发音人:中国人, 口音涵盖中国主要方言区
性别比例:男女各50%
录制规格:16,000Hz, 16bit, mono, 无压缩wav
采集设备:Android和iOS各50%, 涵盖主流手机
采集时间:2017年
采集单位:冲浪科技
市场参考价格:100000人民币

开放人群

参加对象:高校学生、老师及非盈利科研机构研究人员

数据使用:数据仅供科研使用严禁外传,当研究成果进行公开发表时若使用到本数据库应将在文章内引用“ST-CMSD”、“冲浪科技中文普通话语音数据库”或“SurfingTech Chinese Mandarin Speech Dataset”,具体引用位置将在数据发放时一并告知。

如何申请

量子位公众号(QbitAI)界面回复“中英混说数据”,即可领取报名表单。

领取数据的具体流程如下:

1、回复“中英混说数据”,领取表单填写相关信息;

2、报名通过我们会发送确认邮件,并邀请进入语音识别技术社群;

3、申请者确认后发送协议及协议填写说明;

4、收到协议之后发送下载链接给各位申请者。

一些重要的补充说明

信息说明:要免费领取本次开源的数据,需要各单位提供以下信息:单位名称及相关信息、单位负责人联系方式等,待审核完毕及完成相关文件签署后统一发放。

数据使用:数据仅供科研使用严禁外传,当研究成果进行公开发表时若使用到本数据库应将在文章内引用“ST-CMSD”、“冲浪科技中文普通话语音数据库”或“SurfingTech Chinese Mandarin Speech Dataset”,具体引用位置将在数据发放时一并告知。

数据发放:经审核通过后,数据将通过线上发放;下载困难的申请单位可申请线下发放,但需自行承担存储设备及物流费用。

注意事项:各位申请人请尽量使用联通网络下载,而不是校园网络下载,这样下载速度最快。

备注:冲浪科技已经发现少量文本标注不准确。如果大家在使用时发现更多文本标注不准确的地方也请及时告知,冲浪科技正在对所有数据继续校对,后续会定期给大家更新标注文本。

如果始终存在数据下载困难,死活也无法下载的小伙伴,可能是折翼的天使,那么可以自费寄给我们一个硬盘,我们负责帮忙拷贝;或者提供硬盘的费用,我们帮忙京东上购买,拷贝。总之,不能让大家拿不到数据就对了。

以上,祝各位使用愉快~

介绍一下数据提供方

冲浪科技

北京冲浪科技有限公司为本次开源数据提供方,成立于2017年初,创始团队均来自国内外顶尖高校和知名人工智能公司,聘请Andreas Geiger作为首席科学家,力求在自动驾驶汽车、人脸识别、语音识别领域内开发高质量的人工智能训练数据集。

作为全球最大的人工智能资源开放平台,冲浪科技乐意分享每一个有价值的数据集,以提高全球人工智能基础能力。

量子位

量子位是国内领先的专业人工智能垂直媒体,全网用户超过50万。报道方向覆盖新闻资讯和技术发展趋势,为人工智能从业者和爱好者持续输出高质量内容,为普通大众提供看得懂的AI资讯。线上打造万人AI社群,不定期举办AI技术分享、论文解读、行业热点讨论等多项活动。

活动报名

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存