协会创新 | 数据可信流通平台数据确权计量、可信流通交易
数据作为人工智能产业的重要生产要素,是人工智能模型与应用的重要基础性资源,发挥着关键的作用与重要的价值。人工智能行业一直面临着数据采集、标注与治理成本居高不下、数据资源分析后闲置、数据持续存储费用高以及数据要素无法复用共享等问题。
值得庆祝的是,2022年1月11日,全国首笔人工智能标注数据可信流通交易完成,让数据可信流通平台成为现实,我们来具体看看此笔交易是如何完成的吧。
此笔交易中,包含98770DRs的语音指令识别数据集,以9877元人民币,由数据采集标注平台铭识协议EpiK Protocol,通过数据要素确权与可信流通平台,交易给业内知名芯片厂商深圳市中科蓝讯科技股份有限公司(简称“中科蓝讯”),中科蓝讯的芯片产品已经被传音、飞利浦、联想、铁三角、网易、爱奇艺、天猫精灵等知名品牌厂商采用,该数据集将用于该公司旗下智能耳机芯片的简单语音指令理解训练。
“简单语音指令识别数据集”主要包括由1411位用户朗读YES和NO各5遍的清晰语音数据,以及每条语音数据的标注信息,含有用户性别、地域等多维度脱敏信息。
数据采集标注平台铭识协议EpiK Protocol,独创性地研发了“AI数据标注系统”,通过领域专家与生态社区共同完成数据集的采集与标注工作。通过基于分布式存储的区块链技术的知识节点,构建了“AI数据存储系统”,实现了AI数据集的低成本、高质量和可用性,确保了数据集的安全性和可信性。
此笔交易的完成,给协会推进数据可信流通平台在天津试点应用的进程中注射了一针强心剂,协会与相关单位将持续通过完善数据可信流通平台各项功能模块,为人工智能行业标注数据的高效可信复用发挥自己的作用,持续为各行业、各领域大数据需求提供知识图谱训练所必须的数据集综合解决方案。