doccano|为机器学习建模做数据标注
doccano
doccano是开源的数据标注工具,可以简化数据标注的难度。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。之前分享过另外一个标注工具 Label-Studio | 多媒体数据标注工具使用方法
您还可以将 doccano 与您的脚本集成,因为它将功能公开为API。doccano API是在局域网内的网址链接,多台设备可打开浏览、标注。
一、标记流程
通过以下步骤开始和完成使用 doccano 的标签项目:
安装doccano。 运行doccano。 设置标签项目。选择标签项目的类型, 配置项目设置。 导入数据集。您还可以导入带标签的数据集。 给项目添加标注人员 给标志者定义标注工作文档说明 开始标记数据。 导出标记的数据集。
二、配置环境
2.1 安装
打开命令行(cmd、terminal)执行安装命令
pip3 install doccano
2.2 运行doccano
在命令行(cmd、terminal)内依次执行
#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
doccano init
#创建用户名及密码;例如现在有一个主管admin,两个标注员tom和jack
#设置好用户,之后不用再运行该命令
doccano createuser --username admin --password pass
doccano createuser --username tom --password pass
doccano createuser --username jack --password pass
#开启doccano服务
doccano webserver
完成上述操作后,另打开一个新的命令行,执行下列命令
doccano task
三、案例
下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。实验数据下载
https://hidadeng.github.io/blog/doccano_text_anotation/data.csv
3.1 创建项目
先登录用户名和密码,这里的admin是超级用户(权限最大)
为创建项目,如图点击Create按钮。根据需要选择合适的项目类别,这里选择的Text Classification,
填写项目信息,例如项目名情感标注,简介、标注类型
根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注
3.2 上传数据
创建项目后,点击Dataset按钮,点击Import dataset导入数据。我这里准备的是csv文件,拥有review和label两个字段。
3.3 定义标签
点击左侧菜单中的“Labels”按钮来定义我们的标签。我们应该看到标签编辑器页面。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。
同理,可以定义负面neg标签。现在有了pos和neg两个标签。
3.4 添加成员
点击左侧目录中的 Members
按钮,
然后,选择“Add”按钮以显示表单。使用您要添加到项目中的用户名和角色填写此表单。然后,选择“Save”按钮。
如果没有可供选择的成员,记得创建成员。形如doccano createuser --username tom --password pass
3.5 开始标注
接下来,我们准备标注文本数据。只需点击导航栏中的“Start annotation”按钮,我们就可以开始对文档进行批注了。
3.6 导出数据
在注释步骤之后,我们可以下载标注后的数据。转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。选择导出格式后,单击“Export”。您应该看到以下屏幕:
到出的结果如下
import pandas as pd
df = pd.read_csv('all.csv')
df
3.7 导出数据
对了,当标注过程不同阶段,还看查看标注工作量等可视化信息