查看原文
其他

doccano|为机器学习建模做数据标注

大邓 大邓和他的Python 2022-07-09

doccano

doccano是开源的数据标注工具,可以简化数据标注的难度。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。之前分享过另外一个标注工具 Label-Studio | 多媒体数据标注工具使用方法

您还可以将 doccano 与您的脚本集成,因为它将功能公开为API。doccano API是在局域网内的网址链接,多台设备可打开浏览、标注。


一、标记流程

通过以下步骤开始和完成使用 doccano 的标签项目:

  1. 安装doccano。
  2. 运行doccano。
  3. 设置标签项目。选择标签项目的类型, 配置项目设置。
  4. 导入数据集。您还可以导入带标签的数据集。
  5. 给项目添加标注人员
  6. 给标志者定义标注工作文档说明
  7. 开始标记数据。
  8. 导出标记的数据集。

二、配置环境

2.1 安装

打开命令行(cmd、terminal)执行安装命令

pip3 install doccano

2.2 运行doccano

在命令行(cmd、terminal)内依次执行

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
doccano init

#创建用户名及密码;例如现在有一个主管admin,两个标注员tom和jack
#设置好用户,之后不用再运行该命令
doccano createuser --username admin --password pass
doccano createuser --username tom --password pass
doccano createuser --username jack --password pass

#开启doccano服务
doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

doccano task

三、案例

下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。实验数据下载

https://hidadeng.github.io/blog/doccano_text_anotation/data.csv


3.1 创建项目

先登录用户名和密码,这里的admin是超级用户(权限最大)

为创建项目,如图点击Create按钮。根据需要选择合适的项目类别,这里选择的Text  Classification,

填写项目信息,例如项目名情感标注,简介、标注类型

根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注


3.2 上传数据

创建项目后,点击Dataset按钮,点击Import dataset导入数据。我这里准备的是csv文件,拥有review和label两个字段。


3.3 定义标签

点击左侧菜单中的“Labels”按钮来定义我们的标签。我们应该看到标签编辑器页面。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。

同理,可以定义负面neg标签。现在有了pos和neg两个标签。


3.4 添加成员

点击左侧目录中的 Members 按钮,

然后,选择“Add”按钮以显示表单。使用您要添加到项目中的用户名和角色填写此表单。然后,选择“Save”按钮。

如果没有可供选择的成员,记得创建成员。形如doccano createuser --username tom --password pass


3.5 开始标注

接下来,我们准备标注文本数据。只需点击导航栏中的“Start annotation”按钮,我们就可以开始对文档进行批注了。


3.6 导出数据

在注释步骤之后,我们可以下载标注后的数据。转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。选择导出格式后,单击“Export”。您应该看到以下屏幕:

到出的结果如下

import pandas as pd

df = pd.read_csv('all.csv')
df


3.7 导出数据

对了,当标注过程不同阶段,还看查看标注工作量等可视化信息


近期文章

视频专栏课 | Python网络爬虫与文本分析

Python语法入门(含视频代码)

读完本文你就了解什么是文本分析

综述:文本分析在市场营销研究中的应用

BERTopic 主题建模库 | 建议收藏

Top2Vec | 主题建模和语义搜索库

使用文本相似度可以识别变化的时间点

PNAS | 文本网络分析&文化桥梁Python代码实现

tomotopy | 速度最快的LDA主题模型

人文社科类Python免费教程列表

量化历史语言学-贝叶斯语言谱系分析

Python与文化分析入门

在会计研究中使用Python进行文本分析

文本分析方法在《管理世界》(2021.5)中的应用

SciencePlots | 科研样式绘图库

Wow~70G上市公司定期报告数据集

漂亮~pandas可以无缝衔接Bokeh  

YelpDaset: 酒店管理类数据集10+G  

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存