查看原文
其他

实证分析操作手册二:选择、创建标签进行多维度研究

小包公 小包公 2022-10-02
/


在做实证分析时,往往需要获取、挖掘更多的研究点维度,本文为大家详细讲解如何通过对样本数据案例进行挖掘、标注来清洗数据,从而确保研究点的准确性。


小包公法律实证分析系统操作手册二,操作手册一可查看这里>>


本操作手册分为5部分

一、创建课题,收集数据

二、选择、创建标签进行多维度研究

三、验证数据的准确性

四、数据统计后制作成可视化图表

五、下载、编辑报告


本文主要讲解第二部分【选择、创建标签进行多维度研究


目录

1.入口指导

2.数据清洗(上)

 (一)样本数据库页面介绍

 (二)使用2种标签方式确定研究维度

3.产品购买和价格说明


1

入口指导


登录www.xiaobaogong.com进入小包公官网——法律实证分析平台,完成第一步【创建课题】后,进入第二步——数据清洗


2

数据清洗(上)

(一)样本数据库页面介绍


创建课题后,点击【第一步:数据清洗】


进入样本数据库页面👇

左栏为样本数据表格汇总,汇总数据的标注内容;中间是裁判文书的信息内容,提供高亮、展开、收藏、批量删除案件等功能;右侧为标签区域,展示我们添加的标签。


三个区域的内容相互关联:

如点击右侧标签栏,可及时同步至左侧样本汇总表,点击某一案例,在中间可展示案例详情


二)使用2种标签方式确定研究维度


方式一:使用预置标签方式确定研究点


(1)在数据库样本页面,点击右侧的【添加标签】,进入标签编辑界面。


(2)勾选预置标签,在编辑界面的左边,标题是【预置标签】,系统按照刑事、民事、基础信息进行分类,按照研究点维度点击勾选即可。

比如:需要研究被告人文化程度、出生日期、性别这几个,直接勾选,添加到【已选标签】栏目中


(3)勾选完成后,选择的预置标签立即出现在右边的已选标签栏中,点击确认即可。


(4)添加完成后,系统预置标签即可添加至右侧的【标注标签】中;每个标签的名字即可同步至左侧的数据表中。



标签具体数据可在右栏查看,其中【已标注案件数】指文书中可以提取到情节的案件;【未标注案件数】指文书中不能提取到情节的案件。


方式二:使用自定义标签方式创建研究点


(1)点击【添加标签】,进入标签编辑界面,点击【新建自定义标签】


根据提示,分别设定自定义标签的【标签名称】、【标签类型】、【抽取规则】。


(2)标签名称:按照提示填写自定义的标签名称,这个标签名称与研究点维度一致。


(3)标签类型

根据需要的研究维度,选择不同的标签类型,主要有以下几类:


(4)抽取规则

系统提供三种抽取规则,满足用户可根据以下3种不同场景,选择适合自己的关键词识别规则:


设定抽取规则十分重要,本文主要针对【关键词从文书中抽取】【简单计算公式】这2个规则简单举例下该如何设定。


规则一:描述关键字从文书中抽取


(1)抽取文书中的文本类标签


a.标签类型选【一般标签】;抽取规则选【描述关键词从本文中抽取】


b.根据需要选择标注段落,包括:全文、案件基本信息、当事人信息、审理经过、案件基本情况等等;也可选全文


c.填写【包含关键词】,根据输入提示逻辑输入所需关键词:


d.点击【保存】或者【保存并运行规则】即可


(2)抽取文书中的阿拉伯数字标签


a.新建自定义标签,填入【标签名称】如重伤人数、轻伤人数、盗窃次数等简单明确的数值。

b.标签类型选【一般数值】,抽取规则选【描述关键词从文书中抽取】,标注段落按需选择,本处选择【本院认为】,包含关键词为【重伤+人】


c.点击保存并运行规则即可。


(3)抽取文书中的金额


a.新建自定义标签,填入【标签名称】如常见的盗窃金额、赔偿经济损失数额、违约金数额等简单明确的阿拉伯数值。



b.标签类型选【金额】,主要指抽取规则选【关键词从文书中抽取】,标注段落按需选择,本处选择「本院认为」,包含关键词为「盗窃+元|盗窃金额+人民币」;


c.点击保存并运行规则即可。


PS:此处输入关键词时,可按照输入提示的规则设定:


(4)抽取文书中有关毒品克数的标签


新建自定义标签,名称为【海洛因克数】,标签类型为【毒品克数】,抽取规则选择【描述关键词从文书中抽取】,标注段落选择「本院认为」,包含关键词为「海洛因+g」/「海洛因+克」/「海洛因+G」,点击保存并运行规则。


(5)抽取文书中有关刑期标签


a.新建自定义标签【缓刑刑期】,标签类型为【时长(月)】,选择规则【描述关键字从文书中抽取】,标注段落为【裁判结果】包含关键词:(缓刑\S*?(年|月))|(缓刑S*?年\S*?月)


b.点击保存并运行规则,即可完成数据标注;


所有的标签均可在数据清洗页面右侧的【已选标签】可查看



规则二:简单计算公式


(1)抽取文书中的年龄维度


a.新建自定义标签,标签类型选择【一般数值】,抽取规则选择【简单计算公式】,如需知道“被告人年龄”,根据裁判文书已有信息,可以推算被告人年龄=裁判日期-被告人出生日期


b.先创建裁判日期与被告人出生日期两个标签。

c.新建一个标签【被告人年龄】,标签类型选择【一般数值】,抽取规则选【简单计算公式】。


d.进入公式列表,根据需求编辑公式,具体操作方式如下:


选择时间格式化(年),在根据公式【被告人年龄=裁判日期-被告人出生日期】,使用YEAR(值1)-YEAR(值1)即可,点击-号就会出现在框中。


e.选择变量,理解为具体的计算公式中的值,裁判日期、被告人出生日期,这两个就是变量。选中编辑公式里面的「值1」,依次点击对应变量中的名称,裁判日期和被告人出生日期。如下图

f.点击预览,验证结果准确性,最后记得保存规则


(2)抽取文书中关于审理时长维度


同理,先确定公式原理,如审理时长=裁判日期-开庭日期;再新建标签,选【一般数值】和【简单计算公式】,再根据以上方法设置公式即可。


最后,全部标签创建完成后,点击确认,即可在【标注标签】中查看所有的标签。


以上内容为数据清洗过程中,如何选择、创建标签进行多维度研究,并详细讲解了【抽取规则】中【关键词从文书中抽取】【简单计算公式】这2个规则的相关例子。


确定好研究维度后,需要对数据案例进行验证才算完成数据清洗步骤,得出更精准数据和结论,我们下篇再讲数据清洗(下)——如何验证数据的准确性。


3

产品购买和价格说明


(1)小包公法律实证平台分为免费版、专业版;免费版可创建2个课题,专业版收费标准如下:



(2)购买方式:登录www.xiaobaogong.com进入小包公官网——法律实证分析平台,在创建课题确定课题数据后,按照数据条数收费;


扫码体验小包公实证分析系统


电脑端登录

www.xiaobaogong.com

实证分析操作手册一:如何创建课题,收集数据?
著作权侵权纠纷案实证研究,以607份判决书为样本
单位行贿罪实证研究报告,基于3414个案例
新鲜出炉|法律援助案实证研究报告,基于48万案例


喜欢小包公的文章?

欢迎分享,点赞,点在看⬇⬇

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存