实证分析操作手册二:选择、创建标签进行多维度研究
在做实证分析时,往往需要获取、挖掘更多的研究点维度,本文为大家详细讲解如何通过对样本数据案例进行挖掘、标注来清洗数据,从而确保研究点的准确性。
小包公法律实证分析系统操作手册二,操作手册一可查看这里>>
本操作手册分为5部分
一、创建课题,收集数据
二、选择、创建标签进行多维度研究
三、验证数据的准确性
四、数据统计后制作成可视化图表
五、下载、编辑报告
本文主要讲解第二部分【选择、创建标签进行多维度研究】
目录
1.入口指导
2.数据清洗(上)
(一)样本数据库页面介绍
(二)使用2种标签方式确定研究维度
3.产品购买和价格说明
1
入口指导
登录www.xiaobaogong.com进入小包公官网——法律实证分析平台,完成第一步【创建课题】后,进入第二步——数据清洗。
2
数据清洗(上)
(一)样本数据库页面介绍
创建课题后,点击【第一步:数据清洗】
进入样本数据库页面👇
左栏为样本数据表格汇总,汇总数据的标注内容;中间是裁判文书的信息内容,提供高亮、展开、收藏、批量删除案件等功能;右侧为标签区域,展示我们添加的标签。
三个区域的内容相互关联:
如点击右侧标签栏,可及时同步至左侧样本汇总表,点击某一案例,在中间可展示案例详情。
(二)使用2种标签方式确定研究维度
方式一:使用预置标签方式确定研究点
(1)在数据库样本页面,点击右侧的【添加标签】,进入标签编辑界面。
(2)勾选预置标签,在编辑界面的左边,标题是【预置标签】,系统按照刑事、民事、基础信息进行分类,按照研究点维度点击勾选即可。
比如:需要研究被告人文化程度、出生日期、性别这几个,直接勾选,添加到【已选标签】栏目中。
(3)勾选完成后,选择的预置标签立即出现在右边的已选标签栏中,点击确认即可。
(4)添加完成后,系统预置标签即可添加至右侧的【标注标签】中;每个标签的名字即可同步至左侧的数据表中。
标签具体数据可在右栏查看,其中【已标注案件数】指文书中可以提取到情节的案件;【未标注案件数】指文书中不能提取到情节的案件。
方式二:使用自定义标签方式创建研究点
(1)点击【添加标签】,进入标签编辑界面,点击【新建自定义标签】
根据提示,分别设定自定义标签的【标签名称】、【标签类型】、【抽取规则】。
(2)标签名称:按照提示填写自定义的标签名称,这个标签名称与研究点维度一致。
(3)标签类型
根据需要的研究维度,选择不同的标签类型,主要有以下几类:
(4)抽取规则
系统提供三种抽取规则,满足用户可根据以下3种不同场景,选择适合自己的关键词识别规则:
设定抽取规则十分重要,本文主要针对【关键词从文书中抽取】【简单计算公式】这2个规则简单举例下该如何设定。
规则一:描述关键字从文书中抽取
(1)抽取文书中的文本类标签
a.标签类型选【一般标签】;抽取规则选【描述关键词从本文中抽取】
b.根据需要选择标注段落,包括:全文、案件基本信息、当事人信息、审理经过、案件基本情况等等;也可选全文
c.填写【包含关键词】,根据输入提示逻辑输入所需关键词:
d.点击【保存】或者【保存并运行规则】即可
(2)抽取文书中的阿拉伯数字标签
a.新建自定义标签,填入【标签名称】如重伤人数、轻伤人数、盗窃次数等简单明确的数值。
b.标签类型选【一般数值】,抽取规则选【描述关键词从文书中抽取】,标注段落按需选择,本处选择【本院认为】,包含关键词为【重伤+人】
c.点击保存并运行规则即可。
(3)抽取文书中的金额
a.新建自定义标签,填入【标签名称】如常见的盗窃金额、赔偿经济损失数额、违约金数额等简单明确的阿拉伯数值。
b.标签类型选【金额】,主要指抽取规则选【关键词从文书中抽取】,标注段落按需选择,本处选择「本院认为」,包含关键词为「盗窃+元|盗窃金额+人民币」;
c.点击保存并运行规则即可。
PS:此处输入关键词时,可按照输入提示的规则设定:
(4)抽取文书中有关毒品克数的标签
新建自定义标签,名称为【海洛因克数】,标签类型为【毒品克数】,抽取规则选择【描述关键词从文书中抽取】,标注段落选择「本院认为」,包含关键词为「海洛因+g」/「海洛因+克」/「海洛因+G」,点击保存并运行规则。
(5)抽取文书中有关刑期标签
a.新建自定义标签【缓刑刑期】,标签类型为【时长(月)】,选择规则【描述关键字从文书中抽取】,标注段落为【裁判结果】包含关键词:(缓刑\S*?(年|月))|(缓刑S*?年\S*?月)
b.点击保存并运行规则,即可完成数据标注;
所有的标签均可在数据清洗页面右侧的【已选标签】可查看
规则二:简单计算公式
(1)抽取文书中的年龄维度
a.新建自定义标签,标签类型选择【一般数值】,抽取规则选择【简单计算公式】,如需知道“被告人年龄”,根据裁判文书已有信息,可以推算被告人年龄=裁判日期-被告人出生日期。
b.先创建裁判日期与被告人出生日期两个标签。
c.新建一个标签【被告人年龄】,标签类型选择【一般数值】,抽取规则选【简单计算公式】。
d.进入公式列表,根据需求编辑公式,具体操作方式如下:
选择时间格式化(年),在根据公式【被告人年龄=裁判日期-被告人出生日期】,使用YEAR(值1)-YEAR(值1)即可,点击-号就会出现在框中。
e.选择变量,理解为具体的计算公式中的值,裁判日期、被告人出生日期,这两个就是变量。选中编辑公式里面的「值1」,依次点击对应变量中的名称,裁判日期和被告人出生日期。如下图
f.点击预览,验证结果准确性,最后记得保存规则
(2)抽取文书中关于审理时长维度
同理,先确定公式原理,如审理时长=裁判日期-开庭日期;再新建标签,选【一般数值】和【简单计算公式】,再根据以上方法设置公式即可。
最后,全部标签创建完成后,点击确认,即可在【标注标签】中查看所有的标签。
以上内容为数据清洗过程中,如何选择、创建标签进行多维度研究,并详细讲解了【抽取规则】中【关键词从文书中抽取】【简单计算公式】这2个规则的相关例子。
确定好研究维度后,需要对数据案例进行验证才算完成数据清洗步骤,得出更精准数据和结论,我们下篇再讲数据清洗(下)——如何验证数据的准确性。
3
产品购买和价格说明
(1)小包公法律实证平台分为免费版、专业版;免费版可创建2个课题,专业版收费标准如下:
(2)购买方式:登录www.xiaobaogong.com进入小包公官网——法律实证分析平台,在创建课题确定课题数据后,按照数据条数收费;
扫码体验小包公实证分析系统
电脑端登录
www.xiaobaogong.com
喜欢小包公的文章?
欢迎分享,点赞,点在看⬇⬇