关键词检索核心法则: 短、少、精、准|iCourt
Alpha
海量内容法律数据库
快、准、全检索体验
申请加入 Alpha,扫描二维码联系诺诺多
作者:张津
单位:iCourt
微信:zj2007011567
编者按
中国裁判文书网的裁判文书总量已达一亿一千万份,每天增长十万份;跨年之夜,民法典及民法典有关的司法解释陆续发布,轰炸朋友圈;最高院发布类案检索指导意见后,类案检索由可选动作几乎成为必选动作。
爆发增长的法律信息为法律人提供了丰富的法律信息资源,也带来了如何在海量信息中定位关键目标信息的挑战。
受此影响,法律职业共同体将会越来越重视法律检索这个共同的必备技能。
迎接这些挑战,工程师从数据库搭建、数据解析、交互技术等方面为法律人做出了相当大的贡献,法律人需要训练的是自己的法律检索能力。
检索能力的核心在于如何提取适当的关键词,关键词是连接检索目标和检索结果的定位器。
笔者在 iCourt 线上法学院的检索课程里介绍过一些关键词的提取方法,本文会结合一些新的检索案例、进一步凝练方法,希望用更简单的方式帮助大家掌握关键词检索的基本要点、养成检索的基本好习惯、从而提升检索效率。
关键词选择上,我们需要把握两个方面:外观和内容。于外表述极简、于内描述准确。对,今天要给大家说的重要原则就是【短】【少】【精】【准】,记住四个字核心法则,就可以轻松上手关键词搜索。
话不多说,我们开始吧!
法则一:短
法则“短”就是关键词越短,检索的结果越多。因此,可以将长词句拆分缩短,这样做的目的是防遗漏,获得更全的数据结果。
检索的基础原理是:输入检索词或检索表达式之后,通过匹配算法对数据库中的内容进行匹配计算,从而取得匹配结果。
所以,在检索的时候,我们输入的关键词的长短,将决定匹配检索结果范围的大小。关键词越长则检索命中范围会越小,关键词越短则检索的命中范围会越宽。
比如:检索行政复议送达
如果我们直接输入这 6 个字,数据库就会根据这 6 个字的关键词去匹配,如同用 6 个字整体在数据库里“比照筛选”,最终推荐包含这 6 个字关键词的检索结果。
如果在两个词中间增加空格,输入【行政复议 送达】,则结果既包括连在一起的“行政复议送达”,也能够匹配送达行政复议 、送达补正行政复议、送达“XXX”行政复议、行政复议法律文书送达等内容。
注意,不是让大家一味地将词语拆短,比如这里的“行政复议”不要拆成“行政 复议”,我们要以具有独立完整法律意义的词语为最小单元,不要一味求结果多,这样才可以保证检索精准。
附结果对比图⬇️
法则二:少
法则“少”就是去除多余字,越少命中越多。因此,尽量去掉冗余表述、只留下必要词语,这样做可以获得更全、更准确的数据结果。
产生冗余表述常常发生在以下情形,一是自己凭描述习惯直接输入多个词语;二是直接从微信对话、往来邮件等直接成句/成段复制进行检索。很多时候这会导致搜不到内容或者查找内容并不全面。
我们需要对内容稍加整理,就可以有不错的检索效果。
这与输入短词的原理是一样的,每个输入的关键字/词,既是检索到目标案件的线索,也会成为检索的限制条件,所以不必要的表述将会在一定程度上限制检索的范围,从而让你的检索结果不全面。
所以,复制的文本,如果带有“的”“但”“其”等副词、连词、代词以及一些修饰词都可以考虑去除,主要留下核心的动词、名词等进行检索就可以。只选择表述这件事情必须要用到的词,作为要不要留下这个字/词的标准。
举例:检索法院最后判决准予双方离婚的案件。我们直接输入“准予双方离婚”,就不如我们去掉非核心的“双方“,只保留核心的”“准予离婚”;然后按照上文的【短】字法则、拆分为“准予 离婚”。
如果我们更追求极致一些,追求更全面的结果,在这个例子中还可以用“更少的表述”。
上文的判决准予离婚,其实裁判文书中还会有“准许 离婚”“准允”“准 离婚”这样的表述。最精炼的就是用“准 离婚”进行检索,并排除“不准”,这样可以有更全面的检索结果。
附结果对比图⬇️
Alpha 一直在持续优化检索、提高搜索的便捷性和准确性。目前数据库可以支持模糊检索,如您输入“民诉法”“合同法解释”,系统会自动推荐民事诉讼法和合同法的系列解释;在没有命中的时候,也可以帮助您进行自动模糊匹配。
但模糊检索需综合考虑检索的相关性和准确性,扩大检索相关性会增加检索范围,但会降低检索匹配的准确性,所以 Alpha 经过权衡,设计了有限的模糊检索,在保证精准的前提下让大家尽量便利地搜到需要的内容。
上述两点都是我们从外观特点来讲的,“短”和“少”都是为了让大家检索得到、检索得全。
当然,这个原则也不是需要每次都要执行,必要时还应当反其道而行之,以“多”胜“少”。在什么情况下来用呢?一般是在检索结果过多或者过杂、找不到精准内容的情况下,这时候你可以将表述了核心含义的“全面描述检索目标的字词”的精确表述拿来检索,最大程度地对检索结果进行限制。
举例如图:这里就是搜索 LPR 的内容实在太多且检索到的案例太杂,所以采取了复制官方原文表述的整句话进行搜索的案例,可以很精准的定位到内容。
法则三:精
法则“精”就是辨析关键点,抓住核心。概括关键词,是关键词确定中最有难度的一个点。
要尽量围绕核心案情、核心争议焦点、核心法律关系,案件涉及的主体、行为、原因、结果以及具体证据,都有可能是我们展开检索的线索,进而成为关键词的来源。
从生活事实中概括法律问题,并进一步提取关键词,需要专业的判断能力和一定的经验才可以做到,很难一下子就“经验老到”。
那在经验不足的情况下,有什么办法,可以尽快地去定位某个已知事实背后的法律问题及法律关键词呢?
笔者曾接到一个关于”国际性招标”的法律检索咨询,但笔者没有这方面的案件经验,这里笔者就需要用到微信检索。微信公众号中有大量律师、法官等写的公众号文章,这里面的文章既会分析事实问题,也会有法律分析,这样我就可以通过描述事实的关键词找到他们在法律上的描述,得到他们在描述这个问题的法律关键词。
一开始采用的关键词,记得是“国际竞争性招标 投标 废标”,很遗憾没有结果;我马上敏锐地觉得要从分析“废标的可能情形”入手,马上转换关键词“废标 原因”并且很快就找到一篇文章,这里面就有提到“不足三家”,这里很快认识到“不足三家”应该是一个规范性的表述。
接下来到法规库搜索“投标 不足三家”马上找到了这个规范文件,《政府采购法》第 36 条有这样的规范要求。
微信检索十分方便,手机的入口就在微信-发现-搜一搜;Alpha 的用户可以直接在电脑端的工具-大数据-更多中进行检索。⬇️
法则四:准
法则“准”就是用准表述语,杜绝错别字。
需要注意的是,我们选择的关键词的语言风格要和我们检索目标的语言表述风格相一致。
首先,要与该内容的官方表述一致。
我们检索法规的时候,因为法规具有规范形形色色的个体的社会行为的作用,所以法律表述,是比较严肃、正式、规范,且有一定的抽象性、概括性的。我们使用的检索词要注意,让我们的关键词会是法规在表述这个问题时会用到的词语。
比如,我们口头上讲的“私立学校”,在法律上的标准表述是“民间教育”“民间办学”。
且法规一般倾向用全称来表述某一个概念。比如更倾向于用“社会保险”,而不是“社保”来表述概念,因为简称可能还会指代其他,如“社会保障”。
不要害怕用全称输入麻烦,比如最高人民法院关于限制被执行人高消费的若干规定,输入“限制 高消费”执行法规标题搜索就可以。
其次,就同一个问题检索法规和案例,有时候要用不一样的关键词。
比如,分别使用养狗/养犬,去法规库和案例库进行检索。
你会发现,在法规库中检索“养犬”比检索“养狗”,更能够找到规范养狗这件事情的规范性文件;而在案例库中检索“养狗”比检索“养犬”,更能够找到因为养狗引起法律纠纷。
因为案例的案情概述里有很有个性的生活词汇表达,而这样的个性表达是检索很重要的线索。但是法规基本上都是权威正式的规范书面表述,非常法言法语。
尽管在【法规库】和【案例库】都是在进行法律检索,选择关键词的基本原则也相通,但哪怕检索的是同一个问题,在具体选择关键词上,我们要根据我们检索文本的特征进行一些调整。
最后,不要输入错别字。
比如:第一,对于形近字要留意,“证券”不要写成“证劵”“证卷”,对于尤其是 pdf 转化而来的文本,很容易有这样的转化错误;;第二:区分近义表述,比如“工伤”与“公伤”,“侦查”“侦察”,“缴纳”“交纳”等等。
结语
上述就是【短】【少】【精】【准】的四字法则,如果之前总是觉得检索不顺手,马上心里默念这四个字,去打开数据库检索一下,看看是不是更加通畅一些啦~
经过上述的一番推敲,你也许能够选出一个合适的关键词了。但在一次成功的检索中,你还需要用最合适的检索方式且并到最合适的位置去搜索,下一篇笔者将带领大家一起了解更多检索的内容。
Alpha 大数据上周升级了关键词【命中词频】功能,关键词的命中情况,一目了然、方便查看,快来 Alpha 体验一下吧~
申请加入 Alpha
扫描二维码
联系诺诺多
责任编辑:天宇 | 执行编辑:aoao
法秀为法律人带来专业、温暖、有价值的阅读
投稿或与主编君交流请添加微信号:iCourty