智慧检务说丨第⑤ 期:将数据颗粒度细化,进行关联融合,推进人工智能向纵深发展
本期分享湖南省人民检察院肖飞参加《高检院大数据、人工智能培训班》的学习和交流后,对智慧检务的思考。
跟随小编分别来看下这位小伙伴的见解吧~
2017年7月28日至8月1日,我有幸参加了高检院在山东济南举办的大数据与人工智能培训班。在这个培训班上,我们听到了高检院信息中心赵志刚主任、刘品新副主任及贵州、山东、上海等地的信息化专家授课,感觉受益匪浅,对于检察机关大数据和人工智能的发展方向有了整体上的认识,并对这些项目如何落地获得了第一手的资料,对于检察机关进一步做好以大数据、人工智能等新技术支撑检察业务工作,建设智慧检察坚定了信心。
完成了这次学习,我的心得体会主要有以下几个方面:
当前检察机关建设大数据
与人工智能存在的一些问题
我个人认为,检察机关目前进行大数据与人工智能的建设,存在以下一些问题:
涉密网仍然存在阻碍。
涉密网的物理隔离特性给检察机关的大数据中心建设还是造成了一定的阻碍。一方面,主要的业务系统都是在涉密网中运行,干警操作的主要方式也都是在涉密网中,我们的大数据中心也理所当然应当建设在涉密网中,但是这就使得外单位的数据与我们的大数据中心进行数据交换变得困难,只能采用单向导入的方式;另一方面,如果将大数据中心建设在非涉密网里面,从高密级向低密级进行数据转移只能靠手工,电子卷宗等大数据量的导出几乎变得不可能,视频和音频码流的实时交换也不可行。
2
应用系统建设过于注重以流程为核心,而非以数据为核心。
我认为,信息化建设的核心在于数据。应用系统实际上只是数据的外壳和包装,每个单位最宝贵的信息化财富应该是数据。应用系统不好用,流程有问题,或者流程不断变动,就算把整个应用重新开发,也不过是几个月时间就能实现。但是如果数据不规范、或者数据残缺不全,又或者数据本身不能被很方便的利用起来,那才真是“坐在金矿上面讨米”,付出大量的人力物力成本,却吃力不讨好,数据没有很好的规范性和延续性,影响的就是数年乃至数十年。
上海的陈曼卿老师讲课的时候举了一个例子,在统一业务软件中侦监条线查不到同一个嫌疑人在公诉环节的信息,公诉也看不到之前侦监环节的信息,这就是由于我们现在的应用系统建设过于强调以流程为中心,一个流程走完了案件就归档了,数据实际上没有真正得倒有效的利用。她还提到一个例子,在第三方公司紫光华宇基于统一软件开发的检立方系统上,对某个办案数据进行统计,最后的结果始终无法做到准确。其原因是紫光华宇公司是按照自己的理解直接对统一软件数据库中的数据进行的统计,而没有标准化的数据规则和数据接口可以调用。
再以统一软件的执行检察子系统为例,我省星城区院给我们反馈,他们有时一天从监狱一次性收到几百个减刑案件,这些案件不能按照标准化转换直接插入到统一软件的数据库中,他们只能在统一软件中进行手工录入,而且按照现有统一软件中的流程每个案件都必须通过三四个环节的审批,极大的增加了他们的工作量,导致他们有些工作甚至没办法按时完成,最后的做法是手工做完之后再慢慢在系统中补录。这些问题出现的原因都是过于强调应用系统流程,而没有实现数据本身的标准性和开放性。
另外,对于数据规范性的不重视同样导致了案件录入过程中有不少数据缺失,很多地方的干警尽快将流程走下去,为了省事就马虎了事的录入案件,这些数据缺失虽然并不影响案件流程的流转,但是在后期做大数据分析的时候带来的后果很有可能是灾难性的。
3
大数据和人工智能建设停留在概念层面上还比较多,落地或者实际取得的应用效果还不明显。
目前检察机关在大数据和人工智能的探索主要集中在两个方面,一是智能语音识别,二是以办案数据为基础的统一证据标准和办案辅助。前者在方言盛行的省份,应用价值还不太大,我们认为智慧语音识别目前仍然只是工具类的应用,只有在人工智能的语义识别技术发展到一定基础上时,才能够真正体现出其价值,否则如果仅仅是做语音的自动录入,实际上并不能体现出它在检察办公办案中不可或缺的价值;而后者在贵州和上海的实践中虽然已经获得了一些成果,但是帮助办案的效果仍不明显,究其原因,我们认为是因为检察机关的大数据建设还很不健全,法院的裁判文书数据和公安的办案数据尚未汇总,甚至全国检察机关的办案数据共享都还没能实现,因此能够提供给机器进行学习的样例仍然太少。
2
对于检察机关发展大数据
与人工智能的一些个人建议
针对以上提出的问题,我的个人建议是:
实现与外部数据的共享联动。
实现大数据的前提就是互联与共享。检察机关原来受限于自侦权限案件的高度保密性,将主要的工作网络定为涉密网,大量的非涉密数据都在涉密网中流转和保存,使得数据的互联互通先天性就存在阻碍。事实上,检察机关的办案数据中,仅自侦案件中的少量线索和初查数据可能涉密,普通刑事案件及自侦案件进入立案司法程序以后,便不再涉密,反而依照国家有关法律,应当公开。高检院曹建明检察长在检察机关案件公开系统建设中提出“以公开为原则,以不公开为例外”,很明确的为检察机关案件的信息公开提出了指导原则。既然连案件信息都应当公开,检察机关的检务保障、检察办公、队伍管理等数据,就更不应当定义为涉密信息了。
因此我建议,建立按照等保三级保护要求的检察机关非涉密工作内网,做大做强这张网络,在这张网络上建立检察机关的云平台与大数据中心,将除前面提到的涉密信息以外的电子检务工程中所有的六大平台的基本业务数据和基础应用系统均部署在这张网络上。通过网闸、防火墙、安全接入平台等网络安全设备保证数据的安全,通过共享交换平台实现检察机关内部核心业务与外部数据之间的数据交换。只有真正实现了与外单位的数据互通,才能有可能实现与公安、法院、司法交换数据,也才有可能真正推动侦查监督、两法监督和民行监督等业务向深入发展。
2
实现内部信息化建设从“以系统和流程为核心”真正实现向“以数据为中心的转变”。
前一个阶段,全国检察机关过于强调以系统和流程为核心,全国统一版本的系统和流程虽然在推进检察机关信息化跨越式发展,尤其是帮助资金不充裕地区的信息化发展方面起到了重要的作用,但是也带来了一些问题,如应用程序优化更新不及时、不能应对个性化的需求和接口、制约了各地检察机关百花齐放推进信息化的积极性导致很多地方等靠要的思想严重等。我们认为,检察机关信息化应当实现向数据为中心的转变,应用系统只是数据的表现形式和包装,本身就存在一定的不稳定性,应用系统更新越快越及时,就越能应对司法改革的需求和检察干警的实际需求;而数据本身是具有一定的稳定性的。
因此我们建议,高检院应以现有的几个主流业务系统作为依据,更进一步推动检察机关数据的标准化和范例化,例如,统一业务软件中的数据可以尝试进行颗粒化并进行实例的发布,一个嫌疑人的基本属性包括那些要素,案件在进入检察机关案卡时必须填写哪些要素,案件在流转到公诉环节时又添加了哪些要素等等,而给统一软件进行开发的赛威讯公司可以考虑转型为给检察机关进行数据梳理的公司,提供出统一软件中所有能够通过接口进行提取和插入的元数据及在其基础之上的要素数据。
有了这样的基础之后,针对应用系统本身,各个地方就可以根据本地的实际需求直接调用数据,或者按照元数据和要素数据的规范进行数据的插入,周边系统开发和创新难度大大降低,将能够推进各地百花齐放,给信息化应用更大的自主创新的机会。与之类似的队伍管理、检务保障等平台也应当采用这样的推广方式,这样这些开发公司既可以发挥先入和熟悉业务的优势,更好的帮助检察机关将标准化数据梳理清楚,又避免了指定的系统绑住了全国的手脚,同时解决了很多地方投入大量成本创新性开发之后又被统一的局面。在统一的开放化的数据的基础之上,每个地方好的算法、好的流程可以共享,可以推广,全面发挥业务人员和管理人员的智慧和能动性,唯有如此才能真正实现创新的可持续发展。
在对于数据的梳理上,我们应当不仅仅局限于检察机关自己的数据规范和梳理,同时也应当注重于对整个司法环节的所有数据的规范和梳理,建立我们自己的“检标”。在昨天的座谈会上有不少省份提出,他们向公安、法院要数据的时候,竟然不知道要哪些数据,要什么样的格式。在梳理出检察数据标准之后,我们就可以向其他司法机关提出数据的具体需求,并且在获取到数据之后,转化为符合检察数据标准的、真正能够为我所用的数据。这个过程也应该是自上而下,不断完善,数据的获取渠道应当是从高检院到省、市三级,因为很多司法机关的数据并未汇总到最高一级,有很多司法机关在市级都建立有自己的数据中心,这就需要市级检察机关也要进行数据的对接、清洗、汇聚。
在以上基础之上,检察机关对于信息化的考核也应当从要求系统上线和应用,慢慢转化为要求省、市不断积累本单位和外单位的数据,并对数据进行规范化抽查,推动每个单位都成为数据的生产者,让各地更重视数据规范和数据录入工作,重视历史档案数据、办案数据、政策法规的电子化和规范化,将数据中心建设成为经得起时间检验的核心资源,这样才能真正实现检察机关大数据中心的不断完善,使之能够支撑未来检察机关的大数据和人工智能发展。
3
在有了以上两步的基础之后,就可以真正建立起检察机关的大数据中心。
大数据中心应当按照高检院、省院两级来进行建设,在有需要的地方还可以建设市级的数据中心,从各个层面多渠道收集外单位数据和整合本单位数据,将数据颗粒度细化,进行关联融合,以大数据为基础,推进检察机关人工智能向纵深发展。