最高法院回应裁判文书网卡、慢、无响应:九月初进行大的升级
最高人民法院
关于裁判文书网无法正常使用的问题的回复意见
邬恒辉先生/女士:
您好!
《关于裁判文书网无法正常使用的问题》来信收悉,感谢您对人民法院司法公开工作的关注和宝贵建议,我们专门对您信中反映内容进行了分析,现就相关问题回复如下:
问题一:我在每天不同时段,周末、周日均测试了该网站,均出现卡、慢,该情况自新网站建立至今已存在,并没有改善。你院虽然有回复改进,但一直没有进行。我认为贵院以信息量大,浏览人多的原因不能说明问题,淘宝等网站应该比这个流量大吧,一点都不卡。不要让该网站作为形式摆设。
回复:中国裁判文书网区别于一般商业网站,目前文书总量超过7400万,日均访问量4000多万次,峰值访问量达8000万次,已经远超网站日均访问量2000万次、文书容量3000万的设计指标。通过我们持续对网站底层数据的监测,确实发现不同时段有些页面打开的响应时间较长或是无法响应的情况。为此,我们正在积极进行网站整体结构优化,升级扩展硬件配置资源,拟在九月初进行一次大的升级,相信网站升级完成后性能会得到明显改善。
问题二:该网站应该按照最高法院案由的规定确定分类,而不是以现在的利息、违约金等分类。
回复:中国裁判文书网的检索功能支持按照最高人民法院发布的《人民法院信息化建设技术规范》案由标准进行分类展示,您可以通过网站左侧案由列表进行选择查看;而您提及的“利息”、“违约金”等分类,是针对文书正文当中包含的部分关键词进行提取后而做的分类展示,旨在方便社会公众用户使用。
问题三:该网站裁判文书应该象原网站一样,按照每个法院最新上传的法律文书及时进行显示,目前的网站显示的为以前的案件,不便于查询和了解最新判决动态。
回复:中国裁判文书网的检索功能支持按照对应法院进行文书的分类展示,同时针对检索结果支持按照裁判日期的正序、逆序排序展示,用户可以根据实际需要选择展示最新上传文书还是历史文书。
再次感谢您的宝贵建议,也期望在后续工作中得到您一如既往的支持。我们将广泛吸收各位网友的建议,做好中国裁判文书网的建设和运营工作,不断提升网站运行效率和使用体验。
最高人民法院信息中心
2019年8月19日
阅读链接
最高人民法院
关于“中国裁判文书网”网站建设建议的答复
糖糖:
您好!
《关于“中国裁判文书网”网站建设的建议》来信收悉,感谢您对人民法院司法公开工作的关注和宝贵建议,我们专门对您信中反映内容进行了分析,现就相关问题回复如下:
问题一:网站运行速度慢,故障频繁,经常出现页面无法显示的问题,经多次刷新后才能显示,并且持续不了几分钟,反复出现无法显示的问题。建议对网站加强维护,提高网站运行效率。
答复:由于中国裁判文书网公开文书数量和影响力不断增加,访问用户数不断增长。同时,5月初以来,大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。为更好地确保正常用户访问性能,2018年7月,我们以验证码的方式上线系统软件防爬功能。由于网站访问策略变更,且调整优化未一步到位,确实降低了正常用户的访问体验。通过后台监测,八月中旬以来,中国裁判文书网访问速度基本正常,95%的首页响应速度基本保持在3秒以内,网站性能已恢复稳定。后续,我们将不定期更新防爬虫技术,加强网站维护,提高网站运行效率和稳定性。
问题二:登陆该网站经常出现“您的访问频次超出正常访问范围,为保障网站稳定运行,请输入验证码后继续查看”的提示,输入验证码后,每次都出现“验证码错误”的提示,无法正常浏览网页。针对这一问题,即使刚刚打开电脑,点击该网站也会提示访问频次超出正常访问范围,让人很难理解,同时对设置访问频次提出质疑,既然是信息公开为什么要设置访问频次的限制;第二为什么输入验证码后,每次都会出现“验证码错误”的提示,仍然无法浏览网页。这一问题严重影响查询效率,希望取消访问频次的设置,及时消除网页故障,方便群众查询。
答复:验证码技术是防爬虫的一种有效措施,当浏览量在某段时间内达到一定数量后,将启用验证码机制进行核验。前期,因该验证码校验程序刚上线时不稳定,造成验证不通过偶有发生,此问题目前已解决。同时,由于互联网上出口IP共用现象较为突出,造成实际正常访问被错误识别为爬虫的“误防”现象时有发生。根据您所反馈的问题,目前我们已通过压缩单位时间长度、提高单位时间容量大幅提升用户并发量,减少“误防干扰”。
问题三:在查询相关信息的时候,没有以“公开时间”为检索条件的设置,造成查询不便。希望增设以“公开时间”为检索条件的设置,提高检索的查询效率。
答复:在中国裁判文书网的高级检索中,可以根据“裁判日期”进行检索。目前暂没有设置“公开时间”的检索条件,主要原因是爬虫系统会根据“公开时间”项进行增量文书爬取,待下一步防爬虫系统稳定、可靠运行一段时间后,我们将适时考虑增加“公开时间”检索项。
问题四:在浏览网页的时候,是可以选择每页显示信息数量的,分为“5,10,15,20”的选择项,但是大多数的时候选择大于5的选项后每页依然显示5条信息。并且在每页显示5条信息的情况下,当点击超过6-7页以后,相关信息开始不再更新,反复显示以前的信息。希望这一问题可以尽快解决,方便查询。
答复:由于前期爬虫行为过于猖獗,无限制暴力访问大幅降低正常用户访问性能,我们采取了通过限制列表页面翻页数量来防止爬虫系统的措施,用户如需浏览更多内容,可以通过设置组合检索条件,以提高检索精准度而获取相关文书内容。
问题五:该网站没有设置可选择页数的选项,比如我想浏览第10页的信息,只能从第1页开始逐页点击,直到第10页。建议设置这一选项,可以方便查找信息。
答复:目前已根据单次搜索显示容量优化完善了页面列表,每页显示20条记录,可以直接选择前20页中任意一页。
再次感谢您的宝贵建议,也期望在后续工作中得到您一如继往的支持。我们将广泛吸收各位网友的建议,做好中国裁判文书网的建设和运营工作,不断提升网站运行效率和使用体验。
最高人民法院
2019年2月19日
裁判文书网慢卡——“网络爬虫”在售卖数据获利
摘录自:北京青年报,原标题《裁判文书网数据竟被商家标价售卖》
内容摘要:北京青年报从某网购商城看到,最高人民法院裁判文书网的数据被标价0.1元到1元不等出售。不少声称能够出售裁判文书网数据的商家在商品文字描述中称,其数据是通过“网络爬虫”的方式获取的。
北京青年报8月2日消息,1日,北京青年报从某网购商城看到,最高人民法院裁判文书网的数据被标价0.1元到1元不等出售。裁判文书网发布的判决书都是公开的,为什么会被售卖?获取裁判文书网数据的手段对于网站是否有危害呢?
网售数据,价格需“私聊”获取
北青报记者在某网络商城中看到,有标注来自湖南、广东、山东等多地的商家均声称出售裁判文书网的数据,其中不少商家声称其数据量超6000万条。而据裁判文书网公开数据显示,目前裁判文书网上公开的文书总量为7395万多篇,如果商家所称的数量属实,则商家能够提供绝大多数已经公开的文书数据。
不少声称能够出售裁判文书网数据的商家在商品文字描述中称,其数据是通过“网络爬虫”的方式获取的。所谓“网络爬虫”,又称网页蜘蛛、网页机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。相当于一个自动访问网页并进行相关操作的小机器人。
北青报记者注意到,尽管每名商家均在商品页面标示称,其数据售价为0.1元至1元,但每名商家均在文字描述中表示,数据的售价并不以标示为准,而是需要“私聊”获取。
一名售卖裁判文书数据的商家说,购买裁判文书数据的买家所需要的数据量从几千篇到几千万篇不等,有的买家是因为无法打开裁判文书网而不得不来求助于数据卖家,“还有很多学生买数据用于论文写作,这种情况几千条就够了,商用的话可能需要几百万条甚至上千万条。”商家还称,每个月他们能接到四五个文书数据采集的订单,而价格和买家需要的数据量有关,“几百万条数据大概要几千块钱,现在加密技术很严格,所以要贵一些。”
“爬虫”系统,曾致正常用户无法访问
北青报记者了解到,部分技术机构通过网络爬虫系统获取裁判文书网数据的行为,已经给裁判文书网正常用户的访问带来了不便。不少网友曾在网上发帖称,自己搜索裁判文书时,常常遭遇裁判文书网网站显示因为系统原因,无法查询的情况。
对此,最高人民法院在其官网回应网友对于裁判文书网运行慢、故障频繁等情况时表示,由于中国裁判文书网公开文书数量和影响力不断增加,访问用户数不断增长。同时,2018年5月初以来,大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。
今年5月,最高人民法院信息中心主任许建峰在接受媒体采访时表示:“中国裁判文书网目前每天的访问量可以达到几千万的量级,其中还包括数据爬虫的攻击,我们的中心服务器承受着巨大压力。”
“我们每时每刻都在监控着它的应用情况,希望遇到问题立即采取措施,但是的确还不能完全跟得上步子,所以会出现停网维护运营的情况。”许建峰说,最高法已成立了专门的运维保障团队去维护管理中国裁判文书网,也将在技术与人力上投入更多的力量。
相关机构,已采用多种方式“反爬”
北青报记者获悉,此前,相关方面已采取多种方式,对抗“爬虫技术”。最高人民法院曾发文称,为更好地确保正常用户访问性能,相关方面以验证码的方式上线系统软件防爬功能。“验证码技术是防爬虫的一种有效措施,当浏览量在某段时间内达到一定数量后,将启用验证码机制进行核验。后续,我们将不定期更新防爬虫技术,加强网站维护,提高网站运行效率和稳定性。”
此外,针对网友提问,为何不能按照“公开时间”为检索条件进行裁判文书检索时,最高人民法院方面表示,暂没有设置“公开时间”为检索条件的主要原因是爬虫系统会根据“公开时间”项进行增量文书爬取,“待下一步防爬虫系统稳定、可靠运行一段时间后,我们将适时考虑增加‘公开时间’检索项。”
此外,最高人民法院方面称:“由于前期爬虫行为过于猖獗,无限制暴力访问大幅降低正常用户访问性能,我们采取了通过限制列表页面翻页数量来防止爬虫系统的措施。”
往期文章:前任曾被查、转正五个月的法院院长落马;“80后”挂职副院长仅1年落马;法院院长涉嫌枉法裁判等多罪名被双开
往期文章:中国纪检监察报揭示残酷现状:干得越多,被诬告得越多!
往期文章:一名前法院书记员的陈述:我是怎么被辞退的
往期文章:多名律师被监察委监察调查,律师无法介入监察委办理案件
本号法律支持:姜效禹,山东烟台人,从事法院工作十六年,现山东智峰律师事务所实习律师,微信号:sdyt86,立足烟台诚交各界好友。