从使馆焚烧文件说说碎纸及复原技术
7月21日,美国政府悍然要求中国在72小时内关闭驻休斯敦总领馆,且只给出中方3天的撤离时间。当日下午,中国驻休斯敦总领馆人员开始进行文件焚烧,处理相关机密文件。领事馆焚烧文件引起了美国民众的广泛关注,社交媒体上也一边倒地认为中国在烧毁证据。其实,对于机密文件的销毁,焚烧文件仅仅是一种普通、简单但又行之有效的文件销毁方式。但在日常生活当中,我们一般采用碎纸机粉碎的方式来处理内部文件。但是碎纸机粉碎文件真的安全吗?有没有可能被拼凑复原呢?
碎纸机的核心部件是刀具,这组刀具是可以旋转的,刀刃互相咬合,当有纸张进入时,旋转的刀刃会把纸张切碎成条状或者颗粒状,如图1所示。
图1 碎纸机刀具示意图
碎纸机的性能除了碎纸颗粒的大小外,还包括一次性碎纸的纸张厚度、持续碎纸的时间等等。但最关键的指标,仍然是碎纸颗粒的大小。
从电商网站上搜索碎纸机可以发现,目前商用碎纸机的指标一般采用德国标准DIN 66399。如图2所示,德国纸张粉碎标准分为P2-P7级,其中P2级最低,P7级最高。P2级用于内部非涉密资料的纸张销毁,粉碎后的颗粒表面积不超过800平方毫米,P3用于敏感保密信息,粉碎后的颗粒表面积不超过320平方毫米。以此类推,P7用于最高等级的纸质资料销毁,粉碎后的颗粒表面积不超过5平方毫米。
图2 德国纸张粉碎标准
以一张A4纸为例。A4纸的尺寸是210mm*297mm,面积62370平方毫米,按照P2级粉碎,可得到78个颗粒,P3方法粉碎后得到196个颗粒,P7方法粉碎后可以得到约12474个颗粒,如图3所示。
图3 一张A4纸在德国标准下的粉碎颗粒数
而普通三号字的尺寸是5.64mm*5.64mm,按照P2至P7的方法可以粉碎成为不同大小的颗粒。
同时,碎纸机粉碎颗粒还原技术的研究也一直没有停歇。
1979年,伊朗爆发伊斯兰革命,发生了美国大使馆人质事件,事前美国大使馆人员确实也进行了文件销毁,但由于火炉故障,只是使用碎纸机对文件进行了粉碎。结果后来被伊朗把粉碎的纸条给拼回去,还原了机密文件(如图4),并且因此揭发了不少美国针对伊朗的计划。
图4 伊朗人还原的文件
2011年,美国国防部公开举办了一场碎纸拼凑挑战赛,要求参赛者将5份粉碎的文件重新拼凑复原出来,这五份文件一共7页A4纸,都是手写的文件,这些文件被破碎成为10000多个碎纸颗粒,在指定时间内恢复最快的团队将获得5万美元的奖励。这项比赛吸引了全球近9000个团队参加。由于赛程的时间限制,美国国防部高级研究计划局局长在一份声明中说道“很多专家都怀疑是否能在短时间内提出解决方案。”。
其中加州大学的团队,采取了“众包”的方式来解决谜题,创建了一个在线程序,让来自世界各地的人可以一起解决拼凑问题。
维吉尼亚州的一家文档成像公司的联合创始人兰德鲁姆独自解决这个问题,他费力地将每一张碎纸拼凑在一起,仿佛在做一个拼图游戏。
最终,这场挑战赛的获胜队伍利用10000多个碎片完成了七页纸的复原拼凑。他们使用了计算机的图像识别技术,当用户点击特定的纸碎片时,可以推荐可能的匹配项,以此来完成高效的拼凑,并且该应用程序由8个人用了1个月的时间开发。
图5 美国国防部碎纸拼凑挑战赛
这场竞赛显示,尽管碎纸是一个由来已久销毁技术,但碎纸技术和对应的碎纸颗粒还原技术一直在“相生”“相克”,不断发展,同时也是保密领域中不可或缺的重要一环。尽管碎纸技术仍属于物理安全范畴,但是碎纸颗粒的还原技术已经涉及当前最新的技术领域,比如图像识别、群智众筹算法、人工智能、芯片计算能力等等,碎纸技术的指标必须在充分了解这些技术水平的基础上才能制定。
而作为碎纸机的使用者,我们日常处理碎纸颗粒的时候同样需要根据碎纸颗粒中信息的重要程度,妥善处理已经破碎的颗粒,时刻牢记在代价足够的时候,是存在能够提高碎纸颗粒还原效率的计算机辅助算法的。
同时,碎纸机还有效率的问题。地处异国他乡,碎纸机的效率难以满足销毁的时限要求,且碎纸颗粒无法带回妥善处理的时候,焚烧是最快的解决办法。
参考文献:
[1] 德国销毁设备产品手册. http://www.hsm.eu/uploads/media/EN_HSM_Broschure_DIN_norm66399_22.pdf
[2] Chen J , Ke D , Wang Z , et al. A high splicing accuracy solution to reconstruction of cross-cut shredded text document problem[J]. Multimedia Tools and Applications, 2018, 77(15):19281-19300.
中国保密协会
科学技术分会
长按扫码关注我们
作者:谢金兴
责编:眼 界
往期精彩文章TOP5回顾
近期精彩文章回顾
零信任:无边界化时代的安全架构
大数据计算框架简介