肝了几个月的数据被误删了,我该怎么办?
拯救数据最好的时机就是在它丢失之前。不要以为在硬盘或者云端存一个备份就完事了,你需要考虑到一切可能发生的意外情况,包括“地震中墙上的前总统画像砸中电脑”这样的小概率事件。来看看这 11 条建议吧!
来源 公众号“Nature自然科研”
撰文 Jeffrey M. Perkel
当 Tracy Teal 还是研究生时,有一天,她在Unix终端执行了一个常规指令——rm -rf *,这是一个让计算机递归删除当前目录中的所有内容的指令,包括所有子目录。这步操作只有一个问题——她所在的目录不对。
插图:The Project Twins
当时,Teal 正在学习计算语言学,计算语言学是加州大学洛杉矶分校生物学硕士的必修课。她已经花了几个月的时间开发运行模拟软件,终于到了可以开始数据分析的最后一步。她首先要做的是“数据清理和整理”。然而,悲催的她却误删了整个项目。虽然 Windows 和 Mac 操作系统都设置了回收站以防此类错误操作,但 rm 命令一旦执行是不可恢复的,除非你早有备份。
在这个数字化的时代,无论是智能手机里的自拍照还是大规模的基因组测序数据集,备份都是极为重要的。存储介质并不十分可靠,它们要么容易坏,要么会丢、被盗,或者干脆罢工。
备份的方式有很多种,U 盘、云数据存储服务或大型机构磁带服务器等等,研究人员通常会使用不止一个备份方式。但不同的存储方式有不同的优势,科学家应当根据自己的数据体量和性质、存储资源的获取便利性以及数据隐私,择其最优的存储方案。
对于 Teal 来说,自动备份救了她一命。她开展工作的服务器会定期将数据备份到磁带储存器上,系里生命科学计算机帮助中心的那些“乐于助人的 IT 人员”得以帮她恢复了文件。但 Teal 还是颇感尴尬,她目前在旧金山的 The Carpentries 任执行总监,这是一家组织科学计算工作组的非营利机构,但她曾是一名 IT 人员。她形容自己就像是一名必须被营救的救生人员。
我们在这里总结了 11 条建议,希望能让所有的数据丢失悲剧不那么悲催。
01 运用 3-2-1 法则
美国 DriveSavers 数据恢复公司的工程总监 Michael Cobb 提倡在进行数据备份时,遵循“3-2-1”法则,即“3 个备份,2 个不同介质,1 个异地存储。”比方说,你可以在个人电脑上保存一个备份,在外接硬盘上保存一份,在云文件同步服务 Dropbox(3 名或以上用户每月每人支付 12.50 美元,就可享有 3TB 的存储空间)上也保存一份。伊利诺伊大学香槟分校的信息科学家 Elizabeth Wickes 说:“这只是一条富有启发性的建议,而不是硬性规定。”但宝贵的数据应受到额外的保护。
02 问问专业人士
哈佛催化剂(Harvard Catalyst)的数据管理负责人 Juliane Schneider 的建议是,既然你所在的机构雇人管理日常数据,为什么不和他们聊聊?你们机构的研究计算中心也许会提供免费或低价的机构备份系统,图书馆员也能帮你制定数据管理策略,经费办公室还会告诉你资助机构有哪些具体要求,比如数据存档应以何种方式存储以及要存多久。她说:“他们希望协助你进行数据管理——特别是在你已经获得研究经费的情况下。”
03 做好数据管理
有效的备份计划靠的是聪明的管理方式。加州大学伯克利分校的数据科学家 Ciera Martinez 建议参考畅销书《怦然心动的人生整理魔法》(2014)的作者近藤麻理惠发明的整理法——对每个文件都问一句:“这个数据要存吗?”Teal 笑着补充道,“你不能只留下那些让你看着高兴的数据哦!”
对文件进行统一的命名和整理。例如,为每个项目建立专属的文件夹;将数据和代码存在特定的子目录下;每个项目文件夹下应有一个文档,专门记录项目的目标、方法、元数据以及各类文件。事先计划好在哪里、以何种方式备份数据,并对这些操作制定日计划或周计划。
记住,一定要保存原始数据,反倒是中间的过程文件可以选择性删除。对于大规模数据集还要给予特别考虑:一些云服务商对存储文件的大小有规定;数据传输和存储的成本也可能会很高。
04 保护数据隐私
来自患者或学生的数据常常需要保密,这意味着不能将它们随意存储在任何地方。Wickes 说她们单位的研究人员有好几种基于云的数据备份选择,但只有一种被批准用于敏感数据。不妨问问你们系里的 IT 团队应该怎么做。Wickes 提醒道:“不遵守数据保护规定可能会导致严重后果,轻则受到经济处罚,重则失去研究资格。”
05 善用自动备份
自动化在数据备份中十分关键。澳大利亚昆士兰大学的心脏遗传学家 Kelly Smith 使用的共享盘会自动储存至磁带。过去,她需要手动将文件上传到网盘,且每月只上传一次。因此,一旦硬盘发生故障,最新的文件说没就没了。而现在加州一家数据保护公司 Druva 提供的一款基于云的自动备份系统 Druva inSync 消除了这一隐忧。“我再也不用担心这件事了。”她说。
“你不能老是提心吊胆的,”Teal 解释道,“因为当你压力最大的时候,也是会出问题的时候,碰巧也是你已经三个月没备份的时候。”
06 保护好原始数据
所有的数据都很宝贵,但原始数据享有不可替代的地位:重新获得原始数据的唯一方式是重新做实验。因此原始数据必须备份,并且保存为只读文件。Wickes 曾经不得不终止一个项目,因为她用 Excel 打开了一个非常关键的文件,其中一列被自动格式化,更改的数值完全破坏了基础数据集。Martinez 说,“无论如何”保护好你的原始数据。
07 确保备份方案可行
你的数据管理方案必须符合实际,无论是对实验室的新成员还是那些通宵达旦的博士后来说。Wickes 指出,“你可能会说,‘这个方案很完美。’那我问你,如果你刚在一个问题上连续工作了 24 小时,你还愿意在凌晨 3 点去做备份吗?在你和一个代码问题奋战到一半时,你会去做备份吗?”你需要和整个团队讨论备份方案,确保方案切实可行。然后,就像面对一台零下 80°C 的冷冻库一样,你需要假设灾难发生后会有什么后果:哪些数据会丢失?最快多久能恢复?Teal 说:“即使做一下思维实验也会很有帮助。”
08 定期测试备份
不要想当然地认为备份运行良好,测试一下。这些文件打的开吗?运行所需的应用程序、登录凭证和注册密钥都有吗?Wickes 系里的 IT 部门为他们在 Code42 软件的 CrashPlan 上注册了免费帐户,可以将数据自动备份到云端。有一天,Wickes 决定测试一下她的备份,却意外发现帐户已经在六个月前就停止同步了。“还好我用时间机器进行了本地备份”——她说的时间机器是苹果公司为 Mac 操作系统设计的备份程序。Cobb 再次强调了他在第一条建议里提到的 3-2-1 法则:“先按 3-2-1 法则进行备份,然后再存一遍(部分关键文件)。之后在不同的计算机、不同的房间或不同设备上进行测试,因为如果发生最糟糕的情况,你的设备也不复存在了。”
09 防患于未然
生活处处有意外。Cobb 曾在 2017 年的一场森林火灾中失去了所有个人财产,他的一位客户曾将 96 个硬盘全部存放在消防喷淋装置下。有一天喷水器爆裂,所有磁盘付之一炬。“那里面的数据都没有备份。”他说。2012 年,纽约洛克菲勒大学神经生物学家 Leslie Vosshall 放在地下室的服务器在飓风桑迪侵袭之后惨遭被淹,差一点丢失了蚊子基因组测序数据。虽然此类事件在所难免,但它们一般是可以预料的——这就需要我们想尽所有可能的风险。大约一年半前,Cobb 的办公室受到了一次小地震的冲击,这在加州并不少见。蹊跷的是,他曾经的老客户、美国前总统杰拉尔德·福特的照片从墙上被震了下来,“不偏不倚”地砸中了他的笔记本电脑屏幕。“在那之后,我就觉得‘最好还是把东西放放好,做到有备无患’。”
10 保存一份脱机备份
连网的备份工具用起来非常方便,随取随用。但操作失误或恶意软件也让这些工具有随时受损的风险。加州数据恢复公司 Data Mechanix 的首席技术官 Craig Rager 表示,他的许多客户都遭到过勒索软件的攻击,病毒会给计算机的硬盘加密,使其无法使用。他说直接连接到计算机和通过网络连接的备份设备都易受此类攻击。“由于你无法百分百规避这种危险,你能做的只有将备份好的设备脱机或不连入网络”,比如关闭它们的电源。
11 学会未雨绸缪
备份的最终目的是能在将来使用。所以,Teal 的建议是,想想“未来的你”。对数据的保存介质以及打开它们的应用程序做到心里有数,该更新更新。Vosshall 的很多早期数据都是用过时的磁盘格式存储的,这意味着虽然有备份却无法访问。“我不得不去古董店找读卡器。”另外,即使云存储也不是万能的:数据存储公司可能会改变业务方向,你也可能无法登陆帐户。因此,本地备份是最好的做法,或至少在独立服务器上备份。Wickes 说:“人们会问,‘你是说不要相信 Google Docs 咯?’其实,不是说相不相信 Google Docs,而是不要无条件地相信访问权限。”
版权声明:
本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件China@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。
© 2019 Springer Nature Limited. All Rights Reserved
本文转载自公众号“Nature自然科研”(ID:Nature-Research)
▽ 精彩回顾 ▽