以高性能支撑冷冻电镜,看XGFS背后的XCache缓存技术
新冠疫情再一次让大家审视起了“病毒”。而对于一种新的病毒,我们只有去发现它、了解它、研究它,最终才能制造出能治愈患者的药物,以及增强人体免疫的疫苗。那么病毒如何观察呢?针对病毒做结构研究,就少不了在微观世界对病毒本身进行观察和成像。这就不得不提到一项极大推动生物学发展的技术,即冷冻电镜技术,这项技术是将生物大分子快速冷冻后,在低温环境下利用透射电子显微镜对样品进行成像,以获得数万到数百万张生物大分子照片,然后通过一定的算法来整合这些图像,计算出生物大分子的三维结构。
如上海科技大学免疫化学研究所饶子和院士所率领的联合团队,通过冷冻电镜累计获得了7万余张合计超过100TB的高质量照片,完整病毒颗粒接近6万5千颗,最终解析了非洲猪瘟病毒全颗粒的三维结构。
在整个流程中,数据采集、图像处理、三维重构是非常核心的三个步骤,对计算和存储的需求非常高。
而XSKY星辰天合下一代分布式文件系统XGFS,因搭载XCache缓存技术而具有的高性能优势,使得冷冻电镜技术得以生物医药医疗机构可以高效攻克一道一道难关。
本期内容,XSKY星辰天合技术专家带您一起解析,XCache在冷冻电镜场景下是如何应用的。
冷冻电镜
Relion & Motioncor
IO 模型
通过对Motion correction的IO模型进行分析发现,Relion在进行Motion correction时,会对将要处理的数据进行两个维度的拆分:
对Raw data目录中的文件根据进程数进行拆分,如配置24进程(Number of MPI procs),则Relion将会按照文件数量把目录中的文件进行切分,并且每个进程负责其中的一部分; 在单个文件内数据按照线程数进行拆分,如配置4线程(Number of threads),Relion将会按照文件大小进行切分,每个线程负责读取文件的一部分;
XCache 缓存
XCache 缓存
我们知道从CPU缓存、内存、硬盘性能和价格的对照如下,随着存储性能的逐级提高,同样容量的存储设备价格差距可达数百乃至上千倍,如此巨大的差距下,如何在一定的成本限制下尽可能提高系统数据访问性能?
避免IO,避免IO走到低速的存储介质,常见的处理方式就是缓存; 顺序IO,针对磁盘顺序访问要比随机访问快,如果多IO负载下无法完全顺序执行,那就增大IO的大小,减少寻道定位,提高吞吐量; 异步IO,让CPU和磁盘同时工作,把需要的数据提前载入内存; 并行IO,把多个磁盘的容量和带宽聚合起来,提升整体的IO性能;
文件预读
目录预读
元数据和目录缓存
性能表现
测试模型为原始数据目录下有800个文件,每个文件约280M左右,共220G的测试数据。Relion会读取测试数据,并对读到的数据进行计算,把测试目录下的数据都处理完一遍就执行结束。针对以上业务的IO模型,24个进程,每个进程4线程同时并发顺序读,XCache的预读算法可以生效,测试结果如下。
总结
冷冻电镜产生海量大文件,并且要求长期保存,不仅对存储成本提出更高的要求,同时需要存储具备高性能和高可扩展性。由于样本制备耗时极长,每次作业获取的数据都非常宝贵,对数据的安全性要求极高,对大规模存储系统的可运维也提出要求,同时Motion correction大文件带宽需求与particle extraction阶段小块IOPS需求。
END
如想了解更多产品信息扫码联系XSKY星辰天合售前专家
XSKY SDS V5技术解读系列