"精准医疗"新需求,"先进计算"新应对
“精准医疗”是医学全新领域的分支,是根据个体基因差异、个人生活方式以及环境因素,在精准数据的指导下对疾病开展预防和治疗的新方法;从狭义的角度讲,是利用已知的基因信息,为目前肿瘤、传染性疾病和遗传病提供针对个体化的更为有效的治疗手段之一。
近年,国家将"精准医疗"列入"十三五"健康发展问题进行研究,《健康中国“2030”规划纲要》更提出了加强精准医学等关键技术的突破。“精准医疗”需要不断响应最新的信息技术和医疗进展,是典型的交叉学科。当前先进计算技术已经被应用到蛋白质结构研究,计算机辅助药物设计,生物信息学等。
海量数据分析,对先进计算需求升级
作为生物信息学的一个重要分支,基因数据处理一般需要进行4步处理,分别是对测序获取的短序列进行比对拼接、进行全基因组基因注释、对预测的基因进行功能注释、比较基因组和分子进化分析。
在这个过程中,面临众多技术挑战。
一方面是软件应用问题:对应某一功能的软件数以百计,随着仪器的更新换代,同一款软件的算法也不断升级,造成软件选择难;另外分析效率不高,多为领域专家依赖脚本语言和库写成的软件,未考虑与硬件资源使用的匹配。
同时,分析流程中多软件衔接难:多数的高通量测序数据分析需几个软件配合完成,各软件通过脚本和大数据的重复读写来协调。例如,比对之后做SNP检测,那么比对结果将作为SNP分析的输入。各软件资源使用特征差异大:如拼接软件需要大量的内存消耗,比对则是典型的数据密集计算。
二方面是数据存储问题。由于基因测序过程不允许被中断,对支撑测序应用的存储系统稳定性和可靠性的要求则极为苛刻。基因测序中,25微秒采集一幅高清晰图像,对性能要求也超过了现有闪存固态盘的最高带宽,必须采用更快的固态盘。
另外,海量小数据将产生全新的存储需求。海量小文件的文件尺寸小,物理位置跨度大,而文件系统的每次文件访问都会伴随一定的元数据操作。文件数量越多,元数据访问压力越大;此外,海量小文件读写并发随机访问,对存储系统的随机读写性能有极高的要求。
由此可见,基因数据分析在对先进计算的计算能力和存储的容量、吞吐能力、存储架构都提出了不同于其他应用的全新要求。
曙光先进计算与“精准医疗”共成长
曙光有着丰富的精准医疗合作经验。非典时期,曙光4000无偿协助完成了SARS全基因组测序。今年,新冠肺炎疫情蔓延, 5月,学术界顶级周刊《自然》杂志发表针对新型冠状病毒的研究成果。此项研究得到了正在建设中的“转化医学国家重大科技基础设施”有力支撑。该成果的基因数据分析等研究工作使用了2019年中科曙光部署完成的先进计算系统。
精准医疗以健康大数据为基础、以移动通信为手段,将使人类健康管理真正做到个性化、精确化。面对“精准医疗”这一项复杂的工程,曙光针对第三代基因测序、组学分析等技术的大批量、小规模,一次提交成百上千应用数据处理需求特点,以及多种基因检测及特征分析软件并存、更新迭代快且无统一标准的局面,曙光先进计算将全面升级,具备PB(十亿亿字节)级储存架构下,解决数据复杂流程分析能力,并适应软件的多样与多变。
据悉,曙光已为“北京大学医学部”、“四川省人民医院”等超12所三甲级医院,以及“重庆市巴南医院”、“江苏泰州市人民医院”等超50家普通医院、县级医院、医疗机构等提供计算服务。此外,曙光还与华大基因等“基因组学研发机构”合作,推动基因测序行业发展。曙光先进计算将不断突破技术发展的极限,为精准医疗大发展、大爆发提供有力技术支撑。
关注“中科曙光”抖音号、视频号
Get更多内容
精彩内容回顾