查看原文
其他

速石短评:Novartis新世代HPC系统的十大策略

速石科技 速石科技 2020-12-18

Novartis 诺华制药一直是速石极为关注的一家公司。在我们心目中,Novartis在IT技术与制药业技术大融合方面的革新,一直是业界排头兵,堪称楷模。

5年前,Novartis与AWS发布的一个公开案例就深深震撼到了我们:


“We completed the equivalent of 39 years of computational chemistry in just under 9 hours.”

-  Steve Litster, Ph.D., Global Head of Scientific Computing

不到9小时,我们完成了相当于39年的化学计算。


5年前,在很多人脑海里,“Cloud Computing云计算”这个概念才刚刚萌芽,而作为拥有百年历史的制药界巨头,已经开始运用云的能力来赋能其核心药物研发过程


让我们回顾一下这个案例:

Novartis的NovatisInstitutes for Biomedical Research’s (NIBR) 部门成立的初衷就是为了针对特定疾病提供一整套治疗和预防药物,从而大幅度提升生命的质量。

截至2013年,NIBR在全球拥有6000名科学家,同时进行着130个药物研发项目,主要聚焦于不同疾病所公有的分子路径研究。


传统上看,一个创新药物从开始研发到最终面世,往往需要10年-15年的时间,其间消耗的成本在20亿美元以上,同时失败的风险巨大。为了应对这一挑战,NIBR决定通过新一代的HPC系统来大幅度缩短研发周期。


2013年,Novartis启动了一个针对某一常见癌症的化合物筛选的项目,需要在一周时间内完成千万个化合物的筛选工作。根据简单的估算,如果依靠Novartis自有的IT环境,他们可能需要50000个CPU核,总体成本可能接近4000万美元。


幸运的是,公有云服务的出现,让这样的问题迎刃而解。
Novartis和AWS以及Cycle Computing(后来被微软收购)一起合作,为了这个项目,同时运行了10600个SPOT Instance,共计87000个CPU核,从而在短短9个小时以内完成了这项历史性的壮举,而其硬件的成本,仅仅是4000多美元

 

5年的时间如白驹过隙,2018年底的AWS Re:Invent 大会上,Novartis又出现在讲台上。

这一次,Novartis给出了他们对HPC以及新兴IT技术的进一步思考——“关于混合架构环境下的HPC系统的十大策略”:




Portability.

设计所有新的业务流程以及后台支撑的基础架构,而这些应该与物理站点解耦。


速石短评  

软硬件平台解耦是实现新一代混合HPC架构的必要条件,也是避免Vendor Lock in的合理措施,虽然会有一定的工作量,但所获得的灵活性绝对绝对对得起前期的付出。


Hybrid

同时使用自有的数据中心以及云服务来满足HPC计算的需求。这两者之间的选择取决于预设的系统运行原则(time-to-value,成本,能力以及物理限制等等)。


速石短评  

混合云是HPC的大势所趋,on-premise平台和Cloud各有优势,缺一不可。而HPC workload的分配应该是策略驱动(Policy-driven) 和高度自治化(Autonomous)的,成本,性能,安全,物理距离都是可以考量的因素。

虽然不知道Novartis已经能达到什么样的程度,但相信这一大方向是不会错的。


Multi-cloud with preferred vendor bias.

如果需要使用云资源,缺省情况下使用首选的云服务供应商。如果其它的云供应商在某些方面有明显优势,则可以同时采用多家云供应商。


速石短评  

Multi-cloud会给HPC算力的调配带来更多的灵活度和更大的规模,从而最终用户可以获得更好的成本结构和性价比。

当然作为Novartis这样体量的客户,一定会有一家首选的战略合作云供应商,也可能会因此获得更好的价格和支持。而对于小一些的客户,preferred vendor bias就未必是必要的了。


Two centers

将自有的HPC资源环境分成两个集群:一个在美国,一个在欧洲。


速石短评  

Novartis家大业大,自家的IT环境可以轻松的做到多站点。但对于一般用户而言,这一点实现起来不易。

但其思路值得借鉴,那就是高可用性和冗余,同时计算资源更加贴近最终使用者。正在兴起的“边缘计算(Edge Computing)”也许是可以利用的工具。


Lease

将软硬件采购模式调整为以租赁为核心,从而能更有效的跟踪和适应计算需求以及IT技术的快速变化。


速石短评  

“租”在很多时候会比“买”要好,这一论断对于企业IT环境而言,越来越不言而喻。

在中国,个人和公司对“资产”的追求有着一种偏执,而这其实会大大降低自身的效率和灵活度,也是对社会资源的一种浪费。大家可以再仔细想想这条策略的本质。


Environment isolation.

HPC基础架构应该独立于一般的IT环境,并且应该为科研需求单独优化。


速石短评  

国内绝大部分客户,研发使用的HPC环境是和企业其他IT应用在同一基础架构下运行的,这本身可以提高资源利用率,但也使得HPC环境的隔离和调优变得很困难。一个切实可行的解决方法是对HPC的应用和功能进行封装,实现软件定义的HPC架构。


Stage data

HPC环境应该只处理中间数据(Staged Data)。所有数据应该被复制进HPC系统,计算完成,再复制出去。数据复制传输的工具应该尽可能的好用。


速石短评  

这一策略,没有多年的HPC运营经验,是提不出来的。为了让HPC环境变得高效而易于管理,数据生命周期管理的工作应该由其它独立的平台来完成。


Shared cost model. 

HPC基础架构的成本应该由HPC团队来承担,而最终用户有权根据自身的业务需要来负担动态成本。


速石短评  

好羡慕Novartis,能提出这样“乌托邦”的思路。不过进一步细想,这个策略在一般公司落地也不无可能。

针对国内的商业环境和公司组织架构特点,我们建议在HPC项目上,使用部门应该承担更多的角色。因为HPC和业务及研发的关联是如此紧密,完全可以被视为研发的生产资料,而非IT平台。使用部门提出具体需求,负责HPC整个项目的执行,并承担预算,IT部门协助提供技术支持,应该是一个更现实且更高效的实现路径。


Enable and empower users

建立支持服务,以更好的服务于最终用户,使不同技能级别的用户都可以高效地以自服务方式使用HPC服务。


速石短评  

自服务Self-Service是HPC在功能方面演进的思路,一套好的HPC平台,在用户体验层面,应该切实降低业务用户的使用门槛和学习曲线,应该尽量的不改变业务用户日常操作的方式。


Planned recurring reviews

定期回顾这些策略的关键元素,以决定是否需要调整。


速石短评  

不得不佩服老外的思维方式,永远是具备了严密的逻辑性,任何的方法论,都能形成一个自我迭代更新的闭环。当然,业务需求和技术供给,永远是动态变化的,不排除未来出现新的技术或应用模式(比如,边缘计算),因此定期回顾是应有之义。

 

看得出,在过去的5年里,Novartis在HPC on HybridCloud这方面有了更多的经历和经验,能给出这样精辟的总结,实属行业之幸。


END -



本文相关资料:

1. Novartis与AWS案例内容参见:

https://aws.amazon.com/solutions/case-studies/novartis/

2. Novartis2018年底在AWS Re:Invent 大会上提出HPC系统十大策略,演讲全文链接:

https://www.linkedin.com/pulse/example-hybridcloud-aware-hpc-strategy-ken-robbins/

 

你也许有兴趣:

闲话高性能计算

从疯涨的房租说起,聊聊资源优化配置那点事儿

一小时内完成百万计算任务?

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存