“我聊的每一个人都表示对云感兴趣,所以我觉得现在的问题在于什么时候上云,而不在于上不上云这件事。”
—Cadence 云业务开发VP (DAC 2019)
去年9月在DAC(Design Automation Conference)大会之后,我们制作了一个全球半导体行业上云格局一览图,然后得出了两个结论:1. 整个半导体产业链核心角色:EDA厂商/ Foundry/Fabless无一缺席,都已经开始上云的步伐;2. 全球各大云厂商不仅积极拥抱半导体产业,甚至自己主导设计开发芯片,在产业链中扮演双重角色。如果说去年我们的判断是全球半导体行业对云的接受度已经在跨越鸿沟的边缘,那上周ICCAD中国集成电路设计业2020年会结束后,我们认为国内半导体企业也已经跟上了节奏。
跟2019年相比:
今年有了几家云厂商的身影出现,关于芯片设计EDA上云趋势和落地实践给出了各自的答卷;
也有像恩智浦这样的公司分享了仿真上云经验,并且在今年全球疫情的现状下,正在考虑纯云模式来满足远程协同需求。
我们去年根据DAC会议Design on Cloud圆桌讨论整理了十个上云实践问题的过来人解答,有兴趣可以去回顾一下:
1. 上云的模式是什么?
2. 最开始,为什么选择上云?
3. 上云的挑战主要有哪些?
4. 你觉得EDA供应商准备好上云了吗?
5. 上云的缺点是什么?
6. 对于芯片设计,云厂商已经准备好了吗?
7. 在云上,一切都需要付钱。怎么控制云上的成本?
8. 你觉得在云上设计安全吗?
9. 目前为止,上云的成果是什么?
10. 对后来的上云实践者有什么建议?
今年我们升个级,来个——
1. EDA云平台能够解决什么问题?
适配EDA工具使用需求。
大规模算力自动化智能调度。
海量多云资源提供弹性算力支持。
总之,让研发人员更专心做设计,帮助IT人员更好地管理资源满足复杂企业场景需求,最终缩短项目周期,提高公司竞争力。多云可以最大限度利用不同云厂商的不同优势,比如资源类型,比如产品价格,比如地域选择。而云厂商主要在IaaS层,距离用户的实际应用还有非常长的距离。在云的基础架构和应用之间,需要借助应用优化、多云环境支持等方式来满足用户需求。我们已经对接了众多主流云厂商的API,可以用统一的方式方法完成自动化部署,简化用户使用云资源的方式,降低学习成本,帮助用户高效地用好云。支持主流EDA厂商工具,比如Innovus、Spectre、HSPICE、OPC Proteus、Calibre、VCS、Xcelium、Redhawk、PT 、StarRC 、Tmax2 、Skipper、ALPS等等。根据特定用户需求自定义EDA Flow,规范化EDA作业流程,加速EDA多任务的调度。用户在云端可选择的机型有几百种,配置、价格差异极大,我们能根据用户的EDA应用需求推荐最适配的资源。16. 云上的EDA应用怎么部署?是不是每个软件CAD都要去配置?我们协助用户完成云上EDA应用自动化配置,一次配置,以后自动启用。17. 脚本每日都有变动,云上要增加工作量?工作脚本如何更新?可以延续之前的使用方式,也可以使用我们提供的方式自动化完成脚本更新。我们是开源Slurm调度器的代码贡献者,特别是跟云相关的功能点。我们提供Slurm配置/优化/调试/应用对接的最佳实践。-基于Slurm/LSF/SGE/PBS的工作任务我们的Auto-Scale功能自动监控用户提交的任务数量和资源的需求,动态按需地开启和关闭所需算力资源,在不够的时候,还能根据不同的用户策略,自动化调度本区域及其他区域的目标类型或相似类型实例资源。我们有专门的数据传输工具,提高传输效率。支持全自动化数据上传,可充分利用带宽,帮助用户快速上传、下载海量数据。同时,利用fastone自主研发的分段上传、高并发、断点续传等数据传输技术,优化海量数据的传输效率。26. 很多PDK,就有几十T,怎么到云上,而且需要持续更新?任务更适用于流程固定并且经常有运行需求的任务,全程图形化界面。集群相对于任务,属于更高级的用法,用户可以直接SSH到云上的集群使用,可以直接进行应用的开发和调试。使用方式和本地无差别。高级用户,比如本身对应用工作流的理解和编程能力超强,可以不用走普通用户通过应用向导式提交的路径,可以直接根据自己写的脚本,通过Web浏览器选择新建集群,然后按需动态地在云端创建HPC集群,包括权限,计算资源,存储资源等。提交任务后,可以在监控界面中查看任务和集群运行情况。32. 增加一套云环境,对于IT管理会不会带来额外的负担?通过我们可以在不增加负担的情况下对接多云,减少IT管理压力。我们易用的自动化管理平台对IT人员来说很容易上手,对提升工作效率和资源利用率都有很大帮助。可以延续公司原有的安全流程、工具,结合云上完整的审计、监控和权限管理功能。安全是一个立体的概念,包括系统安全、应用安全、流程安全、数据安全等很多方面。云的基础架构和传统IT架构在安全方面并没有本质上的区别,依然是利用计算节点和存储资源。很多人觉得这两者之间存在差异,我们认为这取决于个人的认知。从我们接触的企业看来,既有老牌企业从纯本地逐渐过渡到本地+云的混合云模式的,也有初创公司直接从云端起步,逐渐添加本地机器,最后形成混合云模式的。对于国内企业来说,混合云应该是各种企业类型最终能接受的完成形态,既保留有本地的私密性,也时刻享有云端的灵活性。企业上云是否便宜取决于具体应用场景,云的成本结构高度依赖于自动化和智能化的运营能力,效率的提升带来TCO的降低才是计算云成本的正确思路。从应用适配层面,我们会在多云里选择最适合用户应用场景的最具性价比资源;从IT部署方面,通过自动化按需部署和资源实时监控管理进行成本优化;从任务运行层面,我们根据用户不同策略进行智能调度。当以成本优先策略为第一优先策略时,资源选择以SPOT实例为主,并在满足用户成本要求的前提下使用OD按需实例来优化时间效率,相比时间优先策略,成本降幅最多可达67%-90%。跨国协同面临的IT挑战,一个是数据传输,一个是网络质量。42. fastone平台能否有效解决目前业务问题?43. 相比传统手动模式,云端计算集群的自动化部署,有哪些好处?45. fastone平台能否满足业务弹性资源需求,有效减少OPC运行时间?
46. License Server配置在本地和云端对计算性能/一致性/稳定性是否有影响?
47. fastone能否支持不同调度器SGE/Slurm?
48. 使用不同调度器对计算性能/一致性/稳定性是否有影响?
49. fastone平台的云端输出计算结果是否与本地完全一致?