芯片设计上云-挑战篇
引言
对于云计算这个相对比较新的技术,半导体行业相比其它行业,例如:金融和互联网等,企业上云还处于非常早期的阶段,上云速度也非常缓慢。除了半导体行业产业链比较冗长和封闭之外,所有半导体企业,尤其是芯片设计公司在此次“数字转型”过程中不可避免的会碰到以下的挑战:
挑战一:数据安全
对于芯片设计公司来说,公司的所有设计数据是公司的生命线。如何保护芯片设计数据一直是芯片设计公司安全策略的主旋律。
数据安全防护一般分为外部安全防护和内部安全防护,好的数据安全防护策略都会从防止外部攻击和内部泄露两个方面来考虑制定。
摩尔精英ITCAD及EDA云计算部门根据芯片设计公司安全需求,从防止外部攻击以及内部泄露两方面考虑制定了符合行业特色的“安全体系”并提供了相应的”安全管理及流程平台“(见下图)。具体的细节将在芯云芯安的安全系列文章中详细阐述。
图一:摩尔精英“安全管理及流程平台”
防外部攻击
近两年来,我们对云计算的安全问题进行了广泛的研究,对云计算的安全体系有了更深入的理解。大多公有云厂商拥有更为专业的安全专家团队,更为完善的安全技术和产品,以及最新最全的病毒库等,他们每天都需要面临来自全球的数以百万计的各类专业性攻击。公有云厂商的安全体系和防护能力,对于私有云或企业自建数据中心来说,不是一个等级的。下面我们以微软Azure云为例进行探讨。
防火墙
WAN 优化器
应用程序交付控制器
路由器
负载均衡器
代理
SD-WAN 边缘
用户定义的路由 (User Define Route,UDR) :对于大多数环境,已由 Azure 定义的默认系统路由足以使环境正常运行。但在某些情况下,应创建路由表并添加自定义路由。示例包括:
使用强制隧道通过本地网络访问 Internet; 用虚拟设备控制流量流。
内置的高可用性
可用性区域
不受限制的云可伸缩性
应用程序 FQDN 筛选规则
网络流量筛选规则
FQDN 标记
服务标记
威胁情报
出站 SNAT 支持
入站 DNAT 支持
多个公共 IP 地址
Azure Monitor 日志记录
强制隧道
Web 类别 (预览)
认证
防内部数据泄露
权限最小化原则
数据传输通道管控原则
数据灾备原则
挑战二:上云成本
目前芯片设计云计算方案主流分为两种:混合云和全云。
图九:EDA云计算的混合云模式和全云模式
混合云模式比较适合已有本地算力但算力无法满足高峰期需求的用户,公有云算力作为本地算力的一个有力补充。这种算力扩展对于用户来说是个临时短期的需求,可以通过各个云厂商提供的弹性算力策略来实现,其成本就是这个短期的机时租用费(即租即用,按时收费),相比较线下的固定资产扩容投资(机房+算力+运维费用),其优势显而易见,这里就不在用成本模型来阐述了。
图十:EDA云计算的混合云算力满足示例
全云模式比较适合项目或者项目某个步骤全部上云的用户,在公有云完成整个项目或者项目的某个完整步骤,减少线上和线下的数据交互。这种算力对于用户来说要满足整个设计项目或者这个步骤的需求,即利用公有云的无限资源池满足以下需求曲线:
图十一:芯片设计项目资源需求曲线
我们以一个小型计算集群为例,一个50人的研发团队大约需要10台HPC服务器,存储按50T估算,私有云和公有云的静态成本(单位:万元,人民币)比较如下:
图十二:私有云和公有云成本对比
私有云的投资包含了机房建设、运维及各种软硬件的采购成本,此例中没包含IT人工成本。此处公有云的价格按照3年CPP来估算。
在实际项目中,我们会建议用户使用3年CPP搭建固定资源池满足最基本的计算需求,再加上on-demand资源满足浮动算力需求来进一步优化上云成本,使得资源供给更加贴合图十一的”芯片设计项目资源需求曲线“。
在最近的一个芯片上云项目中,摩尔精英ITCAD及EDA云计算部门根据用户项目算力需求,制定了完整的上云方案,使得一个20人左右的射频设计团队在不到20万每年的成本短短1周内完成了上云。
以下是一个真实的使用Calibre进行DRC任务的案例,其成本由算力每小时成本*运行时间构成,其成本分析如下:
图十三:Calibre DRC云计算成本节约实例
由此可见,在公有云上选择合适的计算实例并制定详细的算力使用计划是完全可以实现成本优化的。
挑战三:上云工作效率
芯片设计环境的工作效率可以分为2个方面:运行效率和维护效率。
运行效率
半导体行业的蓬勃发展以及国家层面的大力支持,使得国内半导体企业如雨后春笋般涌现,2019年共增加了438家半导体公司。越来越多的半导体公司使得这个行业的竞争愈发激烈,对于产品上市时间的要求也越来越高。
公有云的“无限”算力是芯片设计公司减少“上市时间”的最有效途径。我们通过一个简单的数学模型来说明,假设某个芯片设计任务一共需要1000个并行作业来完成:
图十四:云计算缩短“上市时间”
通过”无限“的算力池,公有云可以让这个设计任务快速完成,从而缩短产品“上市时间”。
当然,真正的芯片设计远比上述的模型复杂的多,运行时间和算力并不是一个线性关系,而是一个接近线性的曲线:
图十五:计算时间和CPU需求数量曲线
通过分析大量的云计算案例,我们也看到了云计算对于芯片设计来说在运行效率上都会带来极大提升。
案例一:台积电与Synopsys与Cadence利用微软Azure上的高性能计算(Avere/Cyclecloud)架构在20分钟之内大量打开10万个虚拟机,大大缩短了5nm的开发时间,提前9个月量产。
案列二:Mentor 、AMD、台积电在微软Azure上10小时完成7nm的物理验证:
图十六:7nm物理验证私有云和Azure云对比
这些都是公有云提供“大量”算力减少设计时间的成功案例。当然,无限制的在公有云上开启算力对设计成本也带来了很大的压力。因此,我们必须在效率和成本之间寻找一个平衡点。
以下是一个典型的“效率”和“成本”平衡的例子,用户可以根据对“效率”和“成本”的 要求选择合适的方案。
图十七:Azure效率和成本图
维护效率
EDA设计环境是个比较复杂的系统,为了支撑芯片设计工作,系统必须要有高可靠性,高安全性,高稳定性和高效性,维护这么一个复杂的环境往往需要大量的人力和物力的投入。
云计算提供了基本的IT基础架构,使得用户不用关注底层/物理层面的传统IT维护工作,比如:机房建设和维护,物理机的上架和互连等。用户只需关注及优化操作系统以上以及应用层面的工作即可,公司的IT人员的工作量将极大减少。最近摩尔精英ITCAD及EDA云计算部门交付的一个上云服务项目,将之前的线下2周的设计环境搭建工作在微软Azure上仅用了2天完成,实现了快速交付的用户需求。
最典型运维的案例——停电支持:在私有云生产环境中难免会发生,可能是园区停电,可能是用户搬家等引起的IT支持需求,往往在这种情况下,IT要从停电支持计划,协调停电事宜,关闭设计环境,来电重启设计环境,设计环境验证等各个环节进行支持,如果在任何一个环节没有做好,可能整个设计环境就会受到破坏,甚至导致设计数据丢失。然而,在公有云的高可用性保证下,这种需求几乎不存在,大大降低了公司IT运维工作。
同时,目前公有云的算力都依靠虚拟服务器来提供,虚拟化技术的广泛应用使得“真远程”支持以及自助运维成为可能,市场上大量的云管平台CMP都实现了这些功能,下图是一个典型的CMP资源管理示意图,利用这些CMP也将会大大提高维护效率。
图十八:某CMP管理平台
芯片设计无论是在私有云还是公有云上进行,安全、成本和效率都是用户需要考虑的3个关键要素,三者之间有着密不可分的关系。安全级别越高,公司需要投入更多的资金,对设计用户来讲可能操作起来更加复杂,效率会有所影响,比如:设计环境使用网络隔离来保护设计数据,公司需要购买服务器搭建VDI平台,用户会增加一层登陆来访问设计数据。因此,公司IT或者管理层要在这三者之间寻找一个动态的平衡,在有限的资金下满足安全和效率的需求。
图十九:芯片设计环境3大要素动态平衡
综上所述,在公有云上选择合适的安全服务,按照项目需求做好算力资源规划,利用好的CMP实现资源管理和监控,选择最优的上云方案满足3大要素的动态平衡成为上云是否成功的关键因素。
“云计算”从概念提出来伊始,就不是一个玩家的市场。国内主流云厂商如下图:
图二十:2019年中国IaaS公有云市场份额
目前市场上所有的云厂商会根据市场需求提供各种云服务以及比较复杂的价格体系,如果用户要在众多的云厂商之中寻找最优上云方案,了解和研究这些云厂商复杂的服务及价格体系本身就已经是一个”庞大“的工程了。摩尔精英ITCAD及EDA云计算事业部从2018年开始研究云计算,并在AWS及Azure上跑通了各种设计任务的POC,对于不同上云场景都做了深入的研究和尝试,并发布了2个上云白皮书,对于用户上云需求可以快速给出最优上云方案。
随时联系我们 MooreElite
邮箱:sales@MooreElite.com;电话:021-51137892
如果您有
芯片设计
流片封测
教育培训
等业务需求
欢迎随时扫码联系我们
今天是《半导体行业观察》为您分享的第2667内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|封测|射频|存储|美国|台积电
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!