查看原文
其他

芯片设计上云-挑战篇

引言


“创新从来都是九死一生,但我们必须有‘亦余心之所善兮,虽九死其犹未悔’的豪情。”
— 习近平, 中科院第十九次院士大会
 

对于云计算这个相对比较新的技术,半导体行业相比其它行业,例如:金融和互联网等,企业上云还处于非常早期的阶段,上云速度也非常缓慢。除了半导体行业产业链比较冗长和封闭之外,所有半导体企业,尤其是芯片设计公司在此次“数字转型”过程中不可避免的会碰到以下的挑战:


挑战一:数据安全


对于芯片设计公司来说,公司的所有设计数据是公司的生命线。如何保护芯片设计数据一直是芯片设计公司安全策略的主旋律。

 

数据安全防护一般分为外部安全防护和内部安全防护,好的数据安全防护策略都会从防止外部攻击和内部泄露两个方面来考虑制定。


摩尔精英ITCAD及EDA云计算部门根据芯片设计公司安全需求,从防止外部攻击以及内部泄露两方面考虑制定了符合行业特色的“安全体系”并提供了相应的”安全管理及流程平台“(见下图)。具体的细节将在芯云芯安的安全系列文章中详细阐述。

 

图一:摩尔精英“安全管理及流程平台”


  • 防外部攻击


一直以来,企业安全与黑客攻击,就像 DNA 的双螺旋结构一样,“一攻一守”交替地演变进化。目前对于大多数半导体企业来讲,还是沿用内外网隔离加安全产品这种传统的安全防护策略来防止外部攻击从而保护设计数据安全。
 
目前我们看到黑客对于某个ID的行为分析只要通过特定的场景,学习用户的行为,就能轻易得到他们所需要的信息,并利用此用户的信息轻易攻破企业安全防护墙并窃取企业机密信息。因此,如何对企业所有员工的账户信息进行加固和防御,成为了企业安全的核心话题,其安全边界,也慢慢从设备或者服务器,转向企业员工的信息进行转移。加强用户身份识别和验证将成为企业安全防护最为重要的因素。 
 
从安全产品来看,我们从最基础的终端设备的防护说起,加固宿主机,补丁升级,保持软件时刻最新,另外还有防火墙的配置,杀毒软件的选择,访问控制机制的设定等是目前最为常见的安全产品的组件。然而,在现实中,面对一直在迭代,推陈出新的威胁,仅仅依靠单一的某种安全组件,例如杀毒软 件,或者网关等,已经远远不够了。并且各种保护工具来自不同的供应商,并且没有互操作性标准,因此几乎很难去快速地做出协调的响应。例如,如果想要阻止 Nimda 蠕虫的传播,就需要企业从防病毒软件、入侵防护和防火墙三个维度,将出现地异常情况汇总分析,才能真正找出是何种病毒造成的影响。
 
同时为了应对今后其他威胁的防范,企业安全框架的可伸缩性是个必须考虑的问题。企业如果要应对持续增加的威胁,就必须扩大特定类别攻击(例如蠕虫和病毒签名)的知识库的规模,例如需要当前体系结构下的产品能够不断扩展其数据库。伸缩性除了指的是平台硬件或应用层面,容量的可伸缩性,还有一个就是其安全功能的可伸缩性,企业安全平台或者应用程序是否可以扩展用来应对新型的威胁或者有防御机制来应对全新的威胁。 
 
因此,任何企业希望想去搭建一套完备的安全平台,必须要去衡量其在人力招收上的成本投入,产 品选型上的风险,以及平台应对未来的不确定性等各个因素,这样的一个平台的成功,已经不再只是企业投入的资金的多少来决定了。
 
目前企业依靠财力雄厚,数据中心安全系数顶尖的云厂商来进行数据安全保护也成为一个很明显的趋势,这也是企业进行“数字化转型”的一个动力。

近两年来,我们对云计算的安全问题进行了广泛的研究,对云计算的安全体系有了更深入的理解。大多公有云厂商拥有更为专业的安全专家团队,更为完善的安全技术和产品,以及最新最全的病毒库等,他们每天都需要面临来自全球的数以百万计的各类专业性攻击。公有云厂商的安全体系和防护能力,对于私有云或企业自建数据中心来说,不是一个等级的。下面我们以微软Azure云为例进行探讨。


在Azure上进入到实际的应用之前,平台会有5层安全防护。
 

图二:Azure的分层云安全技术
 
1)DDos安全防护
DDoS 攻击是一种常见的也是危害较大的网络攻击方式,其攻击类型多样,对网络安全防护措施也要求比较高。Azure 平台本身启用了基本的 DDoS 防护功能,持续监测网络中的异常流量,实时进行风险防护,为 Azure 平台上的用户资源提供实时保护。
 
2)LB/NAT路由安全
出站SNAT支持:所有出站虚拟网络流量 IP 地址将转换为 Azure 防火墙公共 IP(源网络地址转换,SNAT)。
入站SNAT支持:转换到防火墙公共 IP 地址的入站 Internet 网络流量(目标网络地址转换,DNAT)并将其筛选到虚拟网络上的专用 IP 地址。
 
使用 Azure 公共负载均衡器的前端 IP 为后端实例提供到 Internet 的出站连接。 此配置使用源网络地址转换 (SNAT)。SNAT 将后端的 IP 地址重写为负载均衡器的公共 IP 地址。

SNAT 启用后端实例的 IP 伪装。 此伪装可以防止外部源直接访问后端实例。 在后端实例之间共享 IP 地址可降低静态公共 IP 的成本,并支持简化带有来自已知公共 IP 的流量的 IP 允许列表等场景。
 
3)NVA/WAF 病毒WAF安全防护
网络虚拟设备(即 NVA)是可通过控制路由来控制网络流量流的虚拟机。通常使用它们来管理从外围网络环境流向其他网络或子网的流量。
NVA 通常包含各种保护层,例如:
  • 防火墙

  • WAN 优化器

  • 应用程序交付控制器

  • 路由器

  • 负载均衡器

  • 代理

  • SD-WAN 边缘


图三:混合云网络拓扑
 
Web 应用程序防火墙(WAF)是应用程序网关的一项功能,可在出现常见攻击和漏洞时为 Web 应 用程序提供集中的入站保护。Azure 应用程序网关通过 Web 应用程序防火墙 (WAF) 在 Region 内部集中保护 Web 应用程序, 使其免受常见攻击和漏洞的侵害。集中式 Web 应用程序防火墙有助于大幅简化安全管理。WAF  还能为抵卸威胁和入侵的应用程序管理员提供更好的保障。 
 
4)NSG & UDR
网络安全组(Network Security Group, NSG)是一种静态数 据包筛选防火墙,提供基本的网络级别访问控制(基于 IP 地址和 TCP 或 UDP 协议)。用户通过使用网络安全组,可以简化管理,减少配置错误的可能性。
 

用户定义的路由 (User Define Route,UDR) :对于大多数环境,已由 Azure 定义的默认系统路由足以使环境正常运行。但在某些情况下,应创建路由表并添加自定义路由。示例包括:

  • 使用强制隧道通过本地网络访问 Internet;
  • 用虚拟设备控制流量流。
 
5) Firewall防火墙
‎Azure 防火墙‎‎是一种托管的基于云的网络安全服务,可保护 Azure 虚拟网络资源。‎
 

图四:Azure防火墙
 
Azure 防火墙包括以下功能:
  • 内置的高可用性

  • 可用性区域

  • 不受限制的云可伸缩性

  • 应用程序 FQDN 筛选规则

  • 网络流量筛选规则

  • FQDN 标记

  • 服务标记

  • 威胁情报

  • 出站 SNAT 支持

  • 入站 DNAT 支持

  • 多个公共 IP 地址

  • Azure Monitor 日志记录

  • 强制隧道

  • Web 类别 (预览)

  • 认证

 
  • 防内部数据泄露


威瑞森最近的一份《数据泄露调查报告》(DBIR)显示,全年25%的攻击都是内部人所致,主要是求财、找情报,或者就是一时疏忽或误操作了。内部数据泄露在半导体行业特别是在国内,发生的概率更高,因此,如何防止内部人员泄露设计数据也是半导体行业安全方案的重要组成部分。
内部人员因为工作原因不可避免的要接触芯片设计数据,因此纯粹的”安全技术“已经无法完全保证设计数据安全了,一个完整的安全体系一定是安全管理制度加上安全技术部署。
 
比如,公司会制定”电脑使用手册“、”实验室管理规章“等等,这些都是出于安全原因制定的管理制度,对所有内部人员都有约束和教育作用。而我们常常听到“禁掉USB”,“禁止copy+paste"等的功能则是通过安全技术来实现信息安全要求。
 
安全管理制度将由公司管理层跟据公司安全需求及文化制定相应的可操作性的制度,并由相应的检查和审计机制,并根据公司发展情况不断完善。
 
防止内部数据泄露的安全技术及产品也多种多样,这些技术主要要关注以下三个重要方面:
  • 权限最小化原则
首先对设计数据和应用进行分类,并根据项目需求对数据和应用设定用户访问权限,保证给到用户只能访问到工作所需的必要数据和应用。
  • 数据传输通道管控原则
在设计环境中将不同的应用和数据放到不同的子网中,并在缺省的情况下保证这些子网的逻辑隔离,数据在不同的子网之间传输需要经过严格的管控,比如:数据从所属子网中传出或者传入需要审批,保证设计数据不会被泄露。摩尔精英推出的”摩尔云舟“就是这样一个符合芯片设计环境的数据传输通道管控工具。
  • 数据灾备原则
设计数据分类以后,要根据数据的重要程度制定不同灾备策略,防止系统突然宕机或者某种恶意删除造成的数据破坏,从而保证数据的完整性。
 
Azure也根据以上3个原则提供了很多数据保护机制和服务。
 


图五:Azure数据安全保护机制
 
另外,对于用户账户信息泄露导致用户身份识别的问题,Azure也提供了AAD(Azure Active Directory)的服务实现了“零信任”模型。

零信任模型不相信公司防火墙背后的所有内容都是安全的,而是假定存在漏洞并会验证每个请求,就如同它来自不受控制的网络一样。无论请求来自何处或者它要访问哪些资源,零信任都教导我们“从不相信,始终验证”。

在零信任模型下,每个访问请求都将经过严格的身份验证,在策略限制内获得授权,系统还将检查它是否存在异常,然后才向它授予访问权限。从用户身份到应用程序托管环境等所有内容都将经过评估以防止违规。应用微分段和最小特权访问原则来尽量减少横向移动。最后,丰富的智能和分析帮助我们确定发生了什么、哪些内容遭到泄露,以及如何防范再次发生。
 

图六:Azure的“零信任模型”
 
当然,我们也看到了很多用户在上云之前对云供应商的公信力还有一些存疑,对于数据放在公有云存储上的管理策略有些担忧。针对这些担忧,Azure在用户数据管理上的原则也是非常清楚的:
 

图七:Azure用户数据管理原则一
 

图八:Azure用户数据管理原则二
 
关于上云安全问题,芯云芯安将会在后续的关于安全主题的系列文章中详细论述,请大家关注后续文章。

 

 

挑战二:上云成本


目前芯片设计云计算方案主流分为两种:混合云和全云。

 

图九:EDA云计算的混合云模式和全云模式

 

混合云模式比较适合已有本地算力但算力无法满足高峰期需求的用户,公有云算力作为本地算力的一个有力补充。这种算力扩展对于用户来说是个临时短期的需求,可以通过各个云厂商提供的弹性算力策略来实现,其成本就是这个短期的机时租用费(即租即用,按时收费),相比较线下的固定资产扩容投资(机房+算力+运维费用),其优势显而易见,这里就不在用成本模型来阐述了。

 

图十:EDA云计算的混合云算力满足示例

 

全云模式比较适合项目或者项目某个步骤全部上云的用户,在公有云完成整个项目或者项目的某个完整步骤,减少线上和线下的数据交互。这种算力对于用户来说要满足整个设计项目或者这个步骤的需求,即利用公有云的无限资源池满足以下需求曲线:

 


图十一:芯片设计项目资源需求曲线

 

我们以一个小型计算集群为例,一个50人的研发团队大约需要10台HPC服务器,存储按50T估算,私有云和公有云的静态成本(单位:万元,人民币)比较如下:

 

图十二:私有云和公有云成本对比

 

私有云的投资包含了机房建设、运维及各种软硬件的采购成本,此例中没包含IT人工成本。此处公有云的价格按照3年CPP来估算。


在实际项目中,我们会建议用户使用3年CPP搭建固定资源池满足最基本的计算需求,再加上on-demand资源满足浮动算力需求来进一步优化上云成本,使得资源供给更加贴合图十一的”芯片设计项目资源需求曲线“。


在最近的一个芯片上云项目中,摩尔精英ITCAD及EDA云计算部门根据用户项目算力需求,制定了完整的上云方案,使得一个20人左右的射频设计团队在不到20万每年的成本短短1周内完成了上云。

 

以下是一个真实的使用Calibre进行DRC任务的案例,其成本由算力每小时成本*运行时间构成,其成本分析如下:

 

图十三:Calibre DRC云计算成本节约实例

 

由此可见,在公有云上选择合适的计算实例并制定详细的算力使用计划是完全可以实现成本优化的。

 

挑战三:上云工作效率



芯片设计环境的工作效率可以分为2个方面:运行效率和维护效率。


  • 运行效率


半导体行业的蓬勃发展以及国家层面的大力支持,使得国内半导体企业如雨后春笋般涌现,2019年共增加了438家半导体公司。越来越多的半导体公司使得这个行业的竞争愈发激烈,对于产品上市时间的要求也越来越高。

 

公有云的“无限”算力是芯片设计公司减少“上市时间”的最有效途径。我们通过一个简单的数学模型来说明,假设某个芯片设计任务一共需要1000个并行作业来完成:

 

图十四:云计算缩短“上市时间”

 

通过”无限“的算力池,公有云可以让这个设计任务快速完成,从而缩短产品“上市时间”。

 

当然,真正的芯片设计远比上述的模型复杂的多,运行时间和算力并不是一个线性关系,而是一个接近线性的曲线:

 

图十五:计算时间和CPU需求数量曲线

 

通过分析大量的云计算案例,我们也看到了云计算对于芯片设计来说在运行效率上都会带来极大提升。

案例一:台积电与Synopsys与Cadence利用微软Azure上的高性能计算(Avere/Cyclecloud)架构在20分钟之内大量打开10万个虚拟机,大大缩短了5nm的开发时间,提前9个月量产。

案列二:Mentor 、AMD、台积电在微软Azure上10小时完成7nm的物理验证:

 

图十六:7nm物理验证私有云和Azure云对比

 

这些都是公有云提供“大量”算力减少设计时间的成功案例。当然,无限制的在公有云上开启算力对设计成本也带来了很大的压力。因此,我们必须在效率和成本之间寻找一个平衡点。

 

以下是一个典型的“效率”和“成本”平衡的例子,用户可以根据对“效率”和“成本”的 要求选择合适的方案。

 

图十七:Azure效率和成本图

 

  • 维护效率


EDA设计环境是个比较复杂的系统,为了支撑芯片设计工作,系统必须要有高可靠性,高安全性,高稳定性和高效性,维护这么一个复杂的环境往往需要大量的人力和物力的投入。

 

云计算提供了基本的IT基础架构,使得用户不用关注底层/物理层面的传统IT维护工作,比如:机房建设和维护,物理机的上架和互连等。用户只需关注及优化操作系统以上以及应用层面的工作即可,公司的IT人员的工作量将极大减少。最近摩尔精英ITCAD及EDA云计算部门交付的一个上云服务项目,将之前的线下2周的设计环境搭建工作在微软Azure上仅用了2天完成,实现了快速交付的用户需求。

 

最典型运维的案例——停电支持:在私有云生产环境中难免会发生,可能是园区停电,可能是用户搬家等引起的IT支持需求,往往在这种情况下,IT要从停电支持计划,协调停电事宜,关闭设计环境,来电重启设计环境,设计环境验证等各个环节进行支持,如果在任何一个环节没有做好,可能整个设计环境就会受到破坏,甚至导致设计数据丢失。然而,在公有云的高可用性保证下,这种需求几乎不存在,大大降低了公司IT运维工作。

 

同时,目前公有云的算力都依靠虚拟服务器来提供,虚拟化技术的广泛应用使得“真远程”支持以及自助运维成为可能,市场上大量的云管平台CMP都实现了这些功能,下图是一个典型的CMP资源管理示意图,利用这些CMP也将会大大提高维护效率。

 

图十八:某CMP管理平台

 

芯片设计无论是在私有云还是公有云上进行,安全、成本和效率都是用户需要考虑的3个关键要素,三者之间有着密不可分的关系。安全级别越高,公司需要投入更多的资金,对设计用户来讲可能操作起来更加复杂,效率会有所影响,比如:设计环境使用网络隔离来保护设计数据,公司需要购买服务器搭建VDI平台,用户会增加一层登陆来访问设计数据。因此,公司IT或者管理层要在这三者之间寻找一个动态的平衡,在有限的资金下满足安全和效率的需求。

 

图十九:芯片设计环境3大要素动态平衡

 

综上所述,在公有云上选择合适的安全服务,按照项目需求做好算力资源规划,利用好的CMP实现资源管理和监控,选择最优的上云方案满足3大要素的动态平衡成为上云是否成功的关键因素。

 

“云计算”从概念提出来伊始,就不是一个玩家的市场。国内主流云厂商如下图:

 

 

图二十:2019年中国IaaS公有云市场份额

 

目前市场上所有的云厂商会根据市场需求提供各种云服务以及比较复杂的价格体系,如果用户要在众多的云厂商之中寻找最优上云方案,了解和研究这些云厂商复杂的服务及价格体系本身就已经是一个”庞大“的工程了。摩尔精英ITCAD及EDA云计算事业部从2018年开始研究云计算,并在AWS及Azure上跑通了各种设计任务的POC,对于不同上云场景都做了深入的研究和尝试,并发布了2个上云白皮书,对于用户上云需求可以快速给出最优上云方案。


参考文献:
1. 《Security Whitepaper》--- Microsoft
2. 《芯片设计云计算白皮书 1.0》 
3. 《中国芯⽚设计云技术⽩⽪书2.0》 


随时联系我们 MooreElite

官网:www.MooreElite.com;
邮箱:sales@MooreElite.com;
电话:021-51137892

如果您有

芯片设计

流片封测

教育培训

等业务需求

欢迎随时扫码联系我们


今天是《半导体行业观察》为您分享的第2667内容,欢迎关注。

推荐阅读


国产汽车能重演手机的辉煌吗?

那些异军突起的IP公司

愈演愈烈的晶圆代工


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|封测|射频|存储|美国|台积电

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存