Skip to content

云平台和基础设施安全

1 理解云基础设施和平台组件

1.1 物理环境

根据云部署模型的不同,CSP 的角色和物理安全的责任也有所不同。

  • 私有云:通常在组织本地部署,因此 CSP 就是组织自身,负责物理安全。还可以租用公有云独立空间部署,此场景下 CSP 是公有云服务提供商,由提供商负责物理安全。
  • 社区云:通常由社区成员、同时也是 CSP 负责物理安全,但也可以租赁公有云独立空间,与私有云情况类似。
  • 公有云:物理安全由 CSP 负责。

1.2 网络和通信

CSP 和云客户自己负责自己场所的网络安全,两者之间的网络(互联网)由双方共同负责通常涉及使用密码学,方式包括但不限于通信加密、传输前加密、专用线路等。

1.3 计算

计算资源包括虚拟机 (VM)、磁盘、处理器、内存和网络资源等基础设施组件,根据共享责任模型为 CSP 和云客户分配责任。

1.4 虚拟化

1.虚拟化管理程序类型

类型 1,也被称为裸机虚拟化管理程序,常用于云计算等企业解决方案,如ESXI。

类型 2,也被称为托管虚拟化管理程序,常用于个人需求或测试等环境,如VMware

2.虚拟化安全风险点

  • 虚拟化管理程序:包括补丁更新、身份验证、访问控制、日志记录等。
  • 虚拟化网络:主要是隔离性、访问控制、流量监控等。
  • 虚拟机 (VM) :与传统主机一样。

1.5 存储

CSP 负责存储的物理安全,云客户负责存储的逻辑安全,主要是数据的全生命周期保护

1.6 管理平台

管理平台(management plane)提供配置、监控和控制云环境所需的工具,主要是 Web 管理界面和 API,拥有云环境中最高特权。

  • 为管理平台的特权账号建立强密码策略,如使用密码短语。
  • 为管理平台的特权账号使用多因素身份验证 (MFA),如密码+手机验证码。
  • 根据业务需求选择访问控制模型,如 RBAC(基于角色)ABAC(基于属性) 等。

2 设计一个安全数据中心

2.1 逻辑设计

数据中心的逻辑设计指的是在 CSP 提供的云环境中构建云客户自己的数据中心,重点关注数据保护方面的安全控制。

1.租户分区

在云环境中,租户之间的分隔通常是逻辑隔离,通过访问控制来实现,对租户来说是透明的,即仅能访问自己的资源而不知道其他租户的情况。由于数据安全的责任是云客户的,为了避免出现隔离失效的情况,应采用加密技术保护数据,并妥善保管密钥。

2.访问控制

访问控制可通过客户现有 IAM 系统与云资源集成来实现,简化了账户和权限配置。避免本地和云资源混用的方法是使用身份即服务 (IDaaS),仅提供云访问的 IAM 管理

3.基线配置

4.通信连接

2.2 物理设计

1.位置

物理位置的选择主要考虑因素包括自然风险、距离用户的位置、稳定的公用设施等。

2.购买或建设

CSP 通常自建数据中心,拥有数据中心的最大控制权。云客户根据成本效益分析来决定购买公有云服务,还是自建或利用现有本地数据中心或租赁机房建设私有云或社区云。

2.3 环境设计

环境设计是 CSP 的责任,主要影响云资源的可用性。

1.供暖、通风和空调 (HVAC)

HVAC 受数据中心物理位置影响而又不同的侧重,北极的机房不需要空调、撒哈拉沙漠的机房不需要供暖,应具备充分性和冗余性。

2.多供应商路径连接

CSP 应采用多个互联网服务提供商 (ISP)的线路,从多个物理位置接入数据中心。

3.设计韧性

韧性(resilient)设计师为了积极应对变化或干扰,如自然灾害或人为干扰。

3 分析与云基础设施相关的风险

3.1 风险评估

1.识别

首先识别组织得关键资产,包括硬件、数据、人员、业务流程、关键供应商等,然后通过头脑风暴列举资产可能面临的风险。

2.分析

对列举的风险进行分析,确定每个风险发生的可能性以及影响。

3.常见的云风险

  • CSP 数据中心的地理分散性
  • 停机时间
  • 合规性
  • 一般技术风险

3.2 云漏洞、威胁和攻击

  • 广阔的受攻击面:公有云对整个互联网提供服务,因此组织可能被任何人攻击而受到连带风险。
  • 多租户环境风险:同一公有云中的其他租户可能对组织数据产生风险。
  • 第三方人员风险:供应商的员工可能无意或有意对组织产生风险。

3.3 风险缓解策略

  • 1.根据组织需求,选择符合要求的 CSP
  • 2.安全地设计和架构系统和服务
  • 3.采用加密技术保护云上数据
  • 4.持续监控云运营。

4 规划和实施安全控制

4.1物理和环境保护

  • 1.物理位置的选择。
  • 2.物理访问控制措施。
  • 3.稳定的公用设施供应。
  • 4.充足的人力资源。
  • 5.冗余的网络连接。

4.2 系统、存储和通信保护

NIST SP 800-53:信息系统和组织安全和隐私控制-系统和通信保护 (SC)

  • 策略和程序:指导安全活动的开展。
  • 系统和用户功能分离:职责分离原则的应用。
  • 安全功能隔离:职责分离原则的应用。
  • 拒绝服务保护:具备抗 DDoS 能力。
  • 边界保护:云环境出入口保护
  • 密钥安全管理:加密依赖密钥的安全性

4.3 云环境中的身份识别、身份验证和授权IAM

身份和访问管理 (IAM) 实践通常使用 IAAA 来描述,即识别、身份验证、授权和可问责性。

1.识别 (identification)

用户通过独特的东西,如用户名或用户 ID,来表明自己的身份。

2.身份验证 (authentication)

用户证明自己所表示的身份,包括密码、硬件令牌或生物识别,应采用多因素身份验证(MFA)来提高安全性。

3.授权 (authorization)

完成身份验证后授予用户访问资源的权限,根据组织需求选择不同的访问控制模型,按需选择云访问安全代理 (CASB) 来集中管控。

4.可问责性 (accountability)

通过记录用户访问活动和监控实现可问责性。

4.4 审计机制

由于云环境的特性,审计活动可能受阻,结合审查 SOC 报告能使审计活动更有效。

1.日志收集

确定要收集的事件类型,遵循数据保留策略决定留存时间,使用 SIEM 能够集中存储日志并进行关联分析,提高日志审查和监控的效率。

2.相关性

相关性 (correlation)指的是发现两个或多个事件之间关系的能力

3.数据包捕获

数据包捕获或 pcap 是指对网络通信数据包的捕获,可用于监控网络活动,检测恶意网络活动以及网络攻击行为,并能够提供最准确的网络溯源证据。

5 规划灾难恢复和业务连续性

5.1 业务连续性/灾难恢复策略

业务连续性/灾难恢复(BC/DR)计划是为了确保组织在发生不利事件后能够继续运营。业务影响评估 (BIA)用于识别关键业务流程,并确定业务流程的优先级。BCP 在专注于灾难发生后保持业务运营,而 DRP 专注于使业务运营恢复正常。

5.2 业务需求

规划 BC/DR 计划时,组织应考虑三个重要指标

1.恢复时间目标 (RTO)

为每个系统确定最大容忍停机时间 (MTD),并设计恢复时间目标(RTO),即系统崩溃到恢复所需要的时间,使 RTO<MTD 以确保组织不会受到严重影响。

2.恢复点目标(RPO)

恢复点目标 (RPO)用于衡量系统崩溃时容忍损失的数据量。常用于指导备份策略的制定,备份频率越高、成本越大、RPO 越小。

3.恢复服务水平 (RSL)

恢复服务水平 (RSL)用于衡量灾难发生时保持生产环境运行所需的计算资源 (0~100%)

5.3 计划的构建、实施和测试

1.计划的创建

BC/DR 计划创建的关键是执行业务影响评估 (BIA),识别关键业务流程并进行优先级排序,并设计相关控制措施以保障恢复能力。

2.计划的实施

BC/DR 计划的实施依赖高级管理层的支持,因为计划的有效实施依赖充足的资源

3.计划的测试

BC/DR 计划应定期进行测试以确保其有效性。

  • 通读测试(Read-Through Test):也叫检查单测试 (checklist tests),向灾难恢复团队成员分发 DRP 副本进行内容审查。
  • 结构化演练(Structured Walk-Through):也叫桌面练习 (tabletop exercise),灾难恢复团队成员开会扮演灾难时自己负责的角色职责,讨论可能需要优化的部分,此类型测试可能涉及人员实际活动,如逃离办公楼。
  • 模拟测试(Simulation Test):与结构化演练类似,但某些响应措施会进行测试,可能会中断非关键业务活动或占用运营人员。
  • 并行测试(Parallel Test):涉及将人员重新安置到备用恢复站点并实施站点激活程序,但主站点仍负责处理日常业务。
  • 完整中断测试 (Ful1-Interruption Test):涉及直接关闭主站点的运营,并在备用站点启动激活程序,风险非常大,通常不会进行此类型测试。