云数据安全

1 描述云数据概念

1.1 数据生命周期

创建 (create):创建新数据或修改已有数据，涉及数据分类以及分配安全控制等。
存储(store):创建数据的同时伴随存储数据，涉及存储位置的选择、访问控制、加密、备份等。
使用(use):包括数据的访问、查看和处理，涉及访问控制、加密、日志审计等。
共享(share):两个实体或系统间交换数据，涉及访问控制、加密、哈希等。
归档(archive):数据不再使用进入长期存储，涉及数据保留、存储位置的选择、访问控制、加密、备份等。
销毁 (destroy):数据进行生命周期的终点，涉及数据净化。

1.2 数据离散

数据离散(data dispersion)指在云计算环境中使用的一种技术，将数据分割成更小的块，并将其存储在不同的物理存储设备上，并使用擦除编码(erasure coding)允许某些片段丢失时可以重建数据。

优势:由于使用了擦除编码技术，因此提高了数据的可用性.
风险:数据处理效率降低;不同国家的管辖权问题。

1.3 数据流

数据流图 (DFD)有助于提高云环境中数据流转的可见性，并确保实施适当的安全控制。

2设计和实施云数据存储架构

2.1 存储类型

1.基础设施即服务 (IaaS)

临时(ephemeral):VM实例的操作系统 (OS)存储，VM 断电数据就会丢失。
原始(raw):原始设备映射 (RDM) 允许特定云 VM 访问存储逻辑单元号 (LUN)-物理硬盘上的云硬盘。
长期 (long-term):通常设计用于满足组织的记录保留或数据归档需求。
卷(volume):类似于连接到计算机的传统驱动器，可将数据存储在预定大小的块中，其可用于实现数据离散。
对象(object):类似于在网络上访问 Unix共享节点或 windows 文件服务器，数据通常以文件的形式作为对象存储和检索，用户可以使用文件浏览器与数据对象交互。

2.平台即服务(PaaS)

磁盘 (disk):一个虚拟磁盘，可以连接到 PaaS 实例，可以采取卷或对象存储的形式-类似于IaaS中的卷。
数据库 (databases):数据库将以多租户模式提供，客户端之间具有逻辑分离，通过对数据库的 API 调用进行数据访问。
二进制大对象(blob):非结构化数据，通常是由应用程序生成的文本文件、图像或其他二进制文件，允许用户生成自由格式的内容。

3.软件即服务(Saas)

信息存储和管理:允许用户通过 Web GUI 输入数据并对其进行操作，数据存储在由 CSP管理的数据库中。
内容和文件存储:数据以用户可以创建和操作的文件的形式存储在 SaaS 应用程序中。
内容分发网络 (CDN):CDN 提供了地理上分散的对象存储，使组织能够尽可能靠近用户存储内容。

2.2 存储类型的威胁

非授权访问:任何非授权的数据访问都应该阻断。
非授权配置:按需自助服务的便利性可能产生影子 IT 问题，导致运营成本增长和安全风险。
监管不合规:不合规可能导致组织停止运营或罚款。
管辖权问题:不同国家的法律要求不一样,需要确保数据的地理位置与其安全控制一致。
拒绝服务:广泛的网络访问可能导致云计算服务遭受 DDoS 攻击。
数据损坏或破坏:数据输入中的人为错误、恶意内部人员篡改数据、硬件和软件故障或自然灾害等问题都可能导致数据或存储介质无法使用。
介质丢失或被盗:基本全是 CSP 的责任，但仍需加密数据提供额外保护。
恶意软件和勒索软件:适当的访问控制和反恶意软件工具可以防止或检测恶意软件活动而数据备份和版本控制可以对受到恶意软件影响的数据采取有效的应对措施。
不正确地处置:基本全是 CSP 的责任，但仍需加密数据提供额外保护。

3 设计和应用数据安全技术和战略

3.1 加密和密钥管理

加密(encryption)是对数据进行数学转换以使其不可读的过程，通常需要使用密钥(key)，实现转换所采取的步骤称为算法(algorithm)，流行的算法有 Rijndael、RSA、ECC 等Kerckhoffs 原则指的是一个密码系统的安全性只依赖密钥的安全性。

1.密钥管理最佳实践

使用如随机数噪音输入创建强随机密钥
安全存储密钥：以安全的方式存储密钥，无论是在密钥库中加密还是存储在物理设备上，并在密钥丢失时处理存储副本以供检索的过程，该过程称为密钥托管(key escrow)
安全使用密钥：安全地使用密钥，主要关注访问控制和可问责性
安全共享密钥：由于密钥的高度敏感性质，共享密钥并不常见，但应该存在共享公钥、安全地将对称密钥传输给通信伙伴以及将密钥分发给密钥托管代理的设施
归档密钥：归档不再需要常规使用但可能以前加密数据所需要的密钥
安全销毁：安全销毁不再需要或已损坏的密钥

2.加密类型

存储级加密:使用 CSP 控制的密钥在数据写入存储时提供数据加密。
卷级加密:使用由云客户控制的密钥，对写入到连接到特定 VM 实例的卷的数据进行加密。
对象级加密:在所有对象写入存储时 (CSP 控制密钥)或写入之前(云客户控制密钥)执行加密。
文件级加密:通常在客户端应用程序(如 Microsoft Word)中实现，密钥由云客户控制。
应用级加密:通常使用对象存储在应用程序中实现，用户输入或创建的数据在存储之前由应用程序加密。
数据库级加密:可以通过加密数据库文件在文件级执行，或者可以利用数据库管理系统(DBMS)提供的透明加密，用于加密特定列、整个表或整个数据库。

3.2 哈希

哈希 (hashing)有时也被称为单向加密 (one-way encryption)，主要用于检查完整性以及密码安全存储。不安全的哈希算法可能会导致冲突 (collision)，即两个不同的输入产生与输出相同的哈希值，这将导致哈希算法不可靠。

3.3 数据混淆

当敏感数据用于其他目的时，为了保护敏感数据或满足合规要求，需要删除或替换敏感数据元素或字段，这被称为混淆(obfuscation)

替换 (substitution):通过将一些信息交换为其他数据来实现。
混排(shuffling):移动数据改变数据排序来实现，数据仍是真实的。
数值方差 (value variance):将数学变化应用于主要数字数据。
删除或空值化 (deletion or nullification) :用空值替换原始数据。
屏蔽(masking) :类似于混淆处理，可用于防止敏感数据的泄露，而无需移除数据本身。
假名化(pseudonymization):使用假名混淆数据的过程，存在一个映射表能够逆向该过程，还原真实数据。
匿名化 (anonymization):又称去标识化(de-identification)，删除数据中能够直接或间接标识个人身份的数据，使数据匿名且不可逆的过程。
令牌化 (tokenization):创建并使用敏感数据的非敏感表示(也称为令牌 token)来代替敏感数据的过程，是支付卡行业数据安全标准(PCI DSS)合规性的建议控制措施。

3.4 数据防泄漏

数据防泄漏 (DLP)是一种技术系统，旨在识别、盘点和控制组织中敏感数据的使用。

1.DLP 常见组件

管理中心:管理终端和网络代理的平台，负责策略的配置和下发以及安全态势的监控。
终端代理:运行在终端侧的代理软件，识别终端上的敏感数据、执行防护动作。
网络代理:运行在网络侧的硬件设备，识别流量中的敏感数据、执行防护动作-补偿措施。

2.DLP 核心功能

发现 (discovery):识别、分类和盘点数据资产。
监控(monitoring):监控敏感数据的移动、存储和使用。
执行 (enforcement):根据预设规则执行告警、拦截、日志记录等动作。

4 数据发现

4.0 基础概念

数据发现的两个主要目的，一是通过DLP 识别组织内数据，建立关键数据资产清单;二是发现数据中趋势和有价值的情报。

元数据 (metadata) :描述数据的数据。
数据湖(data lake) :整合大量数据，存储非结构化数据。
数据仓库 (data warehouse):整合大量数据，存储结构化数据。
标准化 (normalization) :将不同格式的数据转换为通用格式，也称提取、转换、加载(ETL)。
数据集市 (data mart) :包含己入库、分析并可用于特定用途的数据。
数据挖掘(data mining) : 发现、分析和提取数据模型的过程。
在线分析处理 (online analytic processing，OALP):提供数据的分析处理能力。
机器学习/人工智能训练数据 (ML/AI training data) :顾名思义。

4.1 结构化数据

结构化数据是指以一致方式格式化的数据，如数据库，易于数据发现。

4.2 非结构化数据

非结构化数据是指不遵循通用格式存储的信息，如图片，不易于数据发现。

1.数据标签

标签可以标识文件的分类级别，通过识别标签为数据应用适应的安全控制

显式
隐式

2.内容分析

模式匹配(pattern matching);将数据与已知格式进行比较，即正则匹配。
语法分析 (lexical analysis):试图理解数据的含义和上下文，以发现可能不符合特定模式的敏感信息，易产生误报。
哈希 (hashing):计算文件哈希值与已知敏感数据的哈希值做比较，适应固定不变的文件。

4.3 半结构化数据

具有某种结构但不是严格结构化的数据，如JSON，应采用综合的数据发现方法。

4.4 数据位置

数据的位置将影响其可发现性和用于执行发现的工具的选择。特别是在云环境，数据可能被存储在不同的国家或地区，管辖权问题可能影响数据发现活动，云提供商是否支持数据发现工具，这都影响数据发现的结果。

5 数据分类

5.1 数据分类策略

1.常见敏感数据类型

个人身份信息 (PII) :标识个人身份相关的信息。
受保护的健康信息 (PHI):属于 PII，聚焦于医疗保健相关。
持卡人数据环境(CDE):信用卡、借记卡以及交易相关的信息。

2.数据分类策略的常见元素

不同分类级别固有的合规要求
数据保留和处置要求
哪些数据被视为敏感数据或受监管数据
适当或批准数据用途
访问控制和授权
加密需求

5.2 映射

数据映射(data mapping)是将数据规范化和转义后使不同组织或部门都能理解数据的过程。数据分类分级工作必须进行数据映射，以便接收数据的组织或系统能够识别数据的重要程度,匹配执行相应保护措施。

5.3 标记

1.需要标记的资产类型

硬拷贝材料:主要是印刷在纸上的信息，可以用印刷水印、印戳或物理容器标记。
物理资产:包括服务器、工作站、磁盘驱动器、光盘和可移动介质，这些介质可以贴上标签或徽章。
数字文件:通常来自办公工具、数据库等电子资料，通常可以用元数据标记。

2.标记最佳实践

标签的级别应与所存储数据的最高级别保持一致
标签不应该暴露太多信息
任何级别的数据都需要标签
发现未标签存储时应以最高级别分类对待

6设计和实施信息权利管理

6.1 基础概念

信息权利管理 (IRM) 是一种执行访问和使用限制的方法。

消费者级 IRM:通常称为数字版权管理(DRM)，侧重于控制受版权保护的材料的使用复制和分发。
企业级 IRM:强制实施复制保护和使用限制，侧重于控制数字文件和内容的访问。

6.2 IRM目标

持久性 (persistence) :控制紧跟数据，不会轻易被更改。
动态策略控制(dynamic policy control):随时调整数据的访问权限，这要求数据所在设备必须联网。有效期 (expiration):对数据进行限时访问。
持续审计跟踪(continuous audit trail):能够审计数据被谁、什么时间、传给过谁等内容。
互操作性 (interoperability):能够为不同系统类型的用户提供支持。

7 规划和实施数据保留、删除和归档策略

7.1 数据保留策略

数据保留主要由运营成本需求和合规要求驱动，必须满足合规要求，再平衡运营需求和运营成本决定数据保留策略。

1.存储成本和访问需求

存储成本需要和访问数据的速度要求相互平衡，特别是使用云备份。

2.特定法律和监管要求的保留期限

健康保险携带和责任法案 (HIPAA):影响所有美国居民并规定与 HIPAA 合规计划有关的文件，保留期为 6 年。患者医疗数据的保留未明确要求，但只要患者处于活动状态,数据就必须保留。
通用数据保护条例(GDPR):影响欧盟公民的数据，不设定特定的保留期限，但数据主体要求遗忘权或组织违法，则必须理解删除数据。

3.数据保留实践

时间表:数据必须保留的时间段。
完整性检查:定期检查数据的完整性。
检索程序:具备访问数据适当的授权步骤。
数据格式:考虑数据的保存格式，以防未来不可读。
加密算法:加密数据的算法是否会随着时间流逝变的不可靠。
完整性检查:定期检查数据的完整性。
电子发现:保留的数据需支持合规要求的事件调查。

7.2 数据删除流程和机制

当运营需求不再需要数据，并且数据已保留到规定的合规期内时，可以将其处理掉。

NIST SP 800-88 介质净化指南

清理(clear):删除数据映射链接使其不可见，易恢复、不适用敏感数据。
清除(purge) :使用专业工具，完成覆写、消磁、加密擦除等完成数据的安全清除。
销毁(destroy) :物理上销毁存储介质以达到销毁数据，最安全的方法。

7.3 数据归档流程和机制

数据归档是指出于各种目的将数据放置在长期存储中主要考虑数据从临时存储移动到长期存储过程的传输安全，归档数据的存储安全以及访问控制安全。

访问控制
加密存储
完整性校验
恢复测试
数据格式
检索程序

7.4 法律保留

法律保留(legal hold)是指数据牵扯法律诉讼时，法部门要求相关数据必须保留，涉及该部分数据的保留计划暂停执行，直至解除法律保留。

8 设计和实施数据事件的可审计性、可追溯性、可问责性

8.1 事件源的定义和事件属性需求

1.跨所有服务器和设备的时间同步

日志中事件的时间戳对于建立特定用户执行的活动链至关重要。

2.不同的分类方案

不同的应用程序和平台将使用不同的元数据对事件进行分类。

3.身份属性

事件分析最终要确定是谁干了什么事，识别用户唯一性非常重要

用户身份:用户名相关，如UID、GUID 等。
IP 地址:用户使用设备的逻辑地址，内网可控相对可靠，外网易伪装。
地理位置:可使用 IP 地址或 GPS 定位用户的地理位置。

4.特定应用程序日志

应用程序可能提供生成日志的能力，但日志格式差异较大，需要标准化处理。

5.日志文件的完整性

日志容易被篡改，导致事件分析不准确。

8.2 数据事件的日志记录、存储和分析

组织每天会产生海量数据，必须依靠专业工具进行审查才能保障效率和准确性.安全信息和事件管理(SIEM)的关键功能

日志集中和聚合:平台能够采集所有设备的日志进行统一存储。
数据完整性:平台具备访问控制，非授权用户无法查看日志。
标准化:日志格式统一化处理。
自动或持续监控:根据规则对事件进行关联分析，提高潜在攻击的检测能力。
告警:自动向管理员告警或与其他安全设备联动执行动作。
调查支持:支持对历史数据的手工审查。

8.3 监管链和不可否认性

监管链(chain of custody):一个关于证据是如何处理的、由谁处理的、从收集到作为证据呈现的可辩护记录，用以证明收集的证据是可信的，能够用于呈堂证供。
不可否认性(nonrepudiation):可以明确要求特定用户对特定动作负责的特性，依赖身份标识、身份验证、日志记录、完整性检查等多种技术共同维护。