从新版《个人信息安全规范》看匿名化和去标识化的区别与应用场景

网络整理 2022-05-13 09:11

从新版《个人信息安全规范》看匿名化和去识别化的区别及应用场景

文/孙艳华Monica（极光大数据）

背景简介

2020年3月6日，国家市场监督管理总局、国家标准化管理委员会发布了《信息安全技术个人信息安全规范》（GB/T 35273-2020代替GB/T 35273-2017，以下简称《信息安全技术个人信息安全规范》）新版《个人信息安全规范》). 安全规定""). 新版《个人信息安全规范》规定了个人信息处理活动如收集、存储、使用、分享、转让、公开披露、删除。本文针对的是新版“匿名化”和“去标识化”两个技术术语。《个人信息安全规范》在规范个人信息处理活动的过程中，从定义、技术方法和应用场景三个方面明确概念，分析总结，希望帮助企业或组织在具体场景和实际业务中做出决策.

除非另有说明，新版个人信息安全规范中定义的术语和定义适用于本文档。

匿名化和去识别化的定义区别

从定义上看，根据新版《个人信息安全规范》第3.14条，匿名化是指对个人信息进行技术处理，使个人信息主体无法被识别或关联，以及处理过的信息无法恢复的过程。新版《个人信息安全规范》的规范思想符合《网络安全法》。根据《网络安全法》第四十二条，未经被收集人同意，不得向他人提供个人信息。但是，例外是处理无法识别特定个人并且无法恢复。“附带条件”

此外，值得注意的是，新版《个人信息安全规范》有特别说明，个人信息匿名化后获得的信息不属于个人信息。因此，匿名化后的信息不适用新版《个人信息安全规范》的相关原则和安全要求，如知情同意原则、目的限制原则、最小化原则等。对匿名数据没有约束力。并且由于匿名化后的信息与具体的个人信息主体无关，因此个人信息控制者无需支持个人信息主体权利（如访问、更正、

根据新版《个人信息安全规范》第3.15条，去标识化是指对个人信息进行技术处理，使其在没有附加信息的情况下无法使用。识别或关联个人信息主体的过程。

两者的区别见下表：

无法仅从该信息中指向特定的个人

不能结合其他信息指向特定的个人

处理后的信息不能作为个人信息恢复（也不能重新识别）

匿名化

√

去识别化

√

匿名化和去识别化之间的技术差异

匿名化技术是目前重要的数据安全措施，已经发展了许多成熟的技术方案，如泛化、压缩、分解、替换、干扰等。经过技术处理的信息必须不可能作为个人信息恢复，不能被识别或识别。与特定的个人相关联。值得注意的是，如果过去或现在公开的匿名数据采用新技术、新模式对个人进行重新识别（re-identification），该类数据属于个人信息，其信息处理活动应遵循以下原则以及新版个人信息安全规范的相关安全要求。以 k-anonymity 匿名模型为例，k-匿名匿名模型要求发布的数据必须指定标识符（直接标识符或准标识符），并且每个具有相同属性值的等价类至少包含K条记录，这使得未经授权的第三方无法识别其个人信息主体记录，因此是实现匿名的理想手段，但k-匿名模型可以根据现有技术手段如未经授权的第三方实现重新识别。，则 k-匿名模型不能满足匿名要求。因此它是实现匿名的理想手段，但k-匿名模型可以根据未经授权的第三方等现有技术手段实现重新识别。，则 k-匿名模型不能满足匿名要求。因此它是实现匿名的理想手段，但k-匿名模型可以根据未经授权的第三方等现有技术手段实现重新识别。，则 k-匿名模型不能满足匿名要求。

匿名化技术与传统的访问控制有着根本的不同。访问控制技术的目的是保证数据不被未经授权的第三方访问，一般通过切断未经授权的第三方访问秘密数据的渠道来实现。匿名化的目的是使处理个人信息后获得的信息无法识别或关联特定个人。

新版《个人信息安全规范》特别指出，去标识化是以个体为基础，保留个体粒度，采用假名、加密、哈希函数等技术手段替代对个人信息的识别。虽然去识别化技术可以使个人信息无法识别，但如果未经授权的第三方在其他外部信息的协助下，仍然可以对去识别化技术处理后的个人信息进行重新识别。这里简单介绍一下新版个人信息安全规范中列出的假名、加密、哈希函数去标识化技术。

假名化是一种去识别技术，它用假名代替直接识别（或其他敏感标识符）。假名技术为每个个人信息主体创建一个唯一标识符，以代替原始的直接或敏感标识符。不同数据集中的相关记录在假名化后仍然可以关联，并且不会泄露个人信息主体的身份。例如，当用户发送位置服务请求时，使用虚假的用户身份代替真实的用户身份，从而无法收集到用户身份以及与位置的关系。例如，“李明，男，深圳市南山区”是真实的个人数据，在其上生成假名数据：“JDID100086，男，深圳市南山区”。

加密是使用加密技术来保护数据的机密性，以确保未经授权的第三方无法访问或使未经授权的第三方获得的数据不可用。哈希算法是一种加密技术。简单来说就是将任意长度的二进制字符串映射成固定长度的二进制字符串。映射规则就是哈希算法，映射原始数据后得到的二进制值串就是哈希值。. 通常加密散列（Hash）算法包括MD5（MD5 Message-Digest Algorithm，消息摘要算法）SHA（Secure Hash Algorithm，安全散列算法），DES（Data Encryption Standard，数据加密标准），AES（Advanced）加密标准，高级加密标准）等。

根据国家市场监督管理总局、国家标准化管理委员会于2019年8月30日发布并于2020年3月1日实施的《信息安全技术个人信息去标识化指南》（GB/T 37964-2019），除上述去识别技术外网络安全法个人信息，常用的去识别技术和模型包括统计、抑制、泛化、随机化、聚合，以及计算重识别的k-anonymity匿名模型和差分隐私模型风险。用于识别和匿名化的技术处理在很大程度上是重叠的。但是，匿名化技术具有更高程度的安全性，处理的目的是将个人信息作为非个人信息进行处理，以最大程度地保护个人隐私和数据安全。去识别化技术的目标是减少数据集中的信息与个人信息主体之间的相关性。去标识化技术强调降低信息的分化程度，使信息无法对应具体的个体，较低的区分度无法确定不同的信息是否对应同一个人，在实践中，往往要求人数某条信息可能对应超过一定阈值；断开与个人信息主体的关联，即将其他个人信息与身份信息分离。

两者的技术区别如下图所示：

匿名化和去标识化的应用场景

基于以上两者的区别或差异，新版《个人信息安全规范》对匿名化和去识别化的具体应用场景、原则和安全要求有所不同，具体如下：

(一）匿名化应用场景及安全要求

1、超过个人信息的存储期限（包括达到使用目的所需的最短时间、法定时间或授权期限）后，个人信息控制者应当删除或匿名处理个人信息。

2、在个人信息主体注销账户过程中，当个人信息控制者需要收集个人敏感信息进行身份验证时，应明确收集个人敏感信息后的处理措施，如立即达到目的后删除或匿名化等。

3、个人信息主体注销账户后，个人信息控制者应及时删除或匿名化个人信息。

4、当个人信息控制者停止运营其产品或服务时，应删除或匿名化其持有的个人信息。

5、个人信息控制者在向个人信息主体推送新闻信息服务过程中使用个性化展示的，应当：当个人信息主体选择退出或关闭个性化展示模式时，向个人信息主体提供删除或选择匿名化目标推送活动所基于的个人信息。

这里个性化展示的使用场景是：在向个人信息主体推送新闻信息服务的过程中，个人信息控制者基于特定个人信息的网页浏览历史、爱好、消费记录、习惯等个人信息主体，以个人信息主体为准。个人信息主体展示或推荐新闻查询。与美国的选择退出模式相比，即除非数据主体拒绝或退出，否则信息控制可以继续处理个人信息主体的个人信息。我国《网络安全法》和新版《个人信息安全规范》均采用选择加入模式。, 数据控制者在收集和处理个人信息主体的个人信息之前，必须征得主体的同意，即选择加入。因此，当个人信息主体自愿退出或关闭个性化推荐功能时，个人信息控制者还应向个人信息主体提供对浏览历史、爱好、消费记录、习惯等个人信息进行删除或匿名化处理的信息。的个人信息主体。选项。下图为某APP提供的对个人信息主体提供“个性化推荐”和“推送设置”的选项界面。当个人信息主体自愿选择退出或关闭个性化推荐功能时，个人信息控制者还应向个人信息主体提供删除或匿名化个人信息的信息，如浏览记录、爱好、消费记录、习惯等。个人信息主体。选项。下图为某APP提供的对个人信息主体提供“个性化推荐”和“推送设置”的选项界面。当个人信息主体自愿选择退出或关闭个性化推荐功能时，个人信息控制者还应向个人信息主体提供删除或匿名化个人信息的信息，如浏览记录、爱好、消费记录、习惯等。个人信息主体。选项。下图为某APP提供的对个人信息主体提供“个性化推荐”和“推送设置”的选项界面。个人信息控制者还应当向个人信息主体提供对个人信息主体的浏览历史、爱好、消费记录、习惯等个人信息进行删除或匿名化处理的信息。选项。下图为某APP提供的对个人信息主体提供“个性化推荐”和“推送设置”的选项界面。个人信息控制者还应当向个人信息主体提供对个人信息主体的浏览历史、爱好、消费记录、习惯等个人信息进行删除或匿名化处理的信息。选项。下图为某APP提供的对个人信息主体提供“个性化推荐”和“推送设置”的选项界面。

6、个人信息控制者应对从匿名数据集中重新识别个人信息主体或与其他数据集聚合重新识别个人信息主体的风险进行个人信息安全影响评估。

(二）去识别化应用场景及安全需求

1、个人信息控制者为学术研究机构。有必要为公共利益进行统计或学术研究。在向外界提供学术研究或描述的结果时，收集和使用个人信息不需要个人信息主体的授权。同意。但是，个人信息控制者必须对结果中包含的个人信息进行去识别化处理。

2、个人信息控制者将收集到的个人信息用于学术研究或获取对自然、科学、社会、经济等现象的一般状态的描述，属于与本网站合理相关的范围。收集目的，不需单独征得个人信息主体的明示同意。但是，在对外提供学术研究或描述的结果时网络安全法个人信息，需要对结果中包含的个人信息进行去标识化处理。

该场景需要与前条第一条所述授权同意的例外场景区分开来。前者对主体没有限制，后者专指学术研究机构；前者将个人信息用于学术研究或获取对自然、科学、社会、经济等现象的一般状态的描述，属于后者范围内与收集目的合理相关的范围；后者对于为公共利益进行统计或学术研究是必要的。后两者在个人信息处理方式上相同，需要对结果中包含的个人信息进行去标识化处理。

3、收集个人信息后，个人信息控制者应立即进行去识别化处理，并采取技术和管理措施，将可用于恢复个人身份识别的信息与去识别化分开存储和加强。识别的信息。访问和使用权限管理。个人信息控制者应尽最大努力避免将去识别信息与其他可用于恢复个人身份识别的附加信息相关联，或避免重新识别的风险。

4、涉及通过界面（如显示屏、纸张）展示个人信息的，个人信息控制者应对所展示的个人信息采取去标识化等措施，降低个人信息泄露的风险在显示过程中。例如，在显示个人信息时，防止内部未经授权的人员和个人信息主体以外的其他人员未经授权获取个人信息。

5、如果个人信息控制者共享或转让去标识化的个人信息，并确保数据接收方无法重新识别或关联个人信息主体，则无需告知个人信息主体的目的共享或转让个人信息、数据接收者的类型及可能产生的后果，无需事先征得个人信息主体的授权同意。

也有双方共享信息的情况。例如，个人信息控制者使用 MD5 加密对个人信息进行去标识化，然后共享数据接收者。有必要确保数据接收者也使用相同的加密技术对个人信息进行去识别化。经过身份识别处理后，数据与个人信息控制者共享，双方的去识别化技术手段相同或相似，确保任何一方都无法重新识别或关联个人信息主体。上述双方共享信息的应用场景不需要个人信息主体的事先授权和同意。

6、个人信息控制者应对从去识别化的数据集中重新识别个人信息主体或与其他数据集聚合重新识别个人信息主体的风险进行个人信息安全影响评估。

结语

个人信息控制者对个人信息的处理过程长期以来一直是用户和网民关注的焦点。目前，很多企业或组织都愿意主动分享和公开自己的隐私政策、隐私保护原则与方法、信息安全技术原理，让公众更直观地了解企业或组织为保护个人信息所做的努力. 但是，在评估个人信息处理过程的方方面面，揭开个人信息控制者面纱的同时，我们有必要区分匿名化和去识别化的应用场景，

附：新版《个人信息安全规范》相关规定如下：

章节号

网络安全法个人信息