大数据时代如何保护隐私
从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视,接下来我们讨论隐私保护的两种情况。
第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。
第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如K-anonymity(K-匿名化)[1]、Differential privacy(差分隐私)[4]、Homomorphic encryption(同态加密)[2]、Zero-knowledge proof(零知识证明)[3]等等。
今天主要看一下K-anonymity(K-匿名化)和Differential privacy(差分隐私)。因为这两种方法在学术界和工业界得到了最普遍的应用。
一、K-anonymity(K-匿名化)
K-匿名化( K-anonymization) 是数据发布时保护私有信息的一种重要方法。K-匿名技术是1998 年由Samarati和Sweeney 提出的,它要求发布的数据中存在一定数量(至少为K) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私,k匿名化能保证以下3点:
(1) 攻击者无法知道某个人是否在公开的数据中;
(2) 给定一个人,攻击者无法确认他是否有某项敏感属性;
(3) 攻击者无法确认某条数据对应的是哪个人。
K-匿名隐私保护模型要求每条记录在发布数据前,都至少与某记录无法区分开来。具有相同准标识符的记录构成一个等价类。所以,即使攻击者知道了一定的背景知识,也无法与确定的一条信息进行链接,这是一种泛化技术。
二、Differential privacy(差分隐私)
差分隐私是对数据发布时,数据集中的隐私损失进行量化的数学模型。在数据集中增加了一定数量的“随机噪声”,这个噪声通过概率分布产生,噪声保证对隐私保护的同时,仍然具有分析价值。苹果公司在iOS 10中就引入差分隐私技术以提高对用户的隐私保护。
差分隐私保证以下内容:攻击者能获取的个人数据几乎和他们从没有这个人记录的数据集中能获取的相差无几。因为它符合现实世界的动机——个人没有动机不参与数据集,因为不论自己在不在数据集中,该数据集的分析者都将得出关于该个人的相同的结论。由于其敏感的个人信息与系统的输出几乎完全不相关,因此用户可以确信处理其数据的组织不会侵犯他们的隐私。分析者几乎"无法获得个人信息"意味着他们被限制在关于任何个人的看法的微小变化中。在这里和下面,"变化"是指使用数据集和使用相同的数据集减去任何一个人的记录之间的变化。这种变化的范围由参数控制,对任何可能的结果,该参数设置了变化的边界。低的值,例如0.1,意味着关于任何个人的看法的改变非常少;高的值,例如50,意味着关于个人的看法的变化更大。正式的定义如下。
当且仅当以下情况下,算法A是ε-差分隐私的:
对于所有的x和对于所有的数据集对和,缺少任何一条记录的被称为,比如缺少某个人的数据。符号指的是数学常数。注意,这个定义只对随机算法有意义。给出确定性输出的算法都不适合差分隐私。差分隐私保证的主要吸引力在于其对分析者所能获取的个人信息量的限制。此外,它具有以下有用的属性:
可组合性:如果用保证程度分别为和的差分隐私来回应两个查询,则该对查询的差分隐私性等同于保证程度。回想一下,较高的ε值意味着较弱的保证。
针对任意背景信息的强度:这种保证不以任何方式依赖于攻击者知道的背景信息。该属性是差分隐私强于早期的隐私保证(k-anonymity)的主要原因之一。
后期处理的安全性:对于差分隐私的结果,没有限制可以做什么——无论它与什么结合或者怎么被转换,它仍然是差分隐私的。
所以最常用的方法是在结果上加入满足某种分布的噪音,使查询结果随机化。目前常用的有两种方法,一个是Laplace机制,在查询结果里加入Laplace分布的噪音,适用于数值型输出。例如:一个人群范围内里有多少人是男性?假如结果是2000人,那么每一次查询得到的结果都会稍稍有些区别,比如有很高的概率输出2001,也有较高概率输出2010,较低概率输出1990,等等。另外一个是指数机制,在查询结果里用指数分布来调整概率,适用于非数值型输出。
2021-03-27 广告
1.加强法律保护:国家应制定更加严格的法律来保护个人隐私,明确个人信息收集和使用的限制。
2. 数据最小化原则:尽可能减少收集和处理个人信息的数量,数据只保留必要的信息。
3. 匿名化和脱敏:对敏感信息进行加密、模糊化、脱敏,以保证即使数据被窃取或泄露,也难以识别、使用或还原个体信息。
4. 透明公开及授权:事先告知用户信息采集原则、方式和目的,并通过授权或取得明确的同意,确保用户在授权范围内的同意下,个人信息的收集和使用行为。
5. 数据安全保护:通过采用安全技术、措施和管理制度,保护数据信息的存储和传输安全,以防止黑客或未经授权的用户侵入、篡改、传播等。
6. 教育宣传:提高公众对隐私保护的意识,加大对隐私保护教育的宣传力度,增强公众对隐私保护的自我保护意识和能力。
这些措施可以帮助减轻大数据对个人隐私的影响,同时确保数据科技向着正确的方向发展。