大数据时代如何保护隐私

 我来答
Bonree博睿数据
2023-07-03 · 百度认证:北京博睿宏远数据科技股份有限公司
Bonree博睿数据
向TA提问
展开全部

从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视,接下来我们讨论隐私保护的两种情况。

第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。

第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如K-anonymity(K-匿名化)[1]、Differential privacy(差分隐私)[4]、Homomorphic encryption(同态加密)[2]、Zero-knowledge proof(零知识证明)[3]等等。

今天主要看一下K-anonymity(K-匿名化)和Differential privacy(差分隐私)。因为这两种方法在学术界和工业界得到了最普遍的应用。

一、K-anonymity(K-匿名化)

K-匿名化( K-anonymization) 是数据发布时保护私有信息的一种重要方法。K-匿名技术是1998 年由Samarati和Sweeney 提出的,它要求发布的数据中存在一定数量(至少为K) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私,k匿名化能保证以下3点:

(1) 攻击者无法知道某个人是否在公开的数据中;

(2) 给定一个人,攻击者无法确认他是否有某项敏感属性;

(3) 攻击者无法确认某条数据对应的是哪个人。

K-匿名隐私保护模型要求每条记录在发布数据前,都至少与某记录无法区分开来。具有相同准标识符的记录构成一个等价类。所以,即使攻击者知道了一定的背景知识,也无法与确定的一条信息进行链接,这是一种泛化技术。

二、Differential privacy(差分隐私)

差分隐私是对数据发布时,数据集中的隐私损失进行量化的数学模型。在数据集中增加了一定数量的“随机噪声”,这个噪声通过概率分布产生,噪声保证对隐私保护的同时,仍然具有分析价值。苹果公司在iOS 10中就引入差分隐私技术以提高对用户的隐私保护。

差分隐私保证以下内容:攻击者能获取的个人数据几乎和他们从没有这个人记录的数据集中能获取的相差无几。因为它符合现实世界的动机——个人没有动机不参与数据集,因为不论自己在不在数据集中,该数据集的分析者都将得出关于该个人的相同的结论。由于其敏感的个人信息与系统的输出几乎完全不相关,因此用户可以确信处理其数据的组织不会侵犯他们的隐私。分析者几乎"无法获得个人信息"意味着他们被限制在关于任何个人的看法的微小变化中。在这里和下面,"变化"是指使用数据集和使用相同的数据集减去任何一个人的记录之间的变化。这种变化的范围由参数控制,对任何可能的结果,该参数设置了变化的边界。低的值,例如0.1,意味着关于任何个人的看法的改变非常少;高的值,例如50,意味着关于个人的看法的变化更大。正式的定义如下。

当且仅当以下情况下,算法A是ε-差分隐私的:

对于所有的x和对于所有的数据集对和,缺少任何一条记录的被称为,比如缺少某个人的数据。符号指的是数学常数。注意,这个定义只对随机算法有意义。给出确定性输出的算法都不适合差分隐私。差分隐私保证的主要吸引力在于其对分析者所能获取的个人信息量的限制。此外,它具有以下有用的属性:

可组合性:如果用保证程度分别为和的差分隐私来回应两个查询,则该对查询的差分隐私性等同于保证程度。回想一下,较高的ε值意味着较弱的保证。

针对任意背景信息的强度:这种保证不以任何方式依赖于攻击者知道的背景信息。该属性是差分隐私强于早期的隐私保证(k-anonymity)的主要原因之一。

后期处理的安全性:对于差分隐私的结果,没有限制可以做什么——无论它与什么结合或者怎么被转换,它仍然是差分隐私的。

所以最常用的方法是在结果上加入满足某种分布的噪音,使查询结果随机化。目前常用的有两种方法,一个是Laplace机制,在查询结果里加入Laplace分布的噪音,适用于数值型输出。例如:一个人群范围内里有多少人是男性?假如结果是2000人,那么每一次查询得到的结果都会稍稍有些区别,比如有很高的概率输出2001,也有较高概率输出2010,较低概率输出1990,等等。另外一个是指数机制,在查询结果里用指数分布来调整概率,适用于非数值型输出。

壹寰(深圳)科技文化有限公司
2021-03-27 广告
要找正规专业的公司,行业口碑也比较重要。如果想了解更多详细信息,可以咨询下壹寰(深圳)科技文化有限公司。91数据恢复是壹寰(深圳)科技文化有限公司旗下专业数据恢复品牌,91数据恢复专注于勒索病毒数据恢复、勒索病毒数据修复、数据库修复、数据库... 点击进入详情页
本回答由壹寰(深圳)科技文化有限公司提供
途舜诚02
2023-05-20 · 超过943用户采纳过TA的回答
知道小有建树答主
回答量:1945
采纳率:99%
帮助的人:35.2万
展开全部
大数据时代的弊端,就是被透明化的隐私安全。 我不知道大家有没有这样的生活经历:早上还在用浏览器搜“女生喜欢什么样的口红”,中午就看到了推送的口红广告;刚和朋友打完电话说旅行带什么背包,打开购物网站就看到了旅行包的推荐。 这个时候有一个疑惑,手机为什么知道我们想要什么? 首先要知道,社交网站、购物网站包括你使用的苹果、安卓手机,是没有权限窃听你的电话或者盗取你的搜索资料的,只是你的行为数据让你的手机意识到了你具体想要什么。 再例如,你注册一个账号,需要输入自己的名字;手机号;性别;所在地;这些是微不足道的基础数据。 当然还有你的消费记录;打车频率;浏览的公众号类型;玩过的游戏...这些行为最后统统会变成几千个事实标签,成为你行为数据的一环节。 采集标签的目的,就是为了构建用户画像,从杂乱的标签当中,最终模拟一个和你兴趣、爱好、思想相近的“你”。 例如,你玩手机看到一篇内容标签为“美女”的文章,而这并不表明你真的喜欢美女,也可能是手滑点的。因此,手机判断你的兴趣喜好还要根据浏览的停留时间、搜索次数、是否评论转发等等。 当然,这关系到一个初级的内容标签权重算法:兴趣标签( 美女 )权重 = 行为权重 x 访问时长 x 衰减因子行为权重:什么都不干 1 分,评论 + 0.5,点赞 + 0.5,转发 + 2,收藏 + 1时长权重:10S 以内权重为 0.5,10S-60S 为 1,60S 以上为 2衰减因子:0 - 3 天内权重为 1,3 - 7 天权重为 0.85,7 - 15 天权重为 0.7,15 - 30 天权重为 0.5,30 天以上权重为 0.1(算法引自百度会学) 兴趣标签权重和你的阅读时长、评论、点赞、转发收藏有着密切关系,并且不同操作有着不同的加分数值,最终累积成行为权重。 这点有点类似网易云在私人FM为你推荐的歌曲类似。停留时间越长,时间权重也随之越高。 你经常浏览美女,评论关于美女的文章,看关于美女的视频,手机会将你一段时间内所有关于美女的兴趣权重累加,再以S形函数标准化,最终得到一个从0到10的兴趣标签值。 这个数值越高,你就对含有美女的内容越感兴趣。 不仅仅局限于内容兴趣,这种算法还能够根据你的消费能力、消费兴趣、社交习惯等多个维度建立用户画像,并计算你的喜好。 之后,这些喜好会被转换成特征向量,比如你的美女兴趣标签值是8,消费能力是5,社交偏好是2,那么向量表示为r(8,5,2)。 我们可以将特征向量想象成一个多维空间的一个坐标点,通过每个用户的向量坐标去带入余弦公式或距离公式中,就能计算出和你相似的人,进而把用户分类。这是一个大工程。 但是行为数据只能计算出你的喜好,而无法判断出你的性别、学历等深入的个人属性。 这需要将已知性别和学历的用户作为样本,一些用来训练模型,一些用来测试精准度。现如今,各大平台对于用户性别的预测准确度达到90%以上。 因此,你的手机就能够得到大致这样一个用户画像,它包含了你的各项兴趣权重: 所以说,APP根据这个画像,便根据类似的广告信息,找到对应的消费者。 我们来看看广告主这边是如何操作的。 下面显示的是某广告投放平台的后台,广告主们可以自由组合用户属性,包括消费水平、婚恋情况、内容兴趣等上千个定向标签,最终选定广告位及投放时间,据系统计算的1.5元/千次曝光的价格,完成一次精准的广告投放。 并且,当一个住在北京海淀区大泥湾小区有过口红消费记录的单身男青年在刷到广告位的一瞬间,广告平台还会发起竞价请求,最终,价位较高的广告将会出现在用户的视线中。也就被你刷到了。 在广告推广平台的开发者文档,记录着用户详细的行为数据,精确度很高,甚至可以筛选出“2019.2.1到2019.2.10去过北京西单5次以上的人”。 需要说明一点,社交软件、购物网站、浏览器等APP的行为数据不仅对应你的账号,还和你手机唯一识别码关联在一起。Android系统手机的可以采集到的的唯一设备编码叫 IMEI,在iPhone 上叫IDFA 这也表示,就算你不注册不登录,行为数据照样会被采集。 与此同时,广告平台也能够根据你手机识别码在其他的APP上为你投放对应的广告,因此,就算你在浏览快手,也能够刷到旅行包广告。我们的隐私谁来保护? 看到这里,小伙伴们似乎惊出一身冷汗,信息都被采集了,那我们的隐私谁来保护?别急,根据《个人信息安全规范》法则,商业广告平台的所有标签都应该避免精确定位到个人,这种做法也是为了保护用户的隐私安全。 当然,如果你是iPhone用户,并且不想看到这种采集你行为数据信息并向你推送广告的事情,你可以通过在设置中关闭IDFA码来限制手机对你的行为数据采集。写到最后 可以肯定一点,隐私保护的程度和表达自由的观念是称正比的,我们自己的信息被监视而无法匿名的情况下,我们也很难盼望APP们能够自由表达自己的想法和意见。所以说,将隐私有效地保护起来,实际上也是对政治性的重要需求。 如今,“全球网络倡议”( the Global Network Initiative GNI),旨在保护和促进信息与通信技术的言论自由和隐私权。因此不比担心我们的“数据主权”被剥夺,因为还有法律在保护着我们。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
风轮学长
2023-05-21 · 超过248用户采纳过TA的回答
知道小有建树答主
回答量:943
采纳率:97%
帮助的人:25.9万
展开全部
在大数据时代,隐私保护变得尤其重要。下面是一些保护个人隐私的方法:
1.加强法律保护:国家应制定更加严格的法律来保护个人隐私,明确个人信息收集和使用的限制。
2. 数据最小化原则:尽可能减少收集和处理个人信息的数量,数据只保留必要的信息。
3. 匿名化和脱敏:对敏感信息进行加密、模糊化、脱敏,以保证即使数据被窃取或泄露,也难以识别、使用或还原个体信息。
4. 透明公开及授权:事先告知用户信息采集原则、方式和目的,并通过授权或取得明确的同意,确保用户在授权范围内的同意下,个人信息的收集和使用行为。
5. 数据安全保护:通过采用安全技术、措施和管理制度,保护数据信息的存储和传输安全,以防止黑客或未经授权的用户侵入、篡改、传播等。
6. 教育宣传:提高公众对隐私保护的意识,加大对隐私保护教育的宣传力度,增强公众对隐私保护的自我保护意识和能力。
这些措施可以帮助减轻大数据对个人隐私的影响,同时确保数据科技向着正确的方向发展。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式