数据挖掘 | 数据隐私（1） | 差分隐私 | 挑战数据隐私（Some Attempts at Data Privacy）

数据挖掘 | 数据隐私（1） | 差分隐私 | 挑战数据隐私（Some Attempts at Data Privacy）
L1-Some Attempts at Data Privacy

本随笔基于Gautam Kamath教授的系列课程：CS 860 - Algorithms for Private Data Analysis - Fall 2020

本课的目的在于介绍一些信息加密的失败案例，介绍一些数据隐私安全的基本概念

纽约市出租车数据集泄露问题

案发经过：
- 纽约市向市民公开了一份出租车大数据集
- 其中所有数据都没有标出具体的车牌号码，而采用一个唯一标识码（medallion number）去掩盖
- 但是其中发现了一个人的收入远远高于其他出租车司机
- 经过查表(MD5)发现，这个人的唯一标识码（cfcd208495d565ef66e7dff9f98764da）就是(0)，也就是缺失值
- 因为司机的车牌号码都是短短的几个字母，为此可以通过快速的查表(MD5)查出结果
问题反思：
- 有人提出不用原数据生成这项唯一标识码，而是重新生成一组随机的数字作为唯一标识码，是否可行？
  - 显然是依旧存在问题的，假若你乘搭某位司机的出租车之后，记录下具体的位置以及时间及其对应的车牌号码。再重新对发布的数据集进行关联分析，极易就能找出这位司机的敏感隐私信息
网飞奖金赛

案发经过：
- 网飞举办一个奖金赛：提供训练集以向参赛者募集最为强大的推荐模型
- 网飞官方的提供的数据集都进行了匿名化处理，这是依据法律必须做的
- 但是这样的作法并非万无一失，攻击者通过用IMDb得到评论数据集（没有匿名化的），再对网飞发布的匿名数据集进行关联分析
- 即得到了网飞数据集中每一个数据的作成者
问题反思：
- 显然通过匿名化处理的数据集弱不禁风，完全不足以保护隐私
神经网络的记忆问题

采用一个模型或者函数来表示是否可以避免隐私泄露的问题？显然不可能。

攻击手段
- 针对一个基于词袋(Y)训练好，特定的自然语言模型(f_ heta)，给定一个特定的序列(x_1,dots,x_n)
- 那么给出(log-perplexity)的定义
  
  [P_ heta(x_q, dots,x_n)=-log_2Pr(x_1,dots,x_n | f_ heta)=sum^n_{i=1}(-log_2Pr(x_i|f_ heta(x_1,dots,x_{i-1}))) ]
- 这个指数在对于敏感数据时会呈现出低的分数
(k)-匿名化（(k)-anonymity）

如果说去掉一些敏感的唯一标识码，即如名字或者别的东西。只保留不敏感的伪标识符如生日、邮政编码以及性别，然后将至少(k-1)个拥有相同伪标识符整合在一起，称为(k)-匿名化（(k)-anonymity），如图两个表分别是(4)-匿名化以及(6)-匿名化

但是，这种隐私加密方法仍然并非天衣无缝的，假若说我们得知医院一位35岁的病人，那么依据左表即可得知他患有癌症。
相关阅读:
[bug] ERROR: Can't get master address from ZooKeeper; znode data == null
[面试] 大数据
 [项目] 智慧出行
 [Linux] grep -v
[Linux] > /dev/null 2>&1 &
[bug] CDH报错：cloudera-scm-server dead but pid file exists
[bug] CM / CDH 主机运行状态不良情况
 [bug] org.yaml.snakeyaml.error.YAMLException: java.nio.charset.MalformedInputException: Input length = 2
[其他] 记忆的奥秘（一）
处理数字的类 —— Math类、 Random类、 BigDecimal类与 BigInteger类
原文地址：https://www.cnblogs.com/uzuki/p/14496364.html

数据挖掘 | 数据隐私（1） | 差分隐私 | 挑战数据隐私（Some Attempts at Data Privacy）

L1-Some Attempts at Data Privacy

纽约市出租车数据集泄露问题

案发经过：

问题反思：

网飞奖金赛

案发经过：

问题反思：

神经网络的记忆问题

攻击手段

(k)-匿名化（(k)-anonymity）