我在一本书中读到了这个问题(采访问题),并想在这里详细讨论这个问题。请在上面放几盏灯。
问题如下:
隐私与匿名化
早在上世纪90年代中期,马萨诸塞州集团保险委员会就有了一个很好的想法--它决定公布州政府雇员的“匿名”数据,这些数据显示了他们每次去医院就诊的情况。
目的是帮助研究人员。国家花费时间删除标识符,如姓名、地址和社会保障编号。马萨诸塞州州长向公众保证,这足以保护病人的隐私。
然后一个研究生,看到了这种方法的重大缺陷。她要求提供一份数据副本,并通过在多个栏目中对数据进行核对,她得以确定总督的健康记录。
这表明在匿名数据方面需要格外小心。确保隐私的一种方法是聚合数据,这样就可以将任何记录映射到至少k个人,以获得一些大的k值。
我想要亲身体验这个问题,树立一些榜样,然后再做一些匿名化的工作。我希望你能明白这个问题.
我没有经验丰富的人,谁能帮我处理这样的问题。请不要投票结束这项质询……我会很无助,如果这发生了..。
谢谢,如果需要更多的解释,请拿出问题来。
发布于 2011-06-06 08:06:16
我只是复制粘贴了你的部分文字,偶然发现了这
这有助于理解您的问题:
在GIC公布数据时,时任马萨诸塞州州长的威廉·韦尔德( William )向公众保证,GIC删除了标识符,从而保护了患者的隐私。作为回应,当时的研究生Sweeney开始在GIC数据中寻找州长的医院记录。她知道Weld州长住在马萨诸塞州的剑桥,一个拥有54,000居民和7个邮政编码的城市。她花了20美元从剑桥市购买了完整的选民名册,其中包括每个选民的姓名、地址、邮政编码、出生日期和性别。通过将这些数据与GIC记录相结合,Sweeney轻松地找到了Weld州长。剑桥只有六个人分享了他的出生日期,其中只有三个人是男性,而其中只有他住在他的邮政编码中。斯威尼博士把州长的健康记录(包括诊断和处方)送到了他的办公室。轰隆隆!但在斯威尼的职业生涯中,这仅仅是一个早期的标志;在2000年,她发现,在所有美国人中,有87%的人可以通过以下三种信息进行唯一识别:邮政编码、出生日期和性行为()。
正如您所说的,您需要一个随机的数据库,并确保任何记录都可以映射到至少k个个体,对于一些大的k值。
换句话说,您需要清除数据库中的歧视性信息。例如,如果你在数据库中只保留性别(M/F),那么就无法确定谁是谁。因为只有两个条目:M和F。
但是,如果你以生日为标准,那么你的条目总数大约是2*365*80 ~=50.000。(我选择了80年)。即使你的数据库中有500.000人,也有可能其中之一(假设一个出生于1985年03年03年的男性)是唯一有这类条目的人,因此你可以认出他。
这只是一种简单的方法,依赖于组合的东西。如果你想要更复杂的东西,就去找相关信息和PCA
编辑:让我们举一个例子。假设我在做医学方面的工作。如果我只保留
这导致类别总数为2*4*2*50*12*10 = 96.000类。因此,如果您的数据库包含200.000.000项(大致近似于数据库中的美国居民数量),则无法确定某人的身份。
这也意味着您的不提供任何进一步的信息,没有邮政编码,等等.如果只使用提供的6项信息,您可以计算一些很好的统计数据(12月出生的人寿命更长吗?)但不可能识别,因为96.000比200.000.000低得多。
然而,如果你只有你所居住的城市的数据库,比如有200.000居民,你就不能保证匿名。因为200.000“并不比96.000大多少”。(“不大”是一个真正复杂的科学术语,需要概率方面的知识:P )
发布于 2011-06-06 07:45:24
“我想亲身体验这个问题,树立一些榜样,然后才能真正做到匿名化。”
您还可以单独找到一个数据集,“匿名”它,并试图重构它,从而构建您自己的数据集。
发布于 2015-01-12 19:53:05
这里详细讨论了去身份/匿名化问题,以及解决这些问题的潜在工具和技术。
上述文件的管辖权属于加拿大公共卫生系统的规则,但在概念上适用于其他司法管辖区。
对于美国,你将特别需要遵守HIPAA的去识别要求。http://www.hhs.gov/ocr/privacy/hipaa/understanding/coveredentities/De-identification/guidance.html
“在概念上适用”并不意味着“符合”。例如,为了符合欧盟的要求,您需要深入了解欧盟的具体要求,以及国家要求和潜在的州/地方要求。
https://stackoverflow.com/questions/6249013
复制相似问题