背景
我有一些私人调查数据,其中包含一栏机密信息:调查对象的地理位置。在任何情况下都不能公布这一信息。
正如调查研究中常见的那样,为了让用户正确计算我的调查数据集上的差异,这些用户要么需要地理位置(不可接受),要么需要一组replicate weights。我可以创建一组复制权重;然而,很容易查看这些权重之间的相关性,并反算出调查对象中的哪一个拥有相同的地理位置。这也是不可接受的。
为了帮助我解决这个问题,你不必熟悉replicate weights --把它们想象成几列强相关的集群数据。
我明白,如果我想保持这种聚类,一个邪恶的数据用户总是会有半体面的猜测谁共享地理位置;我只是想让猜游戏不那么精确。在非混淆复制权,一个邪恶的数据用户可以100%的情况。
请求
我在找一种技术
data.frame对象上实现,而无需花费大量时间我说分享是因为邪恶的用户可能不知道地点在哪里,但他们可能知道如果两个调查对象来自同一地点--这是不可接受的可能性。
我已经尝试过的
我真的不想在这里重新发明轮子。我正在寻找r语法、r包或其他相对简单易用的实现方法。我找到了one、two、three、four文件,它们描述的技术都适合我的目的;不幸的是,没有一个作者愿意共享实际代码来实现这些技术。
我可以做一些简单的事情,比如根据正态分布将随机值加减到复制权重列中,但我更愿意依赖那些比我更了解隐私问题的人的工作。
谢谢!
发布于 2014-06-15 10:38:18
为了回答我自己的问题,我编写了这个九步的教程来完成这个过程。我不是隐私/保密领域的专家,我希望听到关于这个想法和其他想法的反馈。谢谢!
http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html
https://stackoverflow.com/questions/24202650
复制相似问题