首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >模糊聚类数据并在r中保持隐私的技术

模糊聚类数据并在r中保持隐私的技术
EN

Stack Overflow用户
提问于 2014-06-13 09:59:17
回答 1查看 557关注 0票数 9

背景

我有一些私人调查数据,其中包含一栏机密信息:调查对象的地理位置。在任何情况下都不能公布这一信息。

正如调查研究中常见的那样,为了让用户正确计算我的调查数据集上的差异,这些用户要么需要地理位置(不可接受),要么需要一组replicate weights。我可以创建一组复制权重;然而,很容易查看这些权重之间的相关性,并反算出调查对象中的哪一个拥有相同的地理位置。这也是不可接受的。

为了帮助我解决这个问题,你不必熟悉replicate weights --把它们想象成几列强相关的集群数据。

我明白,如果我想保持这种聚类,一个邪恶的数据用户总是会有半体面的猜测谁共享地理位置;我只是想让猜游戏不那么精确。在非混淆复制权,一个邪恶的数据用户可以100%的情况。

请求

我在找一种技术

  • 防止公共使用文件用户从复制权重变量之间的相关性中轻松推断共享的地理位置。
  • 不会消除数据列之间的相关性(复制权重变量)
  • 可以在R data.frame对象上实现,而无需花费大量时间

我说分享是因为邪恶的用户可能不知道地点在哪里,但他们可能知道如果两个调查对象来自同一地点--这是不可接受的可能性。

我已经尝试过的

我真的不想在这里重新发明轮子。我正在寻找r语法、r包或其他相对简单易用的实现方法。我找到了onetwothreefour文件,它们描述的技术都适合我的目的;不幸的是,没有一个作者愿意共享实际代码来实现这些技术。

我可以做一些简单的事情,比如根据正态分布将随机值加减到复制权重列中,但我更愿意依赖那些比我更了解隐私问题的人的工作。

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-15 10:38:18

为了回答我自己的问题,我编写了这个九步的教程来完成这个过程。我不是隐私/保密领域的专家,我希望听到关于这个想法和其他想法的反馈。谢谢!

http://www.asdfree.com/2014/09/how-to-provide-variance-calculation-on.html

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24202650

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档