文章/答案/技术大牛

发布

社区首页 >问答首页 >如何保护数据免受内部数据科学家的影响？

问如何保护数据免受内部数据科学家的影响？
EN

Data Science用户

提问于 2019-01-20 18:52:29

回答 5查看 197关注 0票数 1

在我们公司，我们希望在内部保护数据隐私。这意味着，我们希望找到一种匿名化数据的方法，这样数据科学团队成员就不会公开这些数据，但仍然可以将其用于建模。

我在谷歌上搜索并阅读了关于假名化的文章。但我是说，这是在破坏数据吗？实际上，我没有找到任何可靠的消息来源。

anonymization

回答 5

Data Science用户

发布于 2019-01-20 19:50:39

您可以查看OpenMined Pysyft库，它是一个用于加密的、保护隐私的库，它是建立在Pytorch之上的深度学习。PySyft将私有数据与模型培训分离开来。

指向Pysyft库- https://github.com/OpenMined/PySyft的Github链接

票数 1

Data Science用户

发布于 2020-08-15 17:59:22

你的问题：

你似乎在问一个像数据科学问题一样的管理/政策问题。政策问题是“如何在不损害客户数据可用性的前提下，将客户数据与内部数据科学家保持私密”。

数据科学的问题是“如何对数据进行转换，使其原始形式的隐私和可识别性无法推断，同时又不妨碍其他分析过程”。这就是零信息悖论的种子。

tl;dr

我认为你的政策制定者提出的问题相当于“如何让我的电脑防黑客”，而唯一完美的答案就是没有电脑。有一定程度的“抵抗”，但没有所谓的“防黑客”。

问题命题：

这个问题的一个问题是，与你试图“有选择地阻碍”的人相比，绝大多数政策专家的专业技术专长几乎没有什么意义。向他们解释一个他们能理解的答案可能会让一个白痴出局，但实际上并不能阻止数据外传。

考虑一下移动电话的数据聚合是如何工作的。

https://eclecticlight.co/2015/08/24/data-aggregation-how-it-can-break-privacy/

很多问这个问题的人都能得到他们认为是“是”的答案，而实际上它的意思是“不”，而一个持之以恒的聪明的数据人可以计算出来，而决策者却不能。

简单的例子：

让我们创建一个用数字替换名字的过程。"Smith“变成1，"Jones”变成2，等等。这个过程是可逆的，只使用输出吗？如果只给出一个号码列表，我能回到名字里吗？是的，虽然各不相同。如果我看看姓氏的频率，并将它们与数字频率进行比较，我应该能够做一个体面的工作，去匿名化普通的名字。再说一遍，如果15%的姓是" Smith“，而我输出的数字列表中的15%是"1”，那么很有可能1的意思是Smith。

这是一个玩具例子，但你手机的MAC地址是已知的和出售的。如果除了MAC之外，世界上所有的数据都是匿名的，而我可以转到第三部分去购买MAC到标识映射的列表，那么您的数据根本就不会匿名。你错过了洗澡水里的孩子。

票数 1

Data Science用户

发布于 2019-02-21 19:20:10

如果数据是完全数字的，是否考虑从数据中删除列名？完全有可能，您的工作人员可以执行他们的建模功能，而不必知道在任何阶段的数字。您必须做一些数据准备，以确保相关列已经被考虑在内，但即使这样，也可以使用“匿名”列来解决。

如果您为员工提供了一个具有随机列名的数据集，该数据集仍将保留您想要的隐私，那么这些数据实际上是无用的。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/44300

复制

相似问题

问如何保护数据免受内部数据科学家的影响？
EN

回答 5

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何保护数据免受内部数据科学家的影响？EN

回答 5

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何保护数据免受内部数据科学家的影响？
EN