在我们公司,我们希望在内部保护数据隐私。这意味着,我们希望找到一种匿名化数据的方法,这样数据科学团队成员就不会公开这些数据,但仍然可以将其用于建模。
我在谷歌上搜索并阅读了关于假名化的文章。但我是说,这是在破坏数据吗?实际上,我没有找到任何可靠的消息来源。
发布于 2019-01-20 19:50:39
您可以查看OpenMined Pysyft库,它是一个用于加密的、保护隐私的库,它是建立在Pytorch之上的深度学习。PySyft将私有数据与模型培训分离开来。
指向Pysyft库- https://github.com/OpenMined/PySyft的Github链接
发布于 2020-08-15 17:59:22
你的问题:
你似乎在问一个像数据科学问题一样的管理/政策问题。政策问题是“如何在不损害客户数据可用性的前提下,将客户数据与内部数据科学家保持私密”。
数据科学的问题是“如何对数据进行转换,使其原始形式的隐私和可识别性无法推断,同时又不妨碍其他分析过程”。这就是零信息悖论的种子。
tl;dr
我认为你的政策制定者提出的问题相当于“如何让我的电脑防黑客”,而唯一完美的答案就是没有电脑。有一定程度的“抵抗”,但没有所谓的“防黑客”。
问题命题:
这个问题的一个问题是,与你试图“有选择地阻碍”的人相比,绝大多数政策专家的专业技术专长几乎没有什么意义。向他们解释一个他们能理解的答案可能会让一个白痴出局,但实际上并不能阻止数据外传。
考虑一下移动电话的数据聚合是如何工作的。
https://eclecticlight.co/2015/08/24/data-aggregation-how-it-can-break-privacy/
很多问这个问题的人都能得到他们认为是“是”的答案,而实际上它的意思是“不”,而一个持之以恒的聪明的数据人可以计算出来,而决策者却不能。
简单的例子:
让我们创建一个用数字替换名字的过程。"Smith“变成1,"Jones”变成2,等等。这个过程是可逆的,只使用输出吗?如果只给出一个号码列表,我能回到名字里吗?是的,虽然各不相同。如果我看看姓氏的频率,并将它们与数字频率进行比较,我应该能够做一个体面的工作,去匿名化普通的名字。再说一遍,如果15%的姓是" Smith“,而我输出的数字列表中的15%是"1”,那么很有可能1的意思是Smith。
这是一个玩具例子,但你手机的MAC地址是已知的和出售的。如果除了MAC之外,世界上所有的数据都是匿名的,而我可以转到第三部分去购买MAC到标识映射的列表,那么您的数据根本就不会匿名。你错过了洗澡水里的孩子。
发布于 2019-02-21 19:20:10
如果数据是完全数字的,是否考虑从数据中删除列名?完全有可能,您的工作人员可以执行他们的建模功能,而不必知道在任何阶段的数字。您必须做一些数据准备,以确保相关列已经被考虑在内,但即使这样,也可以使用“匿名”列来解决。
如果您为员工提供了一个具有随机列名的数据集,该数据集仍将保留您想要的隐私,那么这些数据实际上是无用的。
https://datascience.stackexchange.com/questions/44300
复制相似问题