首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python中的数据匿名化

Python中的数据匿名化
EN

Data Science用户
提问于 2019-10-23 23:40:54
回答 2查看 2.6K关注 0票数 8

我正在从事一个由真实数据组成的工业项目。现在,这些数据包含了有关公司运营的敏感信息,这些信息无法公开披露。因此,在实现机器学习算法之前,我需要先匿名原始数据。`匿名数据包括:

  • changing the names of persons,
  • places,
  • geographical locations, etc.

我想知道匿名数据集的最佳做法是什么?理想情况下,在对匿名数据集执行分析之后,我应该能够获得原始数据。

我翻阅了文献,看了看一些已回答的问题。它们都基于cybersecurity aspects,比如encryption and decryption algorithms。我不熟悉网络安全算法。有没有办法在不深入研究网络安全算法的情况下稍微改变数据呢?

EN

回答 2

Data Science用户

发布于 2019-10-24 00:02:54

据我所知,文本匿名化大多被认为是手动预处理步骤,我不知道任何可靠的全自动方法。由于法律和道德方面的原因,这个过程的可靠性通常是至关重要的,这就是为什么必须有一定数量的手工工作。

也就是说,这个过程可以半自动进行,特别是如果要混淆的信息范围不太大的话。在您的示例中,很可能可以应用恩塔格来捕获大部分实体。

一旦所有实体都在原始数据中进行了注释,就很容易用占位符自动替换它们。这可以在保持原始版本和匿名版本对齐的同时完成(通常对每个实体使用唯一的id )。

票数 2
EN

Data Science用户

发布于 2019-10-24 03:57:06

总的来说,我认为HIPPA标准是一个好的开始。这将包括将非个人身份识别信息(pii)与不需要保密的信息分开。[1]

老实说,匿名地理定位并没有很好的标准,这样既可以保护隐私,又可以进行数据分析,这也是NIST感兴趣的领域。事实上,它是2018年年不可连接的数据挑战的主题之一。

一组详细的方法可以找到这里

在此之前,我将向您介绍被称为密码权利答案的内容。立即散列,不要使用MD5、MD6或SHA-1等.

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/62144

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档