文章/答案/技术大牛

发布

社区首页 >问答首页 >Python中的数据匿名化

问Python中的数据匿名化
EN

Data Science用户

提问于 2019-10-23 23:40:54

回答 2查看 2.6K关注 0票数 8

我正在从事一个由真实数据组成的工业项目。现在，这些数据包含了有关公司运营的敏感信息，这些信息无法公开披露。因此，在实现机器学习算法之前，我需要先匿名原始数据。`匿名数据包括：

changing the names of persons,
places,
geographical locations, etc.

我想知道匿名数据集的最佳做法是什么？理想情况下，在对匿名数据集执行分析之后，我应该能够获得原始数据。

我翻阅了文献，看了看一些已回答的问题。它们都基于cybersecurity aspects，比如encryption and decryption algorithms。我不熟悉网络安全算法。有没有办法在不深入研究网络安全算法的情况下稍微改变数据呢？

machine-learning

python

data

data-cleaning

anonymization

回答 2

Data Science用户

发布于 2019-10-24 00:02:54

据我所知，文本匿名化大多被认为是手动预处理步骤，我不知道任何可靠的全自动方法。由于法律和道德方面的原因，这个过程的可靠性通常是至关重要的，这就是为什么必须有一定数量的手工工作。

也就是说，这个过程可以半自动进行，特别是如果要混淆的信息范围不太大的话。在您的示例中，很可能可以应用恩塔格来捕获大部分实体。

一旦所有实体都在原始数据中进行了注释，就很容易用占位符自动替换它们。这可以在保持原始版本和匿名版本对齐的同时完成(通常对每个实体使用唯一的id )。

票数 2

Data Science用户

发布于 2019-10-24 03:57:06

总的来说，我认为HIPPA标准是一个好的开始。这将包括将非个人身份识别信息(pii)与不需要保密的信息分开。[1]。

老实说，匿名地理定位并没有很好的标准，这样既可以保护隐私，又可以进行数据分析，这也是NIST感兴趣的领域。事实上，它是2018年年不可连接的数据挑战的主题之一。

一组详细的方法可以找到这里。

在此之前，我将向您介绍被称为密码权利答案的内容。立即散列，不要使用MD5、MD6或SHA-1等.

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/62144

复制

相似问题

问Python中的数据匿名化
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中的数据匿名化EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python中的数据匿名化
EN