我正在从事一个由真实数据组成的工业项目。现在,这些数据包含了有关公司运营的敏感信息,这些信息无法公开披露。因此,在实现机器学习算法之前,我需要先匿名原始数据。`匿名数据包括:
changing the names of persons,places,geographical locations, etc.我想知道匿名数据集的最佳做法是什么?理想情况下,在对匿名数据集执行分析之后,我应该能够获得原始数据。
我翻阅了文献,看了看一些已回答的问题。它们都基于cybersecurity aspects,比如encryption and decryption algorithms。我不熟悉网络安全算法。有没有办法在不深入研究网络安全算法的情况下稍微改变数据呢?
发布于 2019-10-24 00:02:54
据我所知,文本匿名化大多被认为是手动预处理步骤,我不知道任何可靠的全自动方法。由于法律和道德方面的原因,这个过程的可靠性通常是至关重要的,这就是为什么必须有一定数量的手工工作。
也就是说,这个过程可以半自动进行,特别是如果要混淆的信息范围不太大的话。在您的示例中,很可能可以应用恩塔格来捕获大部分实体。
一旦所有实体都在原始数据中进行了注释,就很容易用占位符自动替换它们。这可以在保持原始版本和匿名版本对齐的同时完成(通常对每个实体使用唯一的id )。
发布于 2019-10-24 03:57:06
总的来说,我认为HIPPA标准是一个好的开始。这将包括将非个人身份识别信息(pii)与不需要保密的信息分开。[1]。
老实说,匿名地理定位并没有很好的标准,这样既可以保护隐私,又可以进行数据分析,这也是NIST感兴趣的领域。事实上,它是2018年年不可连接的数据挑战的主题之一。
一组详细的方法可以找到这里。
在此之前,我将向您介绍被称为密码权利答案的内容。立即散列,不要使用MD5、MD6或SHA-1等.
https://datascience.stackexchange.com/questions/62144
复制相似问题