首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于搜索PII的Python脚本

用于搜索PII的Python脚本
EN

Stack Overflow用户
提问于 2012-05-17 02:43:33
回答 3查看 10K关注 0票数 5

我想写一个脚本,可以在文件系统中搜索和报告个人身份信息,如卡号等。我想在txt以及xls word和PDF文件中找到它。

欢迎任何入门技巧或使用哪个库。

我也想要一个有效的方式来扫描大文件的模式,如信用卡等的建议。

EN

回答 3

Stack Overflow用户

发布于 2015-10-17 10:11:04

给piianalyzer一次机会:https://pypi.python.org/pypi/piianalyzer/0.1.0

或者,您可以编写自己的数据集,并使用常见的正则表达式数据集,如https://github.com/madisonmay/CommonRegex

票数 5
EN

Stack Overflow用户

发布于 2017-11-05 22:04:25

如果你在一家公司工作,你可以考虑购买成套解决方案。我在广告中看到过一个叫Nuix的。此外,Oracle还为GDPR (新的欧盟隐私法)提供了端到端解决方案,其中包括您所描述的功能。参见http://www.oracle.com/technetwork/database/security/wp-security-dbsec-gdpr-3073228.pdf

如果您有Oracle RDBMS,有一个名为CTXSYS (现在称为Oracle Text)的包,它具有惊人的跨文档搜索功能,包括PDF、整个Office套件等等。CTXSYS包含在常规许可证中。如果您是家庭用户,则可以下载Oracle服务器( Express版本就可以完成此功能)。

如果按照上面的建议使用正则表达式,一种简单的方法是搜索句子中间大写的单词,但这只对文档有帮助(例如,对XLS就没有太大帮助)。您还可以构建一个常用名称(名/姓、街道、城镇)的字典。信用卡和SSN应该是可随时注册的。

票数 1
EN

Stack Overflow用户

发布于 2018-06-09 17:52:52

我们正在实现一个类似的系统,它允许从动态表单和CSV导入进行数据输入。字段将被分类为列表、数字范围、自由文本。数据最终出现在DB表的一个字段中。我们正在扫描自由文本条目以查找PHI。数据通过网站输入并存储在SQL Server中。我们发出一个命令,将任何新导入批次的id添加到RabbitMQ队列中,并将批次中的所有自由文本字段标记为待定检查,以防止它们被显示或导出。所有被认为是“安全”的字段,例如那些从下拉列表或基于数字范围生成的字段,都可以导出或显示在图表中。只有自由文本字段被临时锁定。然后,python windows服务从Rabbit队列中提取数据,扫描每个文本字段中的PHI,并相应地对其进行标记。如果有字段看起来可疑,我会得到一个报告,并手动检查整个文本导入批次。我目前正在使用Spacy进行实体识别,并使用Deduce的各个方面来查找其他PHI型。

由于分析是异步执行的,因此我能够将数据放入多个扫描方法中,而不会影响性能。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10624681

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档