我对GDPR (一般数据保护条例)相关判决的识别有疑问。在Python,Java,.中有工具/方法吗?它是否仅从其描述中标识数据库列是否包含可识别的个人信息?
我们可能会考虑使用单词嵌入,以获得"most_similar“或"most_similar_cosmul”的词给出一个句子,然后识别与地质雷达相关的关键词(生物识别,个人,id,照片……)但结果依赖于词嵌入模型的鲁棒性。
提前谢谢你,
发布于 2020-07-28 09:16:44
在探地雷达中没有所谓的“个人身份识别信息”。这个术语(来自第4条第(1)款)是“个人数据”,定义为:
与已识别或可识别的自然人有关的任何信息
而且它本身也不一定要识别才有资格。什么是“可识别的自然人”?GDPR说:
可识别自然人是指可以直接或间接识别的自然人,特别是通过引用诸如姓名、识别号码、位置数据、在线标识符或与该自然人的身体、生理、遗传、心理、经济、文化或社会身份有关的一个或多个因素来识别的自然人。
将常规的“数据”转化为“个人数据”的关键是“一个或多个因素”短语。一个单独的字段,例如电话号码,可以合理地被认为是唯一识别一个人的字段。邮编本身可能不会,但如果加上街道地址和名字,我们就很接近能够识别某个人,因此所有其他数据都会变成“个人”。很难评估一组字段是否足以唯一地识别某个人--你可能会认为,考虑到"John“和"London",名字和城市可能无法识别某个人,但"Esmerelda”和"Ulaanbaatar“可能相当容易找到,这是”最坏的情况“。
举一个简单的例子:像#663399 这样的颜色值本身就是简单的“数据”,不是“个人数据”,也不受GDPR的约束。将该数据与person 连接起来的表中的字段中存储的与“最喜欢的颜色”完全相同的值是个人数据。“城市”表中的城市不是个人数据,而是用户表中的“城市”字段。
总之,你不能做你想做的事。由于上下文不足,无法从字段的名称中判断字段是否为个人数据。
https://stackoverflow.com/questions/63130327
复制相似问题