我已经做了一个文件爬虫使用python来读取我计算机中的所有图片(大约250K文件),并将这些信息保存在MySQL数据库中。我还保存了每个文件的所有EXIF元数据。接下来,我会给它们添加标签,将它们与一个唯一的ID相关联,但对于相同的图片,这总是相同的,以防我再次运行爬虫程序,文件改变了它的位置或名称。为此,我使用字符串和相关的Exif信息创建了一个散列。
我考虑到这些年来,我用不同的相机或手机拍摄过照片,有些Exif标签并不是所有相机都有。我还看到,大多数标签没有太多不同的值来使字符串唯一。
即时通信工具使用:
Exif_Image_Length * Exif_Image_Width (图片区域)+ Image_DateTime + Image_Make + Image_Model
并对该字符串进行哈希运算。我仍然会得到重复的散列,而不是唯一的散列。
如果有人对我正在尝试做的事情有更好的方法,我会很高兴的。
提前谢谢你,
巴勃罗
编辑:我需要获取图像的唯一ID,每次我处理该文件名/ exif元数据时,考虑到文件名和位置可能会更改,我会获得相同的ID (但EXIF数据将保持不变)
发布于 2020-01-04 05:10:57
你有什么新想法吗?在带有exif数据的照片中,有时会有一些唯一的ids。一个应该总是相同的,即使你例如转换原始的=>,psd,=>,jpg,=>,psd,=>。
当你提到的所有数据字段都设置好后,你真的会得到重复的数据吗?从摄影师的角度:宽度+高度是非常无用的(总是相同的相机,除了它的裁剪图像)你可以使用相机的序列号,包括镜头序列号感谢创建时间唯一的副本应该存在,因为短爆发的照片与短间隔。
可能的错误:修改日期/时间(例如,sommer时间转换),手动创建的文件,或使用剪贴板或一些奇怪的东西。它真的是一个复制品。
https://stackoverflow.com/questions/57898960
复制相似问题