我对Python还比较陌生,并在以下方面苦苦挣扎:
我有一个包含大约52,000个字典的列表,其中包含PDF上的元数据(这些元数据是单独存储的)。现在,我想将这些PDF中的5,000个匹配到相应的元数据字典,但我不知道如何做到这一点。
元数据:
[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]PDF文件名与“代码”值相对应(即文件名为5346、8372、3475_c、0294、5837_c等,通常为三、四或五个数字或由_c补充的三个、四个或五个数字)。是否有一种方法可以将PDF与元数据字典列表中的正确字典匹配,使用PDF的文件名进行匹配?
其他解决方案也很受欢迎!
编辑:我的目标是创建一个Textacy,其中每个条目都是一个Textacy (即一个PDF的内容)及其相应的Textacy元数据(即PDF元数据)。
textacy_corpus = textacy.Corpus(u'en', texts=pdfs_list, metadatas=metadata_list)在Textacy的文档中:“元数据流必须与texts或docs__完全一致,否则元数据将被错误分配。更具体地说,metadatas中的第一项将分配给texts或docs__中的第一项,等等。”这就是我希望将PDF与正确的元数据匹配的原因。
发布于 2017-07-17 10:03:03
dict((x['Code'],x) for x in <YOUR_LIST>)https://stackoverflow.com/questions/45140775
复制相似问题