首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python:如何将字典值与文件名匹配?

Python:如何将字典值与文件名匹配?
EN

Stack Overflow用户
提问于 2017-07-17 09:40:21
回答 1查看 528关注 0票数 0

我对Python还比较陌生,并在以下方面苦苦挣扎:

我有一个包含大约52,000个字典的列表,其中包含PDF上的元数据(这些元数据是单独存储的)。现在,我想将这些PDF中的5,000个匹配到相应的元数据字典,但我不知道如何做到这一点。

元数据:

代码语言:javascript
复制
[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]

PDF文件名与“代码”值相对应(即文件名为5346、8372、3475_c、0294、5837_c等,通常为三、四或五个数字或由_c补充的三个、四个或五个数字)。是否有一种方法可以将PDF与元数据字典列表中的正确字典匹配,使用PDF的文件名进行匹配?

其他解决方案也很受欢迎!

编辑:我的目标是创建一个Textacy,其中每个条目都是一个Textacy (即一个PDF的内容)及其相应的Textacy元数据(即PDF元数据)。

代码语言:javascript
复制
textacy_corpus = textacy.Corpus(u'en', texts=pdfs_list, metadatas=metadata_list)

在Textacy的文档中:“元数据流必须与textsdocs__完全一致,否则元数据将被错误分配。更具体地说,metadatas中的第一项将分配给textsdocs__中的第一项,等等。”这就是我希望将PDF与正确的元数据匹配的原因。

EN

回答 1

Stack Overflow用户

发布于 2017-07-17 10:03:03

代码语言:javascript
复制
dict((x['Code'],x) for x in <YOUR_LIST>)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45140775

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档