TL;博士
我正在寻找一个充满PDF文件的文件目录,并将它们的属性,特别是页面号,“导出”到一个.CSV文件中。
Research
我已经找到了许多允许我批量导出PDF元数据的程序,但这通常与源信息有关,而不是与PDF本身的可用信息有关。
详细信息
我需要页码才能推断出页码的顺序。我正在使用的索引系统,将允许双方找到和沟通的文件。我计划拥有一个Excel文档,文档标题和唯一ID将需要对应PDF上的顺序bates编号。
我不介意用它来编写代码或进行广泛的创造性,但是它必须是可以批量完成的事情,因为有很多文件。
谢谢您能提供的任何帮助。
发布于 2018-05-09 21:19:23
您说过您不介意编写代码,所以这里有一个简短的Python脚本,可以实现您想要的功能(据我理解)。
#!python3.6
import csv
import os
import fitz # http://pymupdf.readthedocs.io/en/latest/
def main():
""" Place script in same directory as PDFs. """
script_dir = os.path.dirname(os.path.abspath(__file__))
csv_filename = os.path.join(script_dir, 'pdf_information.csv')
with open(csv_filename, mode='w', newline='') as f:
writer = csv.writer(f)
writer.writerow([
'Filename',
'Page Count',
])
for basename in os.listdir(script_dir):
if basename.upper().endswith('.PDF'):
filename = os.path.join(script_dir, basename)
pdf = fitz.open(filename)
writer.writerow([
basename,
pdf.pageCount,
])
pdf.close()
if __name__ == '__main__':
main()https://stackoverflow.com/questions/50261348
复制相似问题