我有数不清的数字格式的书籍,更多的是pdf格式的,但也有很多是电子酒吧格式的。它们太多,很难在文件夹中排序,可能是两个文件夹的一部分,因此它们被保存在一个文件夹中,而在其他文件夹中只有一个指向文件的链接。我找了一个电子书阅读器软件,可以自己区分和附加任何书籍到一套,但我没有找到这么多。因此,我决定编写一个能够这样做的Python程序,然后打开文件的默认读取器。出于这些原因,我正在为任何能够读取pdf文件的Python库提供服务,并为epub文件提供另一个库。我指的是两个库,它们能够读取文件中的标记/元标记,然后决定保存它的正确文件夹/位置。
发布于 2022-10-24 00:51:22
Python相关的PDF工具、模块和库的可用解决方案的范围有点混乱,需要花一点时间才能弄清楚什么是什么,哪些项目是持续维护的。根据我们的研究,这些都是最新的候选人:
PyPDF2:用于提取文档信息和内容、逐页拆分文档、合并文档、裁剪页面和添加水印的Python库。PyPDF2支持未加密和加密的文档。
PDFMiner:完全用Python编写,适合Python2.4。对于Python3,使用克隆包PDFMiner.six。这两个包都允许您解析、分析和转换PDF文档。这包括对PDF1.7以及CJK语言(中文、日文和韩文)以及各种字体类型(Type1、TrueType、Type3和CID)的支持。
PDFQuery:它将自己描述为“一个快速而友好的PDF刮取库”,它是作为PDFMiner、lxml和pyquery的包装器实现的。它的设计目标是“用尽可能少的代码可靠地从PDF集合中提取数据”。
tabula-py:它是tabula的一个简单的Python包装器,它可以从PDF中读取表并将它们转换为Pandas DataFrames。它还允许您将PDF文件转换为CSV/TSV/JSON文件。
pdflib for Python: Poppler的扩展,为它提供Python绑定。它允许您解析、分析和转换PDF文档。不要混淆它的商业挂件有相同的名字。
PyFPDF:一个在Python下生成PDF文档的库。从FPDF库移植而来,这是一个众所周知的PDFlib扩展替换,有许多示例、脚本和派生程序。
PDFTables:一种商业服务,提供从作为PDF文档提供的表中提取。提供了一个API,以便PDFTables可以用作SAAS。
PyX -:PyX是一个用于创建PostScript、PDF和SVG文件的PostScript包。它结合了PostScript绘图模型的抽象和TeX/LaTeX接口。复杂的任务,如创建二维和三维图形的出版物就绪的质量是建立在这些原语。
ReportLab:一个雄心勃勃的工业实力库,主要致力于精确创建PDF文档。免费提供开放源码版本以及商业的,增强的版本名为ReportLab加号。
PyMuPDF (又名"fitz"):,它是一个轻量级的PDF和XPS查看器。该库可以访问PDF,XPS,OpenXPS,电子酒吧,漫画书和小说格式的文件,它以其最高的性能和高的渲染质量而闻名。
pdfrw:一个纯Python的PDF解析器,用于读写PDF。它忠实地复制矢量格式而不进行栅格化。与ReportLab一起,它有助于在用ReportLab创建的新PDF中重用现有PDF的部分。
https://stackoverflow.com/questions/74159676
复制相似问题