文章/答案/技术大牛

发布

社区首页 >问答首页 >Python库和ebook/pdf文件管理

问Python库和ebook/pdf文件管理
EN

Stack Overflow用户

提问于 2022-10-21 22:23:05

回答 1查看 51关注 0票数 -1

我有数不清的数字格式的书籍，更多的是pdf格式的，但也有很多是电子酒吧格式的。它们太多，很难在文件夹中排序，可能是两个文件夹的一部分，因此它们被保存在一个文件夹中，而在其他文件夹中只有一个指向文件的链接。我找了一个电子书阅读器软件，可以自己区分和附加任何书籍到一套，但我没有找到这么多。因此，我决定编写一个能够这样做的Python程序，然后打开文件的默认读取器。出于这些原因，我正在为任何能够读取pdf文件的Python库提供服务，并为epub文件提供另一个库。我指的是两个库，它们能够读取文件中的标记/元标记，然后决定保存它的正确文件夹/位置。

python-3.x

pdf

epub

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-10-24 00:51:22

Python相关的PDF工具、模块和库的可用解决方案的范围有点混乱，需要花一点时间才能弄清楚什么是什么，哪些项目是持续维护的。根据我们的研究，这些都是最新的候选人：

PyPDF2:用于提取文档信息和内容、逐页拆分文档、合并文档、裁剪页面和添加水印的Python库。PyPDF2支持未加密和加密的文档。

PDFMiner:完全用Python编写，适合Python2.4。对于Python3，使用克隆包PDFMiner.six。这两个包都允许您解析、分析和转换PDF文档。这包括对PDF1.7以及CJK语言(中文、日文和韩文)以及各种字体类型(Type1、TrueType、Type3和CID)的支持。

PDFQuery:它将自己描述为“一个快速而友好的PDF刮取库”，它是作为PDFMiner、lxml和pyquery的包装器实现的。它的设计目标是“用尽可能少的代码可靠地从PDF集合中提取数据”。

tabula-py:它是tabula的一个简单的Python包装器，它可以从PDF中读取表并将它们转换为Pandas DataFrames。它还允许您将PDF文件转换为CSV/TSV/JSON文件。

pdflib for Python: Poppler的扩展，为它提供Python绑定。它允许您解析、分析和转换PDF文档。不要混淆它的商业挂件有相同的名字。

PyFPDF:一个在Python下生成PDF文档的库。从FPDF库移植而来，这是一个众所周知的PDFlib扩展替换，有许多示例、脚本和派生程序。

PDFTables:一种商业服务，提供从作为PDF文档提供的表中提取。提供了一个API，以便PDFTables可以用作SAAS。

PyX -：PyX是一个用于创建PostScript、PDF和SVG文件的PostScript包。它结合了PostScript绘图模型的抽象和TeX/LaTeX接口。复杂的任务，如创建二维和三维图形的出版物就绪的质量是建立在这些原语。

ReportLab:一个雄心勃勃的工业实力库，主要致力于精确创建PDF文档。免费提供开放源码版本以及商业的，增强的版本名为ReportLab加号。

PyMuPDF (又名"fitz")：，它是一个轻量级的PDF和XPS查看器。该库可以访问PDF，XPS，OpenXPS，电子酒吧，漫画书和小说格式的文件，它以其最高的性能和高的渲染质量而闻名。

pdfrw:一个纯Python的PDF解析器，用于读写PDF。它忠实地复制矢量格式而不进行栅格化。与ReportLab一起，它有助于在用ReportLab创建的新PDF中重用现有PDF的部分。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74159676

复制

相似问题

问Python库和ebook/pdf文件管理
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python库和ebook/pdf文件管理EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python库和ebook/pdf文件管理
EN