我有多个PDF文档,其中包含了很多文本。我想在我正在开发的搜索引擎中使用这些文本。该搜索引擎使用的软件不能处理PDF文件,但可以处理JSON、XML和文本文档等格式。
我想要做的是将PDF的文本内容转换为文本文档(例如JSON、XML、TXT)。如果能够将文本内容从单个PDF转换为多个文本文档,我的工作也会更容易。例如,每篇文章有一个文档。
它还必须与Windows 10一起工作。
发布于 2018-12-01 02:31:28
根据维基百科的说法,pdftotext (https://en.wikipedia.org/wiki/Pdftotext)是一种开源命令行实用程序,它完成从PDF到纯文本的转换。在官方页面(http://www.xpdfreader.com/download.html)上有供下载的Windows二进制文件,包括32位和64位。
遗憾的是,我不需要像你这样做,所以这是纯粹的研究信息。我使用它的全部经验是,我下载了工具包(15分钟前),并使用pdftotext从我非常熟悉的PDF生成一个TXT文件,而且我没有看到任何问题。
它允许为转换选择起始页和最后一页,因此它可能适用于您的“多文档”要求,但按内容而不是按页划分文档。我认为您不会幸运地找到这样的东西;对TXT文件执行操作的自定义脚本可能会更好。
发布于 2018-08-02 14:16:58
LEADTOOLS ePrint可用于不同文档和文件类型之间的转换,包括PDF到text。(免责声明:我是本软件供应商的雇员)。
您将需要一个PDF阅读器,例如免费的和LEADTOOLS ePrint打印机驱动程序,它们都安装在同一个Windows上(工作在Windows 10和其他桌面版本上)。
如果原始PDF包含实际文本(可搜索),则可以通过从PDF阅读器程序打印到虚拟打印机驱动程序直接完成转换。
如果源文件包含文本图像,也可以进行转换,但必须使用ePrint中的OCR功能。
您可以在以下网站上找到该项目的免费评估:https://www.eprintdriver.com/Download
甚至在评估期间也可以获得免费的电子邮件支持。
https://softwarerecs.stackexchange.com/questions/50358
复制相似问题