首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将PDF转换为文本

将PDF转换为文本
EN

Software Recommendation用户
提问于 2018-05-28 11:50:58
回答 2查看 295关注 0票数 3

我有多个PDF文档,其中包含了很多文本。我想在我正在开发的搜索引擎中使用这些文本。该搜索引擎使用的软件不能处理PDF文件,但可以处理JSON、XML和文本文档等格式。

我想要做的是将PDF的文本内容转换为文本文档(例如JSON、XML、TXT)。如果能够将文本内容从单个PDF转换为多个文本文档,我的工作也会更容易。例如,每篇文章有一个文档。

它还必须与Windows 10一起工作。

EN

回答 2

Software Recommendation用户

发布于 2018-12-01 02:31:28

根据维基百科的说法,pdftotext (https://en.wikipedia.org/wiki/Pdftotext)是一种开源命令行实用程序,它完成从PDF到纯文本的转换。在官方页面(http://www.xpdfreader.com/download.html)上有供下载的Windows二进制文件,包括32位和64位。

遗憾的是,我不需要像你这样做,所以这是纯粹的研究信息。我使用它的全部经验是,我下载了工具包(15分钟前),并使用pdftotext从我非常熟悉的PDF生成一个TXT文件,而且我没有看到任何问题。

它允许为转换选择起始页和最后一页,因此它可能适用于您的“多文档”要求,但按内容而不是按页划分文档。我认为您不会幸运地找到这样的东西;对TXT文件执行操作的自定义脚本可能会更好。

票数 2
EN

Software Recommendation用户

发布于 2018-08-02 14:16:58

LEADTOOLS ePrint可用于不同文档和文件类型之间的转换,包括PDF到text。(免责声明:我是本软件供应商的雇员)。

您将需要一个PDF阅读器,例如免费的和LEADTOOLS ePrint打印机驱动程序,它们都安装在同一个Windows上(工作在Windows 10和其他桌面版本上)。

如果原始PDF包含实际文本(可搜索),则可以通过从PDF阅读器程序打印到虚拟打印机驱动程序直接完成转换。

如果源文件包含文本图像,也可以进行转换,但必须使用ePrint中的OCR功能。

您可以在以下网站上找到该项目的免费评估:https://www.eprintdriver.com/Download

甚至在评估期间也可以获得免费的电子邮件支持。

票数 1
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/50358

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档