我正在尝试从PDF文件中进行批量文本提取。我尝试过很多库,Adobe Reader对我来说似乎是最准确的文本提取工具。
我注意到在安装Adobe Reader的文件夹中有一个AcroTextExtractor.exe文件。它的名字似乎很有希望,谷歌他们显示这个文件是PDF到文本转换例程的一部分。
如何从命令行调用此文件进行文本提取?
发布于 2017-12-18 19:44:42
我也想把它用在同样的场景中。
我做了一个实验,看看是否可以检查在启动AcroTextExtractor.exe时可能会看到的命令行。
我用Adobe Acrobat Reader DC版本2018.009.20050打开了一个很大的PDF。然后我将其保存为文本(文件|另存为其他|文本),当Reader生成文本文件(成功)时,我检查了任务管理器、sysinternals进程资源管理器和Powershell中的WMI中所有正在运行的进程。
不幸的是,我找不到使用包含AcroTextExtractor.exe的路径启动的进程;因此,我无法获取命令行。
这很可能是转移注意力的问题。
https://stackoverflow.com/questions/29536596
复制相似问题