我正在尝试将pdf转换成文档,在php中使用Libreoffice,这是不工作的。
path/to/soffice --infilter="writer_pdf_import" --convert-to doc file.pdf /path/to/test.docxPS:有没有其他更好的解决方案来解析pdf和提取图像,而不仅仅是文本,然后将其隐藏到文档表示中。
发布于 2017-03-22 04:39:30
嗯,你没有告诉我们错误,所以我不知道为什么你的命令不起作用。但是,该命令不是Libreoffice的命令,而是使用皂沫的命令:
这是一个使用libreoffice软件的示例:
path/to/libreoffice --headless --invisible --convert-to doc your_source_file.pdf注意:
此解决方案仅转换没有图像的文本。
备选案文01:
如果LibreOffice不能在您的系统上工作,阿比字也会以类似的方式工作。
sudo apt-get install abiword然后执行转换:
abiword --to=doc your_source_file.pdf备选案文02:
如果您想继续使用soffice的命令,可能可以使用以下语法:
path/to/soffice --headless --convert-to <TargetFileExtension>:<NameOfFilter> your_source_file.pdf在您的示例中,doc文件使用"MS 2007 XML“或docx使用"Microsoft 2007/2010/2013 XML”和docx使用"Microsoft 2007-2013 XML“作为筛选器:
path/to/soffice --headless --convert-to docx:"Microsoft Word 2007/2010/2013 XML" your_source_file.pdf这里你可以找到更多的过滤器。
https://stackoverflow.com/questions/42942104
复制相似问题