有没有合适的库可以用来将PDF转换为HTML或其他可以轻松转换为HTML的格式?
我搜索了类似的问题,但没有找到。
我希望能够从PDF中提取文本,可能是图像。我并不打算将PDF嵌入到HTML中。
发布于 2012-06-07 14:27:42
正如我在上面的评论中提到的,使用可以从here下载的工具Able2Extract7将pdf转换为html是完全可能的。
我已经使用这个工具快两年了,我对它很满意。这个工具可以让你转换PDF为Word,Excel,PowerPoint,Publisher,HTML,OO等。

Imp注意::此工具不是免费软件。
HTH
发布于 2016-11-28 06:37:14
发布于 2016-11-24 04:42:44
下载
来自http://pdfbox.apache.org/
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}请注意:图像不会被推送到HTML输出。
https://stackoverflow.com/questions/8370014
复制相似问题