首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将PDF转换为HTML?

如何将PDF转换为HTML?
EN

Stack Overflow用户
提问于 2011-12-04 02:44:24
回答 6查看 37.2K关注 0票数 29

有没有合适的库可以用来将PDF转换为HTML或其他可以轻松转换为HTML的格式?

我搜索了类似的问题,但没有找到。

我希望能够从PDF中提取文本,可能是图像。我并不打算将PDF嵌入到HTML中。

EN

回答 6

Stack Overflow用户

回答已采纳

发布于 2012-06-07 14:27:42

正如我在上面的评论中提到的,使用可以从here下载的工具Able2Extract7将pdf转换为html是完全可能的。

我已经使用这个工具快两年了,我对它很满意。这个工具可以让你转换PDF为Word,Excel,PowerPoint,Publisher,HTML,OO等。

Imp注意::此工具不是免费软件。

HTH

票数 6
EN

Stack Overflow用户

发布于 2016-11-28 06:37:14

如果您使用的是Linux,请尝试pdftohtml

代码语言:javascript
复制
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

在MacOS (带homebrew)上,可以使用以下命令安装pdftohtml

代码语言:javascript
复制
brew install pdftohtml

开源电子书转换器Calibre还可以将PDF文件转换为HTML,并可在MacOS,Windows和Linux上使用。

票数 22
EN

Stack Overflow用户

发布于 2016-11-24 04:42:44

下载

  • pdfbox-2.0.3.jar
  • fontbox-2.0.3.jar
  • preflight-2.0.3.jar
  • xmpbox-2.0.3.jar
  • pdfbox-tools-2.0.3.jar
  • pdfbox-debugger-2.0.3.jar

来自http://pdfbox.apache.org/

代码语言:javascript
复制
 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

请注意:图像不会被推送到HTML输出。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8370014

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档