首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用pdfbox获取pdf文本的字体属性

使用pdfbox获取pdf文本的字体属性
EN

Stack Overflow用户
提问于 2012-03-20 17:16:39
回答 1查看 2.3K关注 0票数 0

我在PDFBox上工作,以提取pdf文件的内容。我能够提取文本,但我还需要获得文本的字体属性。那么有没有人能帮我提取字体属性呢?

而且我在正确提取某些字符时也遇到了问题。PDFBox给出了'?‘当它不能识别字符时。所以如果可能的话,也可以给我一些建议来解决这个问题。

提前谢谢..

EN

回答 1

Stack Overflow用户

发布于 2012-05-24 19:29:09

代码语言:javascript
复制
import org.apache.pdfbox.pdmodel.PDDocument;  
import org.apache.pdfbox.util.PDFTextStripper;  
public class pdf2box {  
    public static void main(String args[])
    {
        try
        {
    PDDocument pddDocument=PDDocument.load("table2.pdf");
    PDFTextStripper textStripper=new PDFTextStripper();
    System.out.println(textStripper.getText(pddDocument));
    textStripper.getFonts();



    pddDocument.close();
        }
        catch(Exception ex)
        {
        ex.printStackTrace();
        }
    }


}
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9784031

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档