我在PDFBox上工作,以提取pdf文件的内容。我能够提取文本,但我还需要获得文本的字体属性。那么有没有人能帮我提取字体属性呢?
而且我在正确提取某些字符时也遇到了问题。PDFBox给出了'?‘当它不能识别字符时。所以如果可能的话,也可以给我一些建议来解决这个问题。
提前谢谢..
发布于 2012-05-24 19:29:09
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class pdf2box {
public static void main(String args[])
{
try
{
PDDocument pddDocument=PDDocument.load("table2.pdf");
PDFTextStripper textStripper=new PDFTextStripper();
System.out.println(textStripper.getText(pddDocument));
textStripper.getFonts();
pddDocument.close();
}
catch(Exception ex)
{
ex.printStackTrace();
}
}
}https://stackoverflow.com/questions/9784031
复制相似问题