可以在Java中将PDF转换为Word吗?我说的不是解析PDF文档,然后再将其自定义呈现给Word。我想要一个Java库,可以直接转换它。
发布于 2010-11-04 02:12:31
阅读PDF文档是一个非常复杂的过程,在Java中没有很好的免费库来从PDF文档中提取非文本信息。更糟糕的是,PDF文档有许多难以重构的布局信息,例如,Word文档中的表格在PDF中变成了几行和一堆文本。
发布于 2010-11-04 02:31:30
如果你有编写它的相同工具,你有更多的机会,但即使这样,也有很多不确定性。在(文本) PDF中,您唯一可以确定的是每个字符在页面上的位置。(请注意,某些PDF包括位图,其中出现文本信息,并且必须依赖于OCR)。
在计算机科学系和其他部门中,有几个小组正在花费非常大的努力来尝试获取语义信息。我们与宾夕法尼亚州立大学合作,他们正在提取表格。在好的案例中,他们得到90%,在坏的案例中,他们得到50%。
(我们为化学做了很多这样的事情,如果我们定期得到50%,就算自己很幸运)。
发布于 2012-11-07 16:40:59
,,
安装一些免费的程序,如“免费PDF文档”,并从您的java程序执行它。
这在大多数情况下都很好用。
祝你好运
https://stackoverflow.com/questions/4090154
复制相似问题