我在PDFClown中使用PDFClown类时遇到了问题,空空格的出现也称为“任意换行符”。这些字符被随机嵌入,但在Acrobat中被忽略。因此,如果将'\n'指定为TextExtractor.ToString(...)中的换行符,这些字符存在的行将在Acrobat中显示为一行,但在提取文本时将被拆分为多行。
看起来PDF小丑只是接受任何空格字符,并将其转换为一个单独的空间,或' '。是否有一种方法可以绕过此转换,以便提取原始字符?
发布于 2016-05-24 19:06:17
经过更多的研究,看来PDFClown库是非常错误的。有几个问题:
为了直接讨论我遇到的问题,您可以通过检查这些“假”空白字符的边界矩形来检测和删除它们是否与其他非空白字符重叠,但考虑到库中的所有其他问题,我建议使用PDFBox。
如果您使用的是.NET,并且您想使用PDFBox,那么您可以使用点网上的Tika,这是通过IKVM引入.NET的阿帕奇蒂卡项目。
Apache是其他库的集合,包括PDFBox。Tika On Dot目前有PDFBox 1.8.10,还有一个Nuget包,可以轻松地添加到项目中。
我有一个项目比最后期限提前了1.5周,因为所有这些问题都是在一半时间内发现的,这需要完全重写。只是提醒一下。
https://stackoverflow.com/questions/36896762
复制相似问题