问PDFClown中的空空格转换
EN

Stack Overflow用户

提问于 2016-04-27 17:24:11

回答 1查看 337关注 0票数 0

我在PDFClown中使用PDFClown类时遇到了问题，空空格的出现也称为“任意换行符”。这些字符被随机嵌入，但在Acrobat中被忽略。因此，如果将'\n'指定为TextExtractor.ToString(...)中的换行符，这些字符存在的行将在Acrobat中显示为一行，但在提取文本时将被拆分为多行。

看起来PDF小丑只是接受任何空格字符，并将其转换为一个单独的空间，或' '。是否有一种方法可以绕过此转换，以便提取原始字符？

pdf

pdfclown

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-24 19:06:17

经过更多的研究，看来PDFClown库是非常错误的。有几个问题：

将大多数空间字符形式转换为单个普通空格字符。
插入空格而不是换行符。
如果试图使用提供的重写来为空格或换行符插入您自己的字符，则将销毁提取的数组中的字符到每个单个字符的框中的内部映射。
无法正确解码所有嵌入字体。
因为它不能正确地解码嵌入的字体，所以它将悄悄地从提取的文本中省略字符。
不能可靠地处理韧带或韧带的分解。通常从摘录的文本中完全消失。

为了直接讨论我遇到的问题，您可以通过检查这些“假”空白字符的边界矩形来检测和删除它们是否与其他非空白字符重叠，但考虑到库中的所有其他问题，我建议使用PDFBox。

如果您使用的是.NET，并且您想使用PDFBox，那么您可以使用点网上的Tika，这是通过IKVM引入.NET的阿帕奇蒂卡项目。

Apache是其他库的集合，包括PDFBox。Tika On Dot目前有PDFBox 1.8.10，还有一个Nuget包，可以轻松地添加到项目中。

我有一个项目比最后期限提前了1.5周，因为所有这些问题都是在一半时间内发现的，这需要完全重写。只是提醒一下。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36896762

复制

相似问题

问PDFClown中的空空格转换
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDFClown中的空空格转换EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PDFClown中的空空格转换
EN