首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PDFClown中的空空格转换

PDFClown中的空空格转换
EN

Stack Overflow用户
提问于 2016-04-27 17:24:11
回答 1查看 337关注 0票数 0

我在PDFClown中使用PDFClown类时遇到了问题,空空格的出现也称为“任意换行符”。这些字符被随机嵌入,但在Acrobat中被忽略。因此,如果将'\n'指定为TextExtractor.ToString(...)中的换行符,这些字符存在的行将在Acrobat中显示为一行,但在提取文本时将被拆分为多行。

看起来PDF小丑只是接受任何空格字符,并将其转换为一个单独的空间,或' '。是否有一种方法可以绕过此转换,以便提取原始字符?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-24 19:06:17

经过更多的研究,看来PDFClown库是非常错误的。有几个问题:

  • 将大多数空间字符形式转换为单个普通空格字符。
  • 插入空格而不是换行符。
  • 如果试图使用提供的重写来为空格或换行符插入您自己的字符,则将销毁提取的数组中的字符到每个单个字符的框中的内部映射。
  • 无法正确解码所有嵌入字体。
  • 因为它不能正确地解码嵌入的字体,所以它将悄悄地从提取的文本中省略字符。
  • 不能可靠地处理韧带或韧带的分解。通常从摘录的文本中完全消失。

为了直接讨论我遇到的问题,您可以通过检查这些“假”空白字符的边界矩形来检测和删除它们是否与其他非空白字符重叠,但考虑到库中的所有其他问题,我建议使用PDFBox。

如果您使用的是.NET,并且您想使用PDFBox,那么您可以使用点网上的Tika,这是通过IKVM引入.NET的阿帕奇蒂卡项目。

Apache是其他库的集合,包括PDFBox。Tika On Dot目前有PDFBox 1.8.10,还有一个Nuget包,可以轻松地添加到项目中。

我有一个项目比最后期限提前了1.5周,因为所有这些问题都是在一半时间内发现的,这需要完全重写。只是提醒一下。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36896762

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档