首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >pdf2image错误字体和裁剪文本

pdf2image错误字体和裁剪文本
EN

Stack Overflow用户
提问于 2022-02-03 13:21:25
回答 1查看 256关注 0票数 1

我正在将我的PDF转换成Python中的图像,其中包含来自pdf2image库的convert_from_path

这是原始的PDF:

这是生成的图像:

正如您所看到的,这里的问题是图像中的字体不是很好的字体,而且还缺少一些文本(底部的附件)。因此:

  • 为什么我的短信被剪掉了?
  • 如何将字体添加到pdf2library

编辑:链接到PDF (将其下载到您的计算机,以便查看正确的字体,即Mistral)

EN

回答 1

Stack Overflow用户

发布于 2022-02-03 14:28:08

打开文件时,外观应该是这样的,字段没有突出显示。有一些文本,如" "和字段,似乎在深入挖掘,需要在视觉上改变NeedAppearances true

而其他人可能试图在实地位置放置一些东西,并与多行条目进行斗争,因为这是PDF的正常行为,因为在PDF中,单行打印机的文本块是正常的。一个很好的简单的字体测试,是在MS中为一个放置良好的字体,它能被选中并大声读出吗?这里不是这样的,所以插入的文本有问题。稍后,我们看到它们是FDF (即纯文本)条目。

当使用非14基字体时,它们必须是完全嵌入式的或更糟的子集,但在这两种情况下,字体许可证都可能有限制,这也应该是支票:-)双关。

字体可能没有很好的嵌入,所以有些观众可能看到除了搜索之外,没有什么是可以搜索的,但是文件中说,使用中的基本字体是BaseFont/BCDEEE+Calibri & FontName/BCDEEE+Calibri (想必是所有这些空白文本),其中包括嵌入在字体中的“使用许可证”,(2018年微软).为了..。圣经希伯来文..。是麻省理工学院许可下的开源软件..。你可以用这个字体来创建..。微软..。内容..。禁止任何其他用途。Producer(DocHub v5.0.7, build 9d3cd43) (来自MS Office 365)。

与字段相关的另一种字体是/Font << /FThcmByOND,后来被称为/BaseFont/Helvetica,该字体可能是用于自调整字段的字体。Adobe还报告说,有一个MyriadPro-正则嵌入式作为开放类型的地方(我不能很容易地看到该许可,所以可能被排除或编码)。

但是,如果不像Xchange窗口那样应用嵌入式字符,那么字体在Windows上很可能默认为Arial。

从内部看,我们可以看到左边的所有文本都被描述为“”,因此没有任何要显示的内容,虽然文件声明它可以总体上使用卡利布里,但这里的字体名称默认为不可见的Arial。

因此,许多行为冲突导致无法使用字体。可见文本来自表单字段,根据这些字段的定义方式,需要修改它们的外观,这在某些查看器中是不允许的,因此出现了初始的空白支票条目。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70972046

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档