首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >pdf到word转换显示垃圾内容

pdf到word转换显示垃圾内容
EN

Stack Overflow用户
提问于 2017-09-20 08:36:22
回答 1查看 810关注 0票数 1

我有一个公共PDF没有复制限制。但是,当我试图将PDF中的文本复制到Word中时,我只会出现不可读的胡言乱语(比如框和符号)。

我试着改变字体,但这也没用。我不明白是什么引起了这个问题。

我还搜索了一些在线工具,但这些工具似乎都没有用。

有什么帮助或想法吗?

干杯。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-20 11:33:31

如果您尝试的每个(联机)工具都无法处理此文档,则有两个选项:

  1. 每一个工具都是错误的
  2. 你的文件错了

我认为结论nr2是有道理的。但是,请允许我解释一下什么是罪魁祸首。

首先,您应该将pdf文档视为指令容器,而不是WYSIWYG文档。所以提取文本已经不是件小事了。

但这里的问题似乎是编码问题。您的文档中包含“在位置10,50处绘制ب”之类的说明。(我以阿拉伯语文本为例。)

如果没有任何进一步的信息,查看器(如Adobe)就很难知道如何处理复制粘贴功能。系统上的复制粘贴缓冲区不是使用符号,而是使用unicode。

换句话说,当复制粘贴时,Adobe必须尝试将象形文字转换为实际的unicode。

通常,字体包含有用的信息。我们称之为“toUnicode”地图。它告诉系统某些符号是如何与某些字符匹配的。

如果您的字体不包含这种映射,使用该字体将阻止您形成正确的复制粘贴。此外,还有一些程序故意生成错误的toUnicode地图(作为防止从文档中粘贴副本的一种方法)。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46317161

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档