首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >通过html编辑pdf

通过html编辑pdf
EN

Stack Overflow用户
提问于 2013-06-02 01:00:51
回答 1查看 126关注 0票数 0

我不确定这里是否适合这个问题,但我找不到任何其他的建议媒介。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-06-04 00:36:27

文本提取。正如mkl在注释中提到的,PDF可能已经包含一个文本层(以数字方式创建或预编译),或者它可能是不含文本(扫描或光栅化)的纯图像PDF。可以尝试现有的文本提取,但我认为成功的机会很低,因为PDF没有用于文本提取的坐标信息。换句话说,从PDF中以编程方式提取所有现有文本非常容易,但从特定区域或区域提取文本却很难。因此,即使内部已经存在文本,也经常使用OCR,因为OCR返回的文本具有非常详细的位置和区域信息,这些信息可以映射到图像坐标。

PDF区域突出显示。我相信你将不得不重新构建一个新的PDF与某些区域突出显示,或建立您自己的类似PDF的查看器,将快乐的图像和坐标和文本和突出显示的区域。我会选择创建自己的查看器的第二种选择,因为您可以对功能和UI进行额外的控制。您的查看器可以接受PDF作为输入,并生成修改后的PDF作为输出,但是当您处理文档时,它不一定是PDF,即使对于用户来说,它的行为可能类似于PDF,但增加了交互功能。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16875051

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档