文本提取。正如mkl在注释中提到的，PDF可能已经包含一个文本层(以数字方式创建或预编译)，或者它可能是不含文本(扫描或光栅化)的纯图像PDF。可以尝试现有的文本提取，但我认为成功的机会很低，因为PDF没有用于文本提取的坐标信息。换句话说，从PDF中以编程方式提取所有现有文本非常容易，但从特定区域或区域提取文本却很难。因此，即使内部已经存在文本，也经常使用OCR，因为OCR返回的文本具有非常详细的位置和区域信息，这些信息可以映射到图像坐标。

PDF区域突出显示。我相信你将不得不重新构建一个新的PDF与某些区域突出显示，或建立您自己的类似PDF的查看器，将快乐的图像和坐标和文本和突出显示的区域。我会选择创建自己的查看器的第二种选择，因为您可以对功能和UI进行额外的控制。您的查看器可以接受PDF作为输入，并生成修改后的PDF作为输出，但是当您处理文档时，它不一定是PDF，即使对于用户来说，它的行为可能类似于PDF，但增加了交互功能。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16875051

复制

相似问题

问通过html编辑pdf
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过html编辑pdfEN