我不确定这里是否适合这个问题,但我找不到任何其他的建议媒介。
发布于 2013-06-04 00:36:27
文本提取。正如mkl在注释中提到的,PDF可能已经包含一个文本层(以数字方式创建或预编译),或者它可能是不含文本(扫描或光栅化)的纯图像PDF。可以尝试现有的文本提取,但我认为成功的机会很低,因为PDF没有用于文本提取的坐标信息。换句话说,从PDF中以编程方式提取所有现有文本非常容易,但从特定区域或区域提取文本却很难。因此,即使内部已经存在文本,也经常使用OCR,因为OCR返回的文本具有非常详细的位置和区域信息,这些信息可以映射到图像坐标。
PDF区域突出显示。我相信你将不得不重新构建一个新的PDF与某些区域突出显示,或建立您自己的类似PDF的查看器,将快乐的图像和坐标和文本和突出显示的区域。我会选择创建自己的查看器的第二种选择,因为您可以对功能和UI进行额外的控制。您的查看器可以接受PDF作为输入,并生成修改后的PDF作为输出,但是当您处理文档时,它不一定是PDF,即使对于用户来说,它的行为可能类似于PDF,但增加了交互功能。
https://stackoverflow.com/questions/16875051
复制相似问题