我正在为我的PDF数据语料库定制搜索引擎。
我有一个转换层,它能够将PDF内容转储为文本(使用Apache Tika和GROBID)。我已经完成了搜索层和返回搜索结果的视图列表。
现在,我想在原始PDF上为出现搜索词的行添加突出显示功能。是的,如果有必要,我想修改PDF文件。
有没有办法在PDF文件中突出显示里面的文本?PDFMiner或PyPDF2或其他Python库是否能够做到这一点?
..。或者你可以推荐其他的服务,也许是外部服务?
发布于 2016-11-18 23:41:41
您可以使用PyPDF2突出显示文本。
要找到文本的位置,请查看this answer。
https://stackoverflow.com/questions/40288400
复制相似问题