我目前正在使用python删除PDF文件中的水印。例如,我有一个这样的文件:

页面中央的绿色形状是水印。我认为它不是以文本形式存储在PDF中的,因为我通过使用边缘浏览器(它可以读取PDF文件)搜索无法找到该文本。此外,我无法通过图像找到水印。我使用PyMuPDF从PDF中提取所有图像,水印(应该出现在每一页上)是找不到的。
我用于提取的代码如下:
document = fitz.open(self.input)
for each_page in document:
image_list = each_page.getImageList()
for image_info in image_list:
pix = fitz.Pixmap(document, image_info[0])
png = pix.tobytes() # return picture in png format
if png == watermark_image:
document._deleteObject(image_info[0])
document.save(out_filename)那么,如何使用python的库查找和删除水印呢?如何将水印存储在PDF中?
除了PyMuPDF,还有其他“魔法”库可以完成这个任务吗?
发布于 2022-08-04 10:16:57
对于任何对细节感兴趣的人,请参阅提供的解决方案这里。删除在此文件中使用的水印类型与PyMuPDF的低级代码接口一起工作。没有直接的,专门的高级API来做这件事.
https://stackoverflow.com/questions/73206420
复制相似问题