我有包含N个页数的PDF。如何计算彩色和非彩色(黑白)页面?
例如:如果我给100页PDF文件作为输入,它应该说X页数是彩色的,Y页数是非彩色的。
发布于 2021-01-13 18:24:29
您可以将PDF格式转换为图像(例如,使用pdf2image),然后分析不同的通道。例如,使用HSV时,如果页面仅包含黑白,则H和S通道应为0或接近0。
import pdf2image
import numpy as np
images = convert_from_path('example.pdf')
sw=0
color=0
for image in images:
img = np.array(image.convert('HSV'))
hsv_sum = img.sum(0).sum(0)
if hsv_sum[0] == 0 and hsv_sum[1] == 0:
sw += 1
else:
color += 1给我一个例子sw=1和color=1的一个网站的黑色文本和一侧的红色文本,每个白色背景的pdf示例。
如果背景不是全白而文本是全黑的(例如扫描的PDF),您可能需要搜索小于一部分像素的hsv_sum0:1。
https://stackoverflow.com/questions/65698960
复制相似问题