我目前正在跟踪的大规模数字化的录像带和需要帮助从多个CSV的数据。大多数磁带都有多份拷贝,但我们只将一盘磁带从电视机上数字化。我想创建一个新的CSV,只包含尚未数字化的节目磁带。U-Matic在这里,我想忽略包含“系列A”和"101“的所有字段,因为这个显示在”日期数字化我试图隔离这些条件,但似乎无法获得未数字化内容的完整列表。reader:
if
我正在使用Tesseract对历史文档进行数字化,并将每张图片中的文本保存为单独的.txt文件,但在尝试使用for循环自动化该过程时遇到了性能问题。tqdm(range(1)):
text = pytesseract.image_to_string(Image.open("C:/Users/user/Desktop/work/Pages/3_2\我能找到的唯一区别是使用了listOfPages,它是我希望数字化的目录中所有图片的列表。user