我有一个扫描的PDF,其中有一些表格格式的随机数据,并希望将其复制到Excel工作表。
我试过使用数字PDF,使用'tabula‘来提取表格,但扫描的PDF需要OCR(我在google上看到的)。我知道涉及到OCR (Tesseract),但不知道我应该采取什么方法来解决这个问题。
发布于 2019-06-23 09:34:50
看看Tesseract的TSV (制表符分隔值)输出格式,看看Excel是否可以读取或导入它。可能需要进行一些转换才能将其转换为Excel可使用的格式。
https://digi.bib.uni-mannheim.de/tesseract/manuals/tesseract.1.html
https://stackoverflow.com/questions/56685482
复制相似问题