我正在使用tesseract-ocr并获得hOCR格式的输出。我需要将这个hOCR输出存储到数据库中(在我的例子中是PostgreSQL)。
既然我可能需要这个hOCR中的每一条信息(80% ),那么哪种方法是正确的呢?应该将其存储为XML数据类型还是解析为JSON并存储?在JSON的情况下,如何使用Python将此hOCR解析为JSON。其他相关的建议也很受欢迎。
https://stackoverflow.com/questions/51421283
相似问题