我正在开发一个Android应用程序,其中我想从PDF中提取文本,识别提取出来的文本中的数据,并将其存储在数据库中。
例如:
如果我有一个HealthReport.pdf,在其中所有的健康检查结果都会被写入。我想找出一些特定领域的数据,例如:年龄、性别、体重、身高、血型等,并将其存储在数据库中。
现在我可以从PDF中提取文本了。但是,,我不知道如何从它中识别数据,,这是体重,这是性别,这是身高,这是体重,等等。
如果有人有什么主意,请帮忙.
发布于 2022-08-20 09:26:37
我相信这是你要找的东西:https://nanonets.com/blog/ocr-with-tesseract/
使用OCR进行字符识别和提取,而不是将这些数据导出到某种类型的.csv文件中,以便更易于组织。
https://stackoverflow.com/questions/73377989
复制相似问题