首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从PDF或包含段落的字符串中识别特定字段的数据

从PDF或包含段落的字符串中识别特定字段的数据
EN

Stack Overflow用户
提问于 2022-08-16 17:26:30
回答 1查看 36关注 0票数 -1

我正在开发一个Android应用程序,其中我想从PDF中提取文本,识别提取出来的文本中的数据,并将其存储在数据库中。

例如:

如果我有一个HealthReport.pdf,在其中所有的健康检查结果都会被写入。我想找出一些特定领域的数据,例如:年龄、性别、体重、身高、血型等,并将其存储在数据库中。

现在我可以从PDF中提取文本了。但是,,我不知道如何从它中识别数据,,这是体重,这是性别,这是身高,这是体重,等等。

如果有人有什么主意,请帮忙.

EN

回答 1

Stack Overflow用户

发布于 2022-08-20 09:26:37

我相信这是你要找的东西:https://nanonets.com/blog/ocr-with-tesseract/

使用OCR进行字符识别和提取,而不是将这些数据导出到某种类型的.csv文件中,以便更易于组织。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73377989

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档