首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用深度学习或NLP对pdf文件中扫描文档的分类

用深度学习或NLP对pdf文件中扫描文档的分类
EN

Data Science用户
提问于 2021-08-27 05:13:53
回答 1查看 971关注 0票数 1

我知道使用cnn分类图像,但我有一个问题,我有多种类型的扫描文件,在一个pdf文件在不同的页面。某些类型的扫描文档显示在pdf中的多个页面。

现在我必须分类和返回哪些文档存在,以及它们在pdf文档中显示的页码。如果扫描的文档在多个页面中,我应该返回页码的范围,如“1-10”。

输入将是pdf文件,其中包含扫描的目标文件。

输出应分类为“文档名称”及其“页码”。

有人能指导我如何建立一个模型来解决这个问题吗?

谢谢你

EN

回答 1

Data Science用户

发布于 2021-08-30 11:31:31

因为这是一个没有监管的问题,所以您需要尝试使用主题建模来提取“主题”。Python有许多可用的工具,例如来自雪橇空间性的工具。

基本工作流程:

  • 提取PDF文本
  • 文本预处理(小写、堵住等)
  • 主题建模
  • 每页返回“主题”
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/100553

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档