首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从文档中提取标记:应用深度学习还是分类?

从文档中提取标记:应用深度学习还是分类?
EN

Data Science用户
提问于 2019-08-24 09:38:04
回答 2查看 55关注 0票数 1

我有一份法律文件。那份文件是原告提供的4页证据。我想指出文件中的日期、地址和金融交易。

我可以应用深入学习,与我的数据很小,只有一个4页的文件,或我是否应该应用文本分类来解决我的问题?

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-08-24 12:55:20

如果你有真实的文本,而不是一个PDF或者图像的扫描文档,尝试在文本中找到某些东西是很容易的。这其实是一个相当大的话题,可能会变得相当困难。

纯文本

如果您有纯文本,则可以使用自定义正则表达式解析需要的部分,例如,要查找日期,可以使用以下方法:

代码语言:javascript
复制
^(19|20)\d\d[- /.](0[1-9]|1[012])[- /.](0[1-9]|[12][0-9]|3[01])$

匹配从1909-01-01到2099-12-31的yyyy dd格式的日期,并选择四个分隔符(来源)。

我相信甚至有几个库专门为你在文本中找到日期。

PDF

实际上,PDF有很多种类型,也就是有很多种方法可以在幕后对pdf进行编码。有些类型更容易解析其他类型,但幸运的是,有一些库可以帮助实现这一点。例如,查看PDFMiner

在使用了这样一个库之后,您将有希望保留纯文本,并可能回到使用该部分中的方法。

图像

如果你有足够的运气有一个图像作为起点,那么你现在是在OCR -光学字符识别领域。为了更完整地描述可能的方法,我建议阅读这篇博客文章,但是简单地说,您可以尝试使用以下两种方法:

  1. 一种传统的计算视觉算法(应用滤波和边缘搜索等)
  2. 专门处理文本的经过培训的模型(例如EAST:一种高效、准确的场景文本检测器)
  3. 一般模型

Tesseract图书馆是帮助OCR的一个很好的模型。

您说您正在学习NLP,所以从PDF中实际提取令牌可能不是最好的开始。我建议您首先确切地确定您真正想要学习的内容,并学习关于该topic.area的课程或教程。

票数 1
EN

Data Science用户

发布于 2019-08-24 09:51:05

对于您的情况,使用文本分类或正则表达式可能更容易。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/58116

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档