文章/答案/技术大牛

发布

社区首页 >问答首页 >从文档中提取标记:应用深度学习还是分类？

问从文档中提取标记:应用深度学习还是分类？
EN

Data Science用户

提问于 2019-08-24 09:38:04

回答 2查看 55关注 0票数 1

我有一份法律文件。那份文件是原告提供的4页证据。我想指出文件中的日期、地址和金融交易。

我可以应用深入学习，与我的数据很小，只有一个4页的文件，或我是否应该应用文本分类来解决我的问题？

deep-learning

classification

nlp

回答 2

Data Science用户

回答已采纳

发布于 2019-08-24 12:55:20

如果你有真实的文本，而不是一个PDF或者图像的扫描文档，尝试在文本中找到某些东西是很容易的。这其实是一个相当大的话题，可能会变得相当困难。

纯文本

如果您有纯文本，则可以使用自定义正则表达式解析需要的部分，例如，要查找日期，可以使用以下方法：

^(19|20)\d\d[- /.](0[1-9]|1[012])[- /.](0[1-9]|[12][0-9]|3[01])$

匹配从1909-01-01到2099-12-31的yyyy dd格式的日期，并选择四个分隔符(来源)。

我相信甚至有几个库专门为你在文本中找到日期。

PDF

实际上，PDF有很多种类型，也就是有很多种方法可以在幕后对pdf进行编码。有些类型更容易解析其他类型，但幸运的是，有一些库可以帮助实现这一点。例如，查看PDFMiner。

在使用了这样一个库之后，您将有希望保留纯文本，并可能回到使用该部分中的方法。

图像

如果你有足够的运气有一个图像作为起点，那么你现在是在OCR -光学字符识别领域。为了更完整地描述可能的方法，我建议阅读这篇博客文章，但是简单地说，您可以尝试使用以下两种方法：

一种传统的计算视觉算法(应用滤波和边缘搜索等)
专门处理文本的经过培训的模型(例如EAST:一种高效、准确的场景文本检测器)
一般模型

Tesseract图书馆是帮助OCR的一个很好的模型。

您说您正在学习NLP，所以从PDF中实际提取令牌可能不是最好的开始。我建议您首先确切地确定您真正想要学习的内容，并学习关于该topic.area的课程或教程。

票数 1

Data Science用户

发布于 2019-08-24 09:51:05

对于您的情况，使用文本分类或正则表达式可能更容易。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/58116

复制

相似问题

问从文档中提取标记:应用深度学习还是分类？
EN

回答 2

Data Science用户

纯文本

PDF

图像

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从文档中提取标记:应用深度学习还是分类？EN

回答 2

Data Science用户

纯文本

PDF

图像

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从文档中提取标记:应用深度学习还是分类？
EN