我有一份法律文件。那份文件是原告提供的4页证据。我想指出文件中的日期、地址和金融交易。
我可以应用深入学习,与我的数据很小,只有一个4页的文件,或我是否应该应用文本分类来解决我的问题?
发布于 2019-08-24 12:55:20
如果你有真实的文本,而不是一个PDF或者图像的扫描文档,尝试在文本中找到某些东西是很容易的。这其实是一个相当大的话题,可能会变得相当困难。
如果您有纯文本,则可以使用自定义正则表达式解析需要的部分,例如,要查找日期,可以使用以下方法:
^(19|20)\d\d[- /.](0[1-9]|1[012])[- /.](0[1-9]|[12][0-9]|3[01])$匹配从1909-01-01到2099-12-31的yyyy dd格式的日期,并选择四个分隔符(来源)。
我相信甚至有几个库专门为你在文本中找到日期。
实际上,PDF有很多种类型,也就是有很多种方法可以在幕后对pdf进行编码。有些类型更容易解析其他类型,但幸运的是,有一些库可以帮助实现这一点。例如,查看PDFMiner。
在使用了这样一个库之后,您将有希望保留纯文本,并可能回到使用该部分中的方法。
如果你有足够的运气有一个图像作为起点,那么你现在是在OCR -光学字符识别领域。为了更完整地描述可能的方法,我建议阅读这篇博客文章,但是简单地说,您可以尝试使用以下两种方法:
Tesseract图书馆是帮助OCR的一个很好的模型。
您说您正在学习NLP,所以从PDF中实际提取令牌可能不是最好的开始。我建议您首先确切地确定您真正想要学习的内容,并学习关于该topic.area的课程或教程。
发布于 2019-08-24 09:51:05
对于您的情况,使用文本分类或正则表达式可能更容易。
https://datascience.stackexchange.com/questions/58116
复制相似问题