多亏了回答@pcko1 1 1,我知道我应该使用数据增强来使我的模型适应数据点的顺序。
在回答@Icrmorin之后澄清:我的问题实际上比仅仅找到子弹更复杂。我还需要找到标题,适当地订购文本(考虑2列PDF),查找页眉/页脚等.
我目前正在尝试一种基于规则的方法,到目前为止效果很好。但是,随着我需要处理的PDF格式的数量增加,代码的复杂性也在增加,而且我的PDF格式有相反的特性,不能被相同的代码处理。
我希望机器学习方法能够解决这个问题,并且对任何格式都能很好地工作。
根据@mariq vlahova答复的说法,这类任务似乎没有名字?就用LSTM?
编辑结束
我正在寻找一项任务的名称,以寻找更多关于这个主题的文献。
我能描述的最好的任务就是标题本身..。
基本上,我有几个特征的数据点,我需要对每个数据点进行分类,但不是独立的。然而,命令不重要(或不应该)。
例如,我有3个数据点[D1, D2, D3],我想将is分类为[True, False, False]。
这些数据点是依赖的,即更改1个数据点可能也会改变其他数据点的结果:
[D1, D2', D3]可能被归类为[True, True, True]。
而且,顺序并不重要(这就是为什么我写了“没有时间维度”):
如果[D1, D2, D3]被归类为[True, False, False],
那么[D2, D3, D1]应该被归类为[False, False, True]。
更多的背景..。基本上,我想分类PDF内容,作为一个项目点或不。
因此,我希望解析我的PDF文件,提取文本块以及其他信息(字体大小、位置等),并将这些块分类为bullet或not bullet。
但我们不能把每个块分开分类。请考虑以下示例:
...End of previous paragraph
1. This is a title
Beginning of next paragraph...在这种情况下,1. This is a title不应该被归类为bullet。但是:
1. This is a title
2. This is a second title
3. This is a third title在这种情况下,1. This is a title应该被归类为bullet。
我需要找到关于这个问题的文献,但我甚至不知道任务的名称.
发布于 2020-10-20 13:50:03
老实说,你似乎离需要有监督的视觉方法还很远。我建议您先尝试一种简单的非ML方法:用标准库提取文本,然后标记什么可以算作“符号”,然后检查一行中是否有多个。这可能只是有效的,如果它没有,它将帮助你理解为什么。
如果不尝试简单的基准测试,整个OCR方式将意味着大量pdf注释,以获得不太明确的增益。
Ps:如果你想处理文本,相关的领域是自然朗格处理,而不是时间序列.
发布于 2020-10-20 09:26:09
你要找的是用数据增强训练分类器。
在图像分类中,这可能是指通过对图像进行倾斜或旋转来改变物体的姿态。
在文本分类方面,可以想象为将同一句的不同版本按交替的词序分类(有些语言比另一些语言允许更多,例如希腊语允许,而德语更严格)。
更有趣的是,这在新药物设计的上下文中发现了开创性的影响,在这种情况下,分子是用字母数字文字(字符串)描述的,然后可以通过以一种化学上有意义的方式改变它们组成字符的顺序来增强它们。这被称为随机化,但本质上它是原始字符串的混合,因此,数据增强。
最后,在决定了数据增强策略之后,将其应用于培训数据集。数据点的所有增广版本都保持相同的原始标签。然后,您就可以对任何分类器进行训练了,比如随机森林或支持向量机()对增广和标记化的文本数据进行训练。
发布于 2020-10-20 10:59:50
如果我理解你是正确的,你试图实现的是使用上下文Information.Also的文本分类--我假设你有目标列,所以你需要使用监督学习(如果我的假设是错误的,请纠正我:)对于这种情况,最好是使用递归神经网络,比如example.Please,检查这个https://www.kaggle.com/kredy10/simple-lstm-for-text-classification,因为我认为它非常类似于您的情况。
https://datascience.stackexchange.com/questions/84261
复制相似问题