我正在做一个项目,其中包括阅读ArXiV的论文以寻找特定的模式(它变得复杂了,但它基本上与他们的文本中常见的短语和表达有关)。
我的过程可以抽象地描述为:
不幸的是,许多论文中的“参考书目”或参考部分导致了Pattern_Finding_Method崩溃,因为它们恰好承载了我们正在寻找的许多行为(但它们并不有趣)。
作为一个人类,我只需手动阅读并查看“引用”从何开始,然后我就可以修剪pdf字符串的这一部分,但在比例上这是不实际的。此外,当他们的“参考书目”或“确认”开始时,论文作者并没有一致的声明方式。
因此,似乎很自然地认为这是一个ML/AI问题,其中我有一个字符串,我有一个松散的概念,什么构成了字符串的“引用”,我可以提供培训数据(我有一个字符串的pdf作为一个字符串,我可以列出一个字符索引的字符串,引用开始)
现在,给出培训数据,我需要想出某种模型,可以有效地学习如何独立地检测引用。
这就是我被困的地方。我正在处理的数据问题是一个高度语义的问题(这些词的特定组织结构及其基本含义和模式给我提供了关于引用何时开始的提示),但我对学习算法的知识仅限于几何学数据(SVMs),或者至少是高度连续的数据(神经网络模型),然后在NLP的情况下,我的理解充其量不过是一本特定于目标的算法的食谱:(例如:TF-用于文档分类)。
我不知道如何弥合从我的理解到为手头的问题创建一个专门的模型之间的差距;我有直觉的理由相信这个模型会奏效。
给定一个大型字符串集合(每个字符串附带一个整数i,指示引用从何处开始),确定一个模型,该模型可以可靠地检测新文本上的引用何时开始。
https://datascience.stackexchange.com/questions/43363
复制相似问题