我正在做一个项目,其中包括阅读ArXiV的论文以寻找特定的模式(它变得复杂了,但它基本上与他们的文本中常见的短语和表达有关)。text{PDF as a string}" \rightarrow \text{Pattern_Finding_ Method}("\text{PDF as a string}")
不幸的是,许多论文中的此外,当他们的“参考书目”或“确认”开始时,论文作者并没有一致的声明方式。我有一个松散的概念,什么构成了字符串的“引用”,我可以提供培训数据(我有一个字符串的pdf作为一个字符串,