首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何检测论文的“书目”何时开始?

如何检测论文的“书目”何时开始?
EN

Data Science用户
提问于 2019-01-01 03:53:02
回答 1查看 54关注 0票数 0

我正在做一个项目,其中包括阅读ArXiV的论文以寻找特定的模式(它变得复杂了,但它基本上与他们的文本中常见的短语和表达有关)。

我的过程可以抽象地描述为:

PDF \rightarrow "\text{PDF as a string}" \rightarrow \text{Pattern_Finding_ Method}("\text{PDF as a string}")

不幸的是,许多论文中的“参考书目”或参考部分导致了Pattern_Finding_Method崩溃,因为它们恰好承载了我们正在寻找的许多行为(但它们并不有趣)。

作为一个人类,我只需手动阅读并查看“引用”从何开始,然后我就可以修剪pdf字符串的这一部分,但在比例上这是不实际的。此外,当他们的“参考书目”或“确认”开始时,论文作者并没有一致的声明方式。

因此,似乎很自然地认为这是一个ML/AI问题,其中我有一个字符串,我有一个松散的概念,什么构成了字符串的“引用”,我可以提供培训数据(我有一个字符串的pdf作为一个字符串,我可以列出一个字符索引的字符串,引用开始)

现在,给出培训数据,我需要想出某种模型,可以有效地学习如何独立地检测引用。

这就是我被困的地方。我正在处理的数据问题是一个高度语义的问题(这些词的特定组织结构及其基本含义和模式给我提供了关于引用何时开始的提示),但我对学习算法的知识仅限于几何学数据(SVMs),或者至少是高度连续的数据(神经网络模型),然后在NLP的情况下,我的理解充其量不过是一本特定于目标的算法的食谱:(例如:TF-用于文档分类)。

我不知道如何弥合从我的理解到为手头的问题创建一个专门的模型之间的差距;我有直觉的理由相信这个模型会奏效。

形式化问题陈述:

给定一个大型字符串集合(每个字符串附带一个整数i,指示引用从何处开始),确定一个模型,该模型可以可靠地检测新文本上的引用何时开始。

EN

回答 1

Data Science用户

发布于 2019-01-09 07:10:42

以下是一些可以帮助解决问题而不使用ML的启发式方法:

  • 如果所有的论文都来自Arxiv,您可以下载源文件tex并在没有参考书目的情况下重新生成论文。
  • 您可以使用阿希夫-虚荣或它们的代码将文档呈现为HTML (或一些中间表示),然后使用该层次结构轻松地删除带有参考书目的部分。
  • 查找“参考”一词,然后是" in“、”page“和20世纪初和2000年代初的单词密度高的年份。

我想我说的是“输入已经有了相当严格的结构,你为什么不用它来代替统计呢?”

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/43363

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档