我想了解自然语言处理中思想的发展,我想理解它的一种方法是看看引用在主要进展之间的距离,例如word2vec和变压器之间的距离。
如果引用距离相对于出版日期有很长的距离,我们可以推测这些想法是独立达成的。否则,我们就能看到重大想法是如何发展的。
已经有人做过了吗?或者如果没有,什么是好办法?
发布于 2022-01-12 19:38:53
我很喜欢你的问题。我认为,这将是一种非常有趣的方法,用来表示经过一段时间的思想的迭代精化。
值得一提的是,在文献复习中,我们通常把连载的论文形象化在一个图表中。ConnectedPapers (https://www.connectedpapers.com/)和ResearchRabbit (https://www.researchrabbit.ai/)是这类分析的两种流行工具。如果你以前没用过,我建议你试一试。特别是,ResearchRabbit经常设法找到您所指的有趣连接的类型。
尽管如此,这些工具并不是为了提供一个历史故事情节,这实际上是一个非常有趣的努力。我不知道有什么工具能做你想要的东西。那你怎么开始呢?需要注意的一点是,您需要一些基本的“总计”文件集来创建最短路径的图表。你有这么一套文件吗?如果不是,那将是你的首要任务。您可以考虑下载一些可能包含所有可能相关的论文的论文集,然后开始通过引用/引用将它们连接起来。手动这样做需要相当长的时间,但是如果你不想牺牲准确性的话,这可能是值得的。自动化滚雪球(这个过程的名称)是困难的,但这段代码可能会有所帮助:https://github.com/JoaoFelipe/Snowballing。一旦你有了距离,就可以计算出两篇论文之间最短的路线。
最后一点是,这个问题有一个更普遍的版本,它可能提供一个有趣的研究方法。如果您有一组相关的论文以及它们的引文/参考距离,您也可以考虑找到最小数目的路线的问题,以便覆盖所有的文件;本质上是车辆路径问题的一个变体。然后,这将对应于描述您正在考虑的主题的历史的最简洁的故事情节集。挺酷的!
https://stackoverflow.com/questions/70601235
复制相似问题