我想知道我是否可以做出一个从数据库中提取研究论文文本的算法,比如PubMed。
可能,查询语言也是相关的主题。
首先,是否可以使用Python语言编写具有匹配条件的数据库搜索程序,如论文抄袭检查程序?
我认为论文抄袭检查程序给了我很多提示。
其次,这些程序如何搜索文本以检查与输入论文的相似性?
我发现许多研究论文都不是免费的,它们的文本不允许直接搜索。
发布于 2021-01-20 04:56:43
我已经制作了一个名为Findpapers的工具,它对您很有用。它根据关键字从几个数据库(包括PubMed)收集论文。
在收集了论文的PDF之后,我建议您使用Tesseract来提取文本并对其进行任何您喜欢的处理。
https://stackoverflow.com/questions/65368592
复制相似问题