我有一些代码可以访问PubMed中的文章,并分析来自每个XML的一些信息。这个程序在我的电脑上运行得很好,但需要很多时间才能完成。因此,当我在unix机器上运行它时,我提出的每一个请求都会被阻塞。在机器认为它是病毒之前,每分钟可以制造多少病毒是有限度的,但这不是问题,因为所有的请求都被阻止了。我检查了一下,这只发生在PubMed站点的请求中。
提前感谢
编辑:我在连接中使用jsoup。从我的程序中用ProcessBuilder运行wget可以工作,不会被阻塞,但是效率就成了一个问题,因为wget的输出只能用while(br.readline() != null)读取,这会增加大量的运行时间。
发布于 2013-12-16 15:16:40
您可以尝试通过其他专用于检索发布数据的API连接,而不是访问发布的网页,比如RESTful webpage:http://europepmc.org/RestfulWebService。它允许您以xml格式获取所需的所有数据,而且我认为查询的数量没有限制。
例如,如果您想通过pubmed_id=9481671获取有关文章的所有信息,则需要访问网页:id:9481671。
https://stackoverflow.com/questions/20572248
复制相似问题