我正在从一个中文学术文章数据库中挖掘一些链接。
看起来,当我将页面刷新到我正在查看的文章,或者简单地复制和粘贴一个url时,url就会重定向到数据库的主页而不是文章。
例如,下面的链接指向我的搜索结果:http://search.cnki.net/search.aspx?q=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD
第一篇文章的个人网址是:http://www.cnki.net/kcms/detail/detail.aspx?dbcode=CJFQ&dbName=CJFQ2016&FileName=KJDB201615009&v=&uid=
但是,如果您试图直接单击项目链接或刷新文章页,它将重定向到数据库主页。为什么会发生这种情况?有没有办法让这些文章有一个“稳定”的网址?
一个可能重要的细节,尽管我不确定,是HTML代码中的url对各个文章也不同。
<a href="http://epub.cnki.net/grid2008/brief/detailj.aspx?filename=KJDB201615009&dbname=CJFDLAST2016" target="_blank">发布于 2018-10-03 07:57:54
这不是真的取决于你。您所指的网站检查您打开的链接是直接链接还是从同一网站上的另一个页面打开的链接。这可能是为了防止将该网站的链接嵌入到其他网站。简而言之,它不允许与其文章直接链接。您可以通过检查从请求返回的标头来查看它。
而不是200 OK你得到302.

它告诉浏览器重定向到另一个位置。你可以尝试和愚弄网站添加一个“参考”标题到你的要求。
如果您查看标题

这很管用,你会发现有一个。我没有试过,但我很肯定会成功的。
https://stackoverflow.com/questions/52621911
复制相似问题