我想在网上读这篇文章,然后突然出现了一些东西,我想在我成功提取它之后,我想离线阅读它。所以,经过4周的试验后,我来到这里,所有的问题都归结于我这个爬虫似乎无法阅读网页的内容,即使在所有的喧闹之后。
最初的问题是,所有的信息没有出现在一个页面上,所以使用按钮导航网站本身的内容.
我尝试过BeautifulSoup,但它似乎不能很好地解析页面。我现在用的是硒和显色剂。
爬虫无法读取页面的原因似乎是robot.txt文件(单个页面的爬虫等待时间为3600页,文章大约有10页,这是可以忍受的,但如果它说100+会发生什么情况),我不知道如何绕过它或绕过它。
有什么帮助吗?
发布于 2020-08-31 22:43:33
如果robots.txt设置了限制,那么就到此为止了。你应该在网络上进行道德上的抓取,这意味着如果网站的所有者希望你在请求之间等待3600秒,那么就这样吧。
即使robots.txt没有规定等待时间,您也应该留心。小企业/网站所有者可能不知道这一点,如果你不断地敲打一个网站,对他们来说可能是昂贵的。
https://stackoverflow.com/questions/63678927
复制相似问题