文章/答案/技术大牛

发布

社区首页 >问答首页 >使用python的动态网页爬虫

问使用python的动态网页爬虫
EN

Stack Overflow用户

提问于 2020-08-31 22:22:19

回答 1查看 91关注 0票数 0

我想在网上读这篇文章，然后突然出现了一些东西，我想在我成功提取它之后，我想离线阅读它。所以，经过4周的试验后，我来到这里，所有的问题都归结于我这个爬虫似乎无法阅读网页的内容，即使在所有的喧闹之后。

最初的问题是，所有的信息没有出现在一个页面上，所以使用按钮导航网站本身的内容.

我尝试过BeautifulSoup，但它似乎不能很好地解析页面。我现在用的是硒和显色剂。

爬虫无法读取页面的原因似乎是robot.txt文件(单个页面的爬虫等待时间为3600页，文章大约有10页，这是可以忍受的，但如果它说100+会发生什么情况)，我不知道如何绕过它或绕过它。

有什么帮助吗？

selenium

web-crawler

dynamic-pages

python

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-08-31 22:43:33

如果robots.txt设置了限制，那么就到此为止了。你应该在网络上进行道德上的抓取，这意味着如果网站的所有者希望你在请求之间等待3600秒，那么就这样吧。

即使robots.txt没有规定等待时间，您也应该留心。小企业/网站所有者可能不知道这一点，如果你不断地敲打一个网站，对他们来说可能是昂贵的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63678927

复制

相似问题

问使用python的动态网页爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python的动态网页爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用python的动态网页爬虫
EN