首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用python的动态网页爬虫

使用python的动态网页爬虫
EN

Stack Overflow用户
提问于 2020-08-31 22:22:19
回答 1查看 91关注 0票数 0

我想在网上读这篇文章,然后突然出现了一些东西,我想在我成功提取它之后,我想离线阅读它。所以,经过4周的试验后,我来到这里,所有的问题都归结于我这个爬虫似乎无法阅读网页的内容,即使在所有的喧闹之后。

最初的问题是,所有的信息没有出现在一个页面上,所以使用按钮导航网站本身的内容.

我尝试过BeautifulSoup,但它似乎不能很好地解析页面。我现在用的是硒和显色剂。

爬虫无法读取页面的原因似乎是robot.txt文件(单个页面的爬虫等待时间为3600页,文章大约有10页,这是可以忍受的,但如果它说100+会发生什么情况),我不知道如何绕过它或绕过它。

有什么帮助吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-08-31 22:43:33

如果robots.txt设置了限制,那么就到此为止了。你应该在网络上进行道德上的抓取,这意味着如果网站的所有者希望你在请求之间等待3600秒,那么就这样吧。

即使robots.txt没有规定等待时间,您也应该留心。小企业/网站所有者可能不知道这一点,如果你不断地敲打一个网站,对他们来说可能是昂贵的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63678927

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档