文章/答案/技术大牛

发布

社区首页 >问答首页 >在python中创建一个通用的web爬虫，用于像Flipboard这样的新闻聚合

问在python中创建一个通用的web爬虫，用于像Flipboard这样的新闻聚合
EN

Stack Overflow用户

提问于 2015-09-19 09:25:39

回答 2查看 2.4K关注 0票数 0

最近我在我的大学被分配了一个项目，那就是一个新闻聚合器。我发现Flipboard是一个非常有趣和病毒的新闻聚合应用程序。为了实现这一点，我正在构建一个网络爬虫，它将抓取网站，以获取最近的新闻和帖子。我正在浏览吉兹莫德上的一篇文章

刮刀器是通用/通用的，还是某些站点有客户刮刀？ Doll：它大多是通用/通用的。然而，我们可以限制在网站特定的基础上显示的内容数量.我们已经尝试通过发布非常简略的RSS提要的一些站点来实现这一点--尽管我们没有直接使用RSS，但我们试图实现与其提要的显示相等。

我非常熟悉从一个网站中获取数据的过程。但我不确定如何从多个网站和博客中获取数据，这些网站和博客的结构完全不同。

我目前使用Python2.7、urllib2和BeautifulSoup来爬行一个网站。

问题：

我想知道，我如何才能实现通过一个通用爬虫从数千个网站中获取数据的目标？

python

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-09-19 09:40:21

我建议创建一个大的Spider类，然后对单个站点进行子类化。我为类似的问题在这里堆叠溢出写了一个简短的答案。

票数 2

Stack Overflow用户

发布于 2015-09-19 10:02:10

我也做过类似的事情，尽管我对python和google-fu的基本知识教会了我如何制作一个更高级的用户会嘲笑的脚本。但是，它对我有用，而且不会留下太多的足迹。

我做了几个函数，使用'request‘来获取站点，并使用’漂亮汤‘来解析各个站点的结构，通过使用Chrome中的检查器，从这些站点反向设计结构。当脚本运行时，它运行所有函数，从而获取我想要的信息。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/32666511

复制

相似问题

问在python中创建一个通用的web爬虫，用于像Flipboard这样的新闻聚合
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在python中创建一个通用的web爬虫，用于像Flipboard这样的新闻聚合EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在python中创建一个通用的web爬虫，用于像Flipboard这样的新闻聚合
EN