首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在python中创建一个通用的web爬虫,用于像Flipboard这样的新闻聚合

在python中创建一个通用的web爬虫,用于像Flipboard这样的新闻聚合
EN

Stack Overflow用户
提问于 2015-09-19 09:25:39
回答 2查看 2.4K关注 0票数 0

最近我在我的大学被分配了一个项目,那就是一个新闻聚合器。我发现Flipboard是一个非常有趣和病毒的新闻聚合应用程序。为了实现这一点,我正在构建一个网络爬虫,它将抓取网站,以获取最近的新闻和帖子。我正在浏览吉兹莫德上的一篇文章

刮刀器是通用/通用的,还是某些站点有客户刮刀? Doll:它大多是通用/通用的。然而,我们可以限制在网站特定的基础上显示的内容数量.我们已经尝试通过发布非常简略的RSS提要的一些站点来实现这一点--尽管我们没有直接使用RSS,但我们试图实现与其提要的显示相等。

我非常熟悉从一个网站中获取数据的过程。但我不确定如何从多个网站和博客中获取数据,这些网站和博客的结构完全不同。

我目前使用Python2.7、urllib2和BeautifulSoup来爬行一个网站。

问题:

我想知道,我如何才能实现通过一个通用爬虫从数千个网站中获取数据的目标?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-09-19 09:40:21

我建议创建一个大的Spider类,然后对单个站点进行子类化。我为类似的问题在这里堆叠溢出写了一个简短的答案。

票数 2
EN

Stack Overflow用户

发布于 2015-09-19 10:02:10

我也做过类似的事情,尽管我对python和google-fu的基本知识教会了我如何制作一个更高级的用户会嘲笑的脚本。但是,它对我有用,而且不会留下太多的足迹。

我做了几个函数,使用'request‘来获取站点,并使用’漂亮汤‘来解析各个站点的结构,通过使用Chrome中的检查器,从这些站点反向设计结构。当脚本运行时,它运行所有函数,从而获取我想要的信息。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32666511

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档