最近我在我的大学被分配了一个项目,那就是一个新闻聚合器。我发现Flipboard是一个非常有趣和病毒的新闻聚合应用程序。为了实现这一点,我正在构建一个网络爬虫,它将抓取网站,以获取最近的新闻和帖子。我正在浏览吉兹莫德上的一篇文章
刮刀器是通用/通用的,还是某些站点有客户刮刀? Doll:它大多是通用/通用的。然而,我们可以限制在网站特定的基础上显示的内容数量.我们已经尝试通过发布非常简略的RSS提要的一些站点来实现这一点--尽管我们没有直接使用RSS,但我们试图实现与其提要的显示相等。
我非常熟悉从一个网站中获取数据的过程。但我不确定如何从多个网站和博客中获取数据,这些网站和博客的结构完全不同。
我目前使用Python2.7、urllib2和BeautifulSoup来爬行一个网站。
问题:
我想知道,我如何才能实现通过一个通用爬虫从数千个网站中获取数据的目标?
发布于 2015-09-19 09:40:21
我建议创建一个大的Spider类,然后对单个站点进行子类化。我为类似的问题在这里堆叠溢出写了一个简短的答案。
发布于 2015-09-19 10:02:10
我也做过类似的事情,尽管我对python和google-fu的基本知识教会了我如何制作一个更高级的用户会嘲笑的脚本。但是,它对我有用,而且不会留下太多的足迹。
我做了几个函数,使用'request‘来获取站点,并使用’漂亮汤‘来解析各个站点的结构,通过使用Chrome中的检查器,从这些站点反向设计结构。当脚本运行时,它运行所有函数,从而获取我想要的信息。
https://stackoverflow.com/questions/32666511
复制相似问题