首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CasperJS和并行爬行

CasperJS和并行爬行
EN

Stack Overflow用户
提问于 2016-12-04 08:09:49
回答 1查看 190关注 0票数 0

我在试着抓取一些网站。我已经寻找了其他方法,并放弃了所有不必要的资源请求,但这对我来说仍然太慢了(大约8-9秒)。

我在我发现的一篇博客文章中使用了并行gnu,但是似乎虽然进程是活动的,但它们并不是并行爬行的,因为一个实例的总执行时间仍然是相同的。

最简单、最实用的方法是什么?

EN

回答 1

Stack Overflow用户

发布于 2016-12-05 04:09:59

你能适应这个吗:https://www.gnu.org/software/parallel/man.html#EXAMPLE:-Breadth-first-parallel-web-crawler-mirrorer

代码语言:javascript
复制
  #!/bin/bash

  # E.g. http://gatt.org.yeslab.org/
  URL=$1
  # Stay inside the start dir
  BASEURL=$(echo $URL | perl -pe 's:#.*::; s:(//.*/)[^/]*:$1:')
  URLLIST=$(mktemp urllist.XXXX)
  URLLIST2=$(mktemp urllist.XXXX)
  SEEN=$(mktemp seen.XXXX)

  # Spider to get the URLs
  echo $URL >$URLLIST
  cp $URLLIST $SEEN

  while [ -s $URLLIST ] ; do
    cat $URLLIST |
      parallel lynx -listonly -image_links -dump {} \; \
        wget -qm -l1 -Q1 {} \; echo Spidered: {} \>\&2 |
        perl -ne 's/#.*//; s/\s+\d+.\s(\S+)$/$1/ and do { $seen{$1}++ or print }' |
      grep -F $BASEURL |
      grep -v -x -F -f $SEEN | tee -a $SEEN > $URLLIST2
    mv $URLLIST2 $URLLIST
  done

  rm -f $URLLIST $URLLIST2 $SEEN
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40953975

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档