我用python中的scrapy框架编写了一个爬虫来选择一些链接和元tags.It,然后爬行起始urls,并将数据以JSON编码的格式写入到file.The上。问题是,当爬虫使用相同的起始urls运行两三次时,文件中的数据会被复制.To避免这一点我使用了scrapy中的一个下载中间件,即: print "Index out of range"
我想建立一个与scrapy亚马逊爬虫。我不明白为什么..。用户代理工作,代理也旋转,他在每个下一个“死”代理上显示不同的IP和一些东西2019-11-06 21:52:40 [rotating_proxies.expire] DEBUG: Proxy<http://XXX:XXX@XXXX:8080> is DEAD
2019-11-06 21:52:40 [rot