文章/答案/技术大牛

发布

社区首页 >问答首页 >试图从脚本中的另一个位置运行刮伤爬虫

问试图从脚本中的另一个位置运行刮伤爬虫
EN

Stack Overflow用户

提问于 2013-07-28 10:29:01

回答 1查看 2.2K关注 0票数 2

全,

我正在尝试完全自动化我的抓取，它由三个步骤组成：

1-获取广告索引页列表(出于各种原因，非刮伤工作) 2-从步骤1中获得的索引页中获取广告URL列表(Scrapy work )

我的刮伤项目位于通常的目录中：

C:\Python27\Scripts\GetAdUrlsFromIndex_project\GetAdUrlsFromIndex\spiders\GetAdUrls_spider.py ( "GetAdUrls_spider“文件中蜘蛛的名称是(name = "getadurls"))

我的自动化步骤1和步骤2的脚本位于这个目录中：

C:\Website_DATA\SCRIPTS\StepByStepLauncher.py

我尝试使用Scrapy文档导入爬虫并使用以下代码从脚本内部运行：

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log
from GetAdUrlsFromIndex.spiders.GetAdUrls_spider import getadurls

spider = getadurls(domain='website.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here

不幸的是，当我试图运行这个脚本时，我一直收到错误"No模块名为GetAdUrlsFromIndex.spiders.GetAdUrls_spider“。我试着把工作目录改到几个不同的位置，我到处找名字，似乎什么都没有用。

会感谢你的帮助..。谢谢!

scrapy

python

twisted

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-08-02 11:04:52

如果__init__.py在C:\Python27\Scripts\GetAdUrlsFromIndex_project\GetAdUrlsFromIndex和C:\Python27\Scripts\GetAdUrlsFromIndex_project\GetAdUrlsFromIndex\spiders中有，那么尝试用这种方式修改脚本

import sys
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy.settings import Settings
from scrapy import log

sys.path.append('C:/Python27/Scripts/GetAdUrlsFromIndex_project')
from GetAdUrlsFromIndex.spiders.GetAdUrls_spider import getadurls

spider = getadurls(domain='website.com')
crawler = Crawler(Settings())
crawler.configure()
crawler.crawl(spider)
crawler.start()
log.start()
reactor.run() # the script will block here

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/17907271

复制

相似问题

问试图从脚本中的另一个位置运行刮伤爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问试图从脚本中的另一个位置运行刮伤爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问试图从脚本中的另一个位置运行刮伤爬虫
EN