我正在尝试设置一个管道过滤器,如果url不包含'133199',我想丢弃项目。不幸的是,我认为我的代码不能正常工作。
from scrapy.exceptions import DropItem
class FilterWordsPipeline(object):
category_filter = ['133199']
def cat_filter(self, item, spider):
for word in self.category_filter:
if word in unicode(item['url']).lower():
raise DropItem("Is not in the: %s" % category)
else:
return item发布于 2013-12-28 08:12:50
从文档(http://doc.scrapy.org/en/0.20/topics/item-pipeline.html):
编写您自己的项目管道很容易。每个项目管道组件都是一个单独的Python类,它必须实现以下方法:
Process_item(项目,爬行器)
只需将"cat_filter“函数重命名为"process_item”即可。
并确保您的settings.py文件中包含类似ITEM_PIPELINES = { 'myproject.pipelines.FilterWordsPipeline': 500 }的内容。
此外,您正在删除其中的url确实包含'133199‘的项目,并让那些url不包含'133199’的项目。
发布于 2013-12-21 08:38:01
你是不是在“if word in”检查中漏掉了一个not?应该是'if word not in‘。
https://stackoverflow.com/questions/20713870
复制相似问题