首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Scrapy:设置pipline -如果url不包含

Scrapy:设置pipline -如果url不包含
EN

Stack Overflow用户
提问于 2013-12-21 08:06:39
回答 2查看 186关注 0票数 0

我正在尝试设置一个管道过滤器,如果url不包含'133199',我想丢弃项目。不幸的是,我认为我的代码不能正常工作。

代码语言:javascript
复制
from scrapy.exceptions import DropItem

class FilterWordsPipeline(object):

    category_filter = ['133199']
    def cat_filter(self, item, spider):
        for word in self.category_filter:
            if word in unicode(item['url']).lower():
                raise DropItem("Is not in the: %s" % category)
            else:
                return item
EN

回答 2

Stack Overflow用户

发布于 2013-12-28 08:12:50

从文档(http://doc.scrapy.org/en/0.20/topics/item-pipeline.html):

编写您自己的项目管道很容易。每个项目管道组件都是一个单独的Python类,它必须实现以下方法:

Process_item(项目,爬行器)

只需将"cat_filter“函数重命名为"process_item”即可。

并确保您的settings.py文件中包含类似ITEM_PIPELINES = { 'myproject.pipelines.FilterWordsPipeline': 500 }的内容。

此外,您正在删除其中的url确实包含'133199‘的项目,并让那些url不包含'133199’的项目。

票数 1
EN

Stack Overflow用户

发布于 2013-12-21 08:38:01

你是不是在“if word in”检查中漏掉了一个not?应该是'if word not in‘。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20713870

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档