首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏张戈的专栏

    偶然发现张戈博客已被DMOZ收录,终于不是中国山寨版DMOZ

    这不是国际版的 dmoz 么?赶紧点开看了下,还真是被收录了[收录地址]: ? Ps:DMOZ 已于 2017 年 3 月关闭服务,目前已停止提交,仅保留了一个镜像网站【传送门】 而且和运维前辈张宴排在一起,嘿嘿,还真想小小的满足了一把虚荣心。 另外发现,被 DMOZ 收录之后,Alexa 也会自动出现相近站点的信息: ? ? ? 记得最开始建博客的时候,就去提交过一次 DMOZ,后来才知道那是中国山寨版 DMOZ: http://www.chinadmoz.org/siteinfo/www.marsge.cn 这次,终于转正了,

    84840发布于 2018-03-23
  • 来自专栏七夜安全博客

    (原创)七夜在线音乐台开发 第三弹 爬虫篇

    接下来以 Open Directory Project(dmoz) (dmoz) 为例来讲述爬取。 首先根据需要从dmoz.org获取到的数据对item进行建模。 我们需要从dmoz中获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。 ): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers 该命令启动了我们刚刚添加的 dmoz spider, 向 dmoz.org 发送一些请求。 " allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming

    1.5K31发布于 2018-06-26
  • 来自专栏python3

    爬虫——scrapy入门

    编写第一个爬虫 为了创建一个Spider,您必须继承 scrapy.Spider 类,定义以下三个属性 scrapy genspider dmoz dmoz.com 终端命令可以直接完成这步操作 以及生成需要进一步处理的URL的 Request 对象 1 import scrapy 2 3 class DmozSpider(scrapy.Spider): 4 name = "dmoz " 5 allowed_domains = ["dmoz.org"] 6 start_urls = [ 7 "http://www.dmoz.org/Computers /Programming/Languages/Python/Books/", 8 "http://www.dmoz.org/Computers/Programming/Languages " 5 allowed_domains = ["dmoz.org"] 6 start_urls = [ 7 "http://www.dmoz.org/Computers

    70830发布于 2020-01-19
  • 来自专栏码猿技术专栏

    scrapy初试

    (如果不了解ORM, 不用担心,您会发现这个步骤非常简单) 首先根据需要从dmoz.org获取到的数据对item进行建模。 我们需要从dmoz中获取名字,url,以及网站的描述。 以下是spider目录下的demo.py的代码 import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books open(filename, 'wb') as f: f.write(response.body) spider的爬取 进入工程的根目录下打开终端输入:scrapy crawl dmoz spider中的数据存取 在工程的根目录下打开终端输入scrapy crawl dmoz -o items.json 这里是将数据存储到json文件中

    46710发布于 2019-12-30
  • 来自专栏python前行者

    [爬虫]scrapy框架

    首先根据需要从dmoz.org(DMOZ网站是一个著名的开放式分类目录(Open DirectoryProject),由来自世界各地的志愿者共同维护与建设的最大的全球目录社区)获取到的数据对item进行建模 我们需要从dmoz中获取名字,url,以及网站的描述。 对此,在item中定义相应的字段。 import scrapy class DmozSpider(scrapy.spider.Spider): name = "dmoz" #唯一标识,启动spider时即指定该名称 allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/ " allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming

    1.6K30发布于 2019-03-25
  • 来自专栏咸鱼学Python

    爬虫 | Python学习之Scrapy-Redis实战京东图书

    本次主要是对dmoz这个demo进行学习和实战练习。 dmoz spider文件解析 from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider name = 'dmoz' allowed_domains = ['dmoztools.net'] start_urls = ['http://dmoztools.net/'] dmoz setting文件解析 上面提到的setting中设置了去重类和scheduler队列的操作主要就是在setting文件中添加下面这些代码。 :requests 有变化(变多或者变少或者不变) dmoz:dupefilter 变多 dmoz:items 不变 redispipeline中仅仅实现了item数据存储到redis的过程,我们可以新建一个

    75430发布于 2019-10-09
  • 来自专栏极客猴

    爬虫 | Python学习之Scrapy-Redis实战京东图书

    本次主要是对dmoz这个demo进行学习和实战练习。 dmoz spider文件解析 from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider name = 'dmoz' allowed_domains = ['dmoztools.net'] start_urls = ['http://dmoztools.net/'] dmoz setting文件解析 上面提到的setting中设置了去重类和scheduler队列的操作主要就是在setting文件中添加下面这些代码。 :requests 有变化(变多或者变少或者不变) dmoz:dupefilter 变多 dmoz:items 不变 redispipeline中仅仅实现了item数据存储到redis的过程,我们可以新建一个

    55020发布于 2019-07-30
  • 来自专栏小詹同学

    实战 | Python 爬虫学习之 Scrapy-Redis 实战京东图书

    本次主要是对dmoz这个demo进行学习和实战练习。 dmoz spider文件解析 from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider name = 'dmoz' allowed_domains = ['dmoztools.net'] start_urls = ['http://dmoztools.net/'] dmoz setting文件解析 上面提到的setting中设置了去重类和scheduler队列的操作主要就是在setting文件中添加下面这些代码。 :requests 有变化(变多或者变少或者不变) dmoz:dupefilter 变多 dmoz:items 不变 redispipeline中仅仅实现了item数据存储到redis的过程,我们可以新建一个

    1K70发布于 2019-11-13
  • 来自专栏网络爬虫

    Scrapy制作爬虫

    通过爬虫语言框架制作一个爬虫程序 import scrapy from tutorial.items import DmozItem class DmozSpider(scrapy.Spider): name = 'dmoz ' allowed_domains = ['dmoz.org'] start_urls = [ "http://www.dmoz.org/Computers/Programming /Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources

    54820发布于 2020-11-03
  • 来自专栏若是烟花

    python爬虫----(2. scrapy框架)

    : #coding=utf-8 from scrapy.spider import BaseSpider class DmozSpider(BaseSpider): name = 'dmoz ' allowed_domains = ['dmoz.org'] start_urls = [ 'http://www.dmoz.org/Computers/Programming /Languages/Python/Books/', 'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources 使用 scrapy crawl dmoz # 即可运行spider ---- 闲来无事看Q空间,无意中又看到一大学同学。唉,好生佩服之感。

    57820发布于 2020-07-27
  • 来自专栏python3

    Scrapy:python3下的第一次运

    Spider import scrapy from tutorial.items import DmozItem class DmozSpider(scrapy.Spider):     name = "dmoz "     allowed_domains = ["dmoz.org"]     start_urls = [         "http://www.dmoz.org/Computers/Programming /Languages/Python/Books/",         "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources 运行 $ scrapy crawl dmoz -o item.json 1) 结果报错:     A) ImportError: cannot import name '_win32stdio'    

    45920发布于 2020-01-06
  • 来自专栏北京马哥教育

    爬虫框架Scrapy的第一个爬虫示例入门教程

    豌豆贴心提醒,本文阅读时间8分钟 我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。 首先先要回答一个问题。 问:把网站装进爬虫里,总共分几步? 下面我们来写第一只爬虫,命名为dmoz_spider.py,保存在tutorial\spiders目录下。 dmoz_spider.py代码如下: allow_domains是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页。 http://www.dmoz.org/Computers/Programming/Languages/Python/Books http://www.dmoz.org/Computers/Programming 我们来试着输入一下命令运行爬虫(在tutorial根目录里面): scrapy crawl dmoz 运行结果如下: 果然,成功的抓到了所有的标题。

    1.6K80发布于 2018-05-03
  • 来自专栏不二小段

    【Scrapy】走进成熟的爬虫框架

    之后我们可以写一个很小的demo,依然是官方案例中的DMOZDMOZ网站是一个著名的开放式分类目录(Open DirectoryProject),原版的DMOZ已于去年的3月17日停止了运营,目前网站处于 但是网上大量过去的教程都是以DMOZ为案例的。 我为大家找到了原DMOZ网站的静态镜像站,大家可以直接访问 http://dmoztools.net/ 大家按照官方文档的步骤继续做就可以了,后续的问题不大。

    1.1K60发布于 2018-04-08
  • 来自专栏java初学

    scrapy(2)——scrapy爬取新浪微博(单机版)

    图2-1 新建一个名为Dmoz的package 第二步:通过cmd进入Dmoz的文件夹,并输入scrapy startproject tutorial指令创建scrapy项目,如图2-2所示: ? 该py文件的位置为:tutorial—spiders—dmoz_spider.py,文件目录如图2-4所示: ? 图2-4 爬虫py文件的位置 dmoz_spider.py用于从网站上爬取我们需要的信息,它需要继承scrapy.Spider类,该py文件的代码中必须要包含以下内容,如表2-2所示: ? 第五步:爬取网站数据,通过执行scrapy crawl dmoz来启动spider:执行的时候,用cmd跳到爬虫的目录中再执行“scrapy crawl dmoz”,如图2-5所示 ? 包含 [dmoz]的那些行,那对应着爬虫的日志。你可以看到start_urls中定义的每个URL(存储在dmoz_spider.py中的start_urls的list中)都有日志行。

    2.6K150发布于 2018-05-14
  • 来自专栏技术探究

    爬虫系列(17)Scrapy 框架-分布式Scrapy-Redis以及Scrapyd的安装使用。

    地址为192.168.31.245,用来作为redis的master端,centos的机器作为slave 3. master的爬虫运行时会把提取到的url封装成request放到redis中的数据库:“dmoz :requests”,并且从该数据库中提取request后下载网页,再把网页的内容存放到redis的另一个数据库中“dmoz:items” 4. slave从master的redis中取出待抓取的request 重复上面的3和4,直到master的redis中的“dmoz:requests”数据库为空,再把master的redis中的“dmoz:items”数据库写入到mongodb中 6. master里的reids ,port=6379,db=0) client = pymongo.MongoClient(host='localhost', port=27017) db = client.dmoz sheet = db.sheet while True: source, data = r.blpop(["dmoz:items"])

    2.2K30发布于 2019-07-10
  • 来自专栏小狼的世界

    充电:PR值的相关知识

    二、网站被三大知名网络目录DMOZ,Yahoo和Looksmart收录   众所周知,Google的PageRank系统对那些门户网络目录如DMOZ 、Yahoo和Looksmart尤为器重。 特别是对 DMOZ。一个网站上的DMOZ链接对Google的PageRank来说,就好象一块金子一样有价值。如果你的网站为ODP收 录,则可有效提升你的页面等级。 如果你是一个网站管理员,而你的网站又已经收录在三大知名的开放目录DMOZ、Yahoo和Looksmart中,我想你的网站的PR值一定比较高,而且搜索排名也不会差。      

    1K20发布于 2018-07-24
  • 来自专栏深蓝居

    网站PR值

    二、网站被三大知名网络目录DMOZ,Yahoo和Looksmart收录 众所周知,Google的Pagerank系统对那些门户网络目录如DMOZ,Yahoo和Looksmart尤为器重。 特别是对DMOZ。一个网站上的DMOZ链接对Google的Pagerank?来说,就好象一块金子一样有价值。如果你的网站为ODP收录,则可有效提升你的页面等级。 如果你是一个网站管理员,而你的网站又已经收录在三大知名网络目录DMOZ,Yahoo和Looksmart中,我猜想你的网站的PR值一定比较高,而且搜索排名也不会差。

    85310编辑于 2022-06-15
  • 来自专栏代码人生

    Python上手学习

    编写爬虫类,保存在``tutorial/spiders目录下的dmoz_spider.py` 文件中: import scrapy from tutorial.items import CSDNItem class CSDNSpider(scrapy.spiders.Spider): name = "dmoz" allowed_domains = ["domz.org"] start_urls test=sel.xpath('h4/a/text()').extract() print(test) 进入项目的根目录,执行下列命令启动spider: scrapy crawl dmoz import scrapy from tutorial.items import CSDNItem class CSDNSpider(scrapy.spiders.Spider): name = "dmoz scrapy class CSDNItem(scrapy.Item): title = scrapy.Field() desc = scrapy.Field() scrapy crawl dmoz

    80320发布于 2019-10-30
  • 来自专栏海仔技术驿站

    Python爬虫之scrapy_redis原理分析并实现断点续爬以及分布式爬虫

    观察dmoz文件 在domz爬虫文件中,实现方式就是之前的crawlspider类型的爬虫 from scrapy.linkextractors import LinkExtractor from scrapy.spiders name = 'dmoz' allowed_domains = ['dmoztools.net'] start_urls = ['http://dmoztools.net/'] # 这里修改了 运行dmoz爬虫,观察现象 首先我们需要添加redis的地址,程序才能够使用redis REDIS_URL = "redis://127.0.0.1:6379" #或者使用下面的方式 # REDIS_HOST 中止进程后再次运行dmoz爬虫 继续执行程序,会发现程序在前一次的基础之上继续往后执行,所以domz爬虫是一个基于url地址的增量式的爬虫 4. scrapy_redis的原理分析 我们从settings.py

    1.5K20发布于 2020-09-28
  • 来自专栏python3

    开源python网络爬虫框架Scrapy

    这个命令会在当前目录下创建一个新目录Domz,结构如下: [python]view plaincopy dmoz/ scrapy.cfg dmoz/ __init__.py Item, Field class DmozItem(Item): title = Field() link = Field() desc = Field() 这里我们需要获取dmoz : [python]view plaincopy class DmozSpider(BaseSpider): name = "dmoz.org" start_urls = [ "http:/ /www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming ): 返回正则表达式匹配的字符串(分组匹配)列表 一种很好的方法是在Shell里面对XPath进行测试: [python]view plaincopy scrapy shell http://www.dmoz.org

    2.3K20发布于 2020-01-07
领券