搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏finleyMa
Scrapy1.6 爬虫框架2 提取数据
使用 scrapy shell 提取数据 scrapy shell 是 scrapy 提供的命令行工具，可以方便的调试比如执行 scrapy shell "http://quotes.toscrape.com start_urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/
66810发布于 2019-06-11
来自专栏正则
python 爬虫2
一、认识爬虫 1.1、什么是爬虫？爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。 URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包) 网页解析器应用程序：就是从网页中提取的有用数据组成的一个应用。一、爬虫准备 2.1.1、爬虫类型小爬：各种库来爬中爬：框架大爬：搜索引擎 2.1.2、目的解决数据来源的问题做行业分析完成自动化操作做搜索引擎 2.1.3、目标类型
1.1K40发布于 2021-09-07
来自专栏小怪聊职场
爬虫架构|利用Kafka处理数据推送问题（2）
在前一篇文章爬虫架构|利用Kafka处理数据推送问题（1）中对Kafka做了一个介绍，以及环境搭建，最后是选择使用阿里云的Kafka，这一篇文章继续说使用阿里云的Kafka的一些知识。 spm=a2c4g.11186623.6.567.2OMgCB System.out.println("error occurred"); e.printStackTrace spm=a2c4g.11186623.6.567.2OMgCB e.printStackTrace(); } } } } 示例1：Consumer Group A 订阅了 Topic A，并开启三个消费实例 C1、C2、C3，则发送到 Topic A 的每条消息最终只会传给 C1、C2、C3 的某一个。；把数据提交到线程池进行并发处理；等并发结果返回成功再次poll数据执行。
1.8K120发布于 2018-05-21
来自专栏数据科学与人工智能
【Python环境】Python爬虫入门（2）：爬虫基础了解
1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。 2.浏览网页的过程在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。 4. 好的开发工具是前进的推进器，希望大家可以找到适合自己的IDE 下一节，我们就正式步入 Python 爬虫学习的殿堂了，小伙伴准备好了嘛？
1K90发布于 2018-02-27
来自专栏python3
Python 爬虫（2）
#ISO-8859-1默认使用的是这个 r.encoding = "utf-8" print(r.text) 这样就可以正常显示了总结： Requests给你提供的所有接口，在传输数据的时候 "www.hao123.com" data = {"key1":"hello", "key2":"world"} ndata = parse.urlencode(data) #将数据转化成一个字典形式 res = urllib.request.urlopen(req) print (res.read().decode("utf-8")) 【注意】：urlencode（）主要作用就是将url附上要提交的数据 Post的数据必须是bytes或者iterable of bytes，不能是str，因此需要进行encode（）编码方法解释： urllib.request.urlopen(url, data=None , timeout=None) url 需要打开的网站 data psot提交的数据 Timeout 网站访问的超时时间但是没法伪装我们的头信息 from urllib
55210发布于 2020-01-07
来自专栏码上修行
《Python网络爬虫与数据挖掘小课堂》——part2
在介绍爬虫及爬取网页或图片之前，大家需要知道如何使用pip快速方便的安装第三方Python库。上节中我们介绍了Python的安装及基础知识，其中安装Python时程序已经默认安装了pip模块。正式进入爬虫讲解：下面写一个示例，抓取网页和图片这节课所依赖的包有：httplib2 、urllib 、selenium 安装方法如下： pip install httplib2 pip install selenium 其中httplib2中包含urllib库如安装httplib2 ? 第二个参数data是访问URL时要传送的数据。第三个timeout是设置超时时间。注：data默认为空None，timeout默认为 socket. 在HTML源代码中可以通过Ctrl + F 定位元素位置，定位URL后，再通过urllib库中的函数urlretrieve()直接将远程数据下载到本地。 ?
1.1K30发布于 2019-11-24
来自专栏分布式爬虫
11、web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
表达式过滤出来的结果进行正则匹配，用正则取最终内容最后.re('正则') xpath('//div[@class="showlist"]/li//img')[0].re('alt="(\w+)') 2、商品标题、商品链接、和评论数 [image] 分析源码 [image] 第一步、编写items.py容器文件我们已经知道了我们要获取的是、商品标题、商品链接、和评论数在items.py创建容器接收爬虫获取到的数据 documentation in: # http://doc.scrapy.org/en/latest/topics/items.html import scrapy #items.py,文件是专门用于，接收爬虫获取到的数据信息的定义数据处理类，必须继承object process_item(item)为数据处理函数，接收一个item，item里就是爬虫最后yield item 来的数据对象 # -*- coding: utf ，必须继承object def process_item(self, item, spider): #process_item(item)为数据处理函数，接收一个item，item里就是爬虫最后
53700发布于 2019-07-06
来自专栏短信接收服务
爬虫数据采集
经常有小伙伴需要将互联网上的数据保存的本地，而又不想自己一篇一篇的复制，我们第一个想到的就是爬虫，爬虫可以说是组成了我们精彩的互联网世界。这都是爬虫数据采集的功劳。这篇文章我总结了爬虫数据采集的说有流程，从最开始的最简单的基本爬虫，到爬虫所采集到的数据如何存储，以及我们如何绕过一些反爬措施，来获取我们需要的数据，进行爬虫的数据采集：爬虫介绍：主要介绍了什么是爬虫存储 CSV 文件：这篇文章介绍了如何将爬虫采集到的数据保存为 csv 文件，为我们后面的数据分析或者其他的一些要求做好铺垫。使用 MySQL 存储数据：这篇文章详细介绍了如何将爬虫采集到的数据保存到数据库，可以提供给我们查询或者是分析等任务。读取文档：这篇文章介绍了如何解析文档内容，并读取内容。
2.6K10编辑于 2022-04-28
来自专栏玄魂工作室
Python爬虫之urllib模块2
-------------------------------------------------------------------------------------------------------------------------------- 本文来自网友投稿作者：PG,一个待毕业待就业的二流大学生。 ---------------------------------------------------------------------------------------------
59450发布于 2018-04-12
来自专栏python全栈教程专栏
爬虫学习（2）：request库使用
urlopen打开request 最后一步就是打印，加上一个编码方式utf-8 其实这就是request一个最基本完整的构建我主要要讲到request库下的Request类使用，没有它真没法继续爬虫了 8')) 反正就是简单的爬取了网页源码下来了一步步讲：（1）url='https://zhuanlan.zhihu.com/p/146913886’第二行代码呢，就是简单的放个网址（2）
69720发布于 2021-10-18
来自专栏python3
python2爬虫编码问题
import sys reload(sys) sys.setdefaultencoding('utf-8') # 输出的内容是utf-8格式
71920发布于 2020-01-15
来自专栏兵马俑的CSDN
python爬虫学习（2）——requests模块
二、如何使用：（requests模块的编码流程） 1.指定URL； 2.发起请求； 3.获取响应数据； 4.持久化存储；三、使用步骤（爬取搜狗首页的页面数据） 1.引入库（环境安装） pip install requests 2.完整代码 #! usr/bin/env python3 # -*- coding: utf-8 -*- #需求：爬取搜狗首页的页面数据 import requests if __name__ == '__main__' : #step1: 指定url url = 'http://www.sogou.com/' #step2: 发起请求 #git方法会返回一个响应对象； response = requests.get(url=url) #step3: 打印响应数据（在响应对象里面） page_text = response.text print(page_text
44410编辑于 2024-05-28
来自专栏若是烟花
python爬虫----（2. scrapy框架）
pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等 settings.py: 爬虫配置文件 spiders: 放置spider的目录（三）依赖包依赖包比较麻烦 queuelib, cssselect， libxslt pip install w3lib pip install twisted pip install lxml apt-get install libxml2- # pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等 # settings.py: 爬虫配置文件 # spiders: 放置spider的目录（2）定义要抓取的数据结构 items.py from scrapy.item import Item, Field # 定义我们要抓取的数据 class TencentItem(Item): Python/Resources/' ] def parse(self, response): filename = response.url.split('/')[-2]
57220发布于 2020-07-27
来自专栏肖洒的博客
爬虫入门（四）：urllib2
主要使用python自带的urllib2进行爬虫实验。写在前面的蠢事：本来新建了一个urllib2.py便于好认识这是urllib2的实验，结果始终编译不通过，错误错误。 Step2：然后使用Pattern实例处理文本并获得匹配结果（一个Match实例）。 Step3：最后使用Match实例获得信息，进行其他的操作。 #! #如果match2匹配成功 if match2: # 使用Match获得分组信息 print match2.group() else: print 'match2匹配失败！' 糗事百科的网络爬虫 import urllib2 import urllib import re import thread import time #-- #----------- 程序的入口处 ----------- print u""" --------------------------------------- 程序：糗百爬虫
53430发布于 2018-08-07
来自专栏FunTester
selenium2java爬虫示例
本人在使用图灵机器人的过程中，需要丰富一下机器人知识库里面的笑话、段子等内容，就得去网上爬一些内容下来，经过尝试终于成功了，效果一般般，主要原因是添加的知识条目审核不通过，还有就是爬虫次数限制，暂时放弃了，以后打算用接口做爬虫，selenium爬起来很容易出错，浏览器加载太慢了，一旦次数太多很耗时。 //*[@id='detail-list']/li[1]/div/div[2]/a/div/h1/p"); Set<String> handles = driver.getWindowHandles (i); String joke = library.getTextByXpath("html/body/div[3]/div[1]/div/ul/li[1]/div/div[2]
45330发布于 2020-04-03
来自专栏全栈程序员必看
javaweb-爬虫-2-63
已有的Pipeline 6.3.3.案例自定义Pipeline导入数据 1.大纲 1.WebMagic介绍 2.WebMagic功能 3.爬虫分类 4.案例开发分析 5.案例实现项目地址：https 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 4.1.通用网络爬虫互联网上抓取所有数据。主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。比如百度 4.2.聚焦网络爬虫互联网上只抓取某一种数据。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，保存的页面也由于数量少而更新快，针对特定领域信息的需求。 4.3.增量式网络爬虫互联网上只抓取刚刚更新的数据。当有一个新数据C到来时，通过k个函数映射得到Ck1,Ck2…CKK个值然后只需查看A坐标对应的k个坐标是否都为1就能得知数据C是否已经在B中存在会存在一些误报，比如新的不重复数据D的映射值和已存在的数据
1.3K30发布于 2021-05-19
来自专栏程序员小王
【Python爬虫】Urllib的使用（2）
写在前面这是第二篇介绍爬虫基础知识的文章，之前的文章【Python爬虫】初识爬虫（1）主要是让大家了解爬虫和爬虫需要的基础知识，今天主要给大家介绍Urllib的使用。我的爬虫环境是基于py3.x，这里在啰嗦一下py2.x和py3.x环境下 Urllib的区别。 url:访问的网址 3#data:额外的数据，如header，form data urlopen一般使用三个参数 urlopen(Url,data,timeout) 第一个参数URL必传的，第二个参数 data是访问URL时要传送的数据，第三个timeout是设置超时时间，后面两个参数不是必传的。 Cookie Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。
85450发布于 2019-07-02
来自专栏GopherCoder
专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123
专栏：FROM 爬虫 TO 数据科学共同成长社群，精进专栏: 爬虫知识教程 0 关于本人：初学者，同时喜欢编程和文艺书籍。私下学些心理学，增强自己的认知能力。摸滚打爬才学习了编程技术，写专栏的初衷是自己梳理爬虫知识。走过许多弯路，可能也还在继续走着弯路。 01: CSDN专栏 02: 静觅爬虫专栏 03: 极客学院 2 专栏中技能概要 Git re BeautifulSoup xpath MySQL mongodb elasticsearch Scrapy 基本的匹配文本的方法| |03|requests模块的学习|网页下载器| |04|BeautifulSoup|解析器| |05|xpath|强大的解析器| |06|本地文本操作| |07|MySQL|关系型数据库 mongodb|No SQL| |09|elacsticsearch| |10|scrapy| |11|scrapy + Mongodb| |12|scrapy + Mongodb + redis| 数据科学专栏
68270发布于 2018-06-06
来自专栏JackieZheng
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
鉴于爬取的是短评数据，少则10来个字，多则百来个字，网上查找了下，发现Google开源的Word2Vec比较合适，于是今天捣鼓了一天，把自己遇到的问题和运行的结果在这里做个总结。　　这里使用Word2Vec的大致流程如下：　　　　1. 获取数据（这里是豆瓣电影短评数据）　　　　2. 数据处理（将短评数据使用分词器分词，并以空格连接分词结果）　　　　3. 载入训练模型，分析感兴趣的维度（比如，近义词分词，关联词分析）　　　　Github： https://github.com/NLPchina/Word2VEC_java 获取数据　　数据就用短评数据训练数据　　有了上述的分词后的文件，就可以作为Word2Vec算法的输入用来训练模型了。　　这部分代码可以参看上面的GitHub代码中的Word2VEC.java类。至此，我们明白了 Word2Vec是什么，有什么用，怎么用常用的中文分词器以及具体用法，如何加载停用词库等 Word2Vec如何训练数据得到模型 Word2Vec如何使用训练的模型分析有趣的维度如果您觉得阅读本文对您有帮助
1.9K91发布于 2018-01-16
来自专栏二爷记
Python爬虫，pentagram图片及数据采集爬虫
很久没有写爬虫了，随手写了一个爬虫，分享给大家，目标是获取所有图片及数据内容，由于图片存在多张，故简单的采用了多线程来采集下载图片，同时也简单的运用python写入txt构建了一下爬取过程的日志文件，代码写的比较啰嗦 with open("log.txt", 'a+', encoding='utf-8') as f: f.write(f"{now()}-获取数据 with open("log.txt", 'a+', encoding='utf-8') as f: f.write(f"{now()}-获取保存数据成功！微博爬虫，python微博用户主页小姐姐图片内容采集爬虫 ? 图片爬虫，手把手教你Python多线程下载获取图片 ? Python下载爬虫，解析跳转真实链接下载文件 ? Python爬虫，B站视频下载源码脚本工具助手附exe ·················END·················
88220发布于 2021-07-05

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Scrapy1.6 爬虫框架2 提取数据

python 爬虫2

爬虫架构|利用Kafka处理数据推送问题（2）

【Python环境】Python爬虫入门（2）：爬虫基础了解

Python 爬虫（2）

《Python网络爬虫与数据挖掘小课堂》——part2

11、web爬虫讲解2—Scrapy框架爬虫—Scrapy使用

爬虫数据采集

Python爬虫之urllib模块2

爬虫学习（2）：request库使用

python2爬虫编码问题

python爬虫学习（2）——requests模块

python爬虫----（2. scrapy框架）

爬虫入门（四）：urllib2

selenium2java爬虫示例

javaweb-爬虫-2-63

【Python爬虫】Urllib的使用（2）

专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

Python爬虫，pentagram图片及数据采集爬虫

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐