搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏正则
python 爬虫2
一、认识爬虫 1.1、什么是爬虫？爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。 1.2、Python爬虫架构调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包) 网页解析器新闻/博客/微博图片，新闻，评论电影视频视频，评论音乐音频，评论三、开始爬虫本章为爬虫入门，所以我们只需要安装几个Python库即可，如下： requests | pip 爬虫」最细致的讲解Python爬虫之Python爬虫入门（一）先到这里
1.1K40发布于 2021-09-07
来自专栏数据科学与人工智能
【Python环境】Python爬虫入门（2）：爬虫基础了解
1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？ 2.浏览网页的过程在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。 4. for Python，另外还有几款比较优秀的IDE，大家可以参考这篇文章学习Python推荐的IDE 。好的开发工具是前进的推进器，希望大家可以找到适合自己的IDE 下一节，我们就正式步入 Python 爬虫学习的殿堂了，小伙伴准备好了嘛？
1K90发布于 2018-02-27
来自专栏python3
Python 爬虫（2）
Urllib 模块在python2和python3上有差异在python2上，urllib和urllib2各有各的功能，虽然urllib2是urllib的包装、升级版，但是urllib2还是不能完全替代 urllib，而在python3中，则全部封装成1个类：urllib python2： import urllib import urllib2 python3： import urllib Request 举例： python2中接收request对象： urllib2.Request python3中接收request对象： urllib.request.Request() python3 对这个方法重新进行了封装（quote 是用来给url转码的）举例： python2中使用urllib.encode data = {"key1":"hello", "key2":"world"} d = urllib.encode key1=hello&key2=world python3中使用parse.urlencode from urllib import parse import urllib.request url =
54810发布于 2020-01-07
来自专栏嘘、小点声
python网络爬虫（2）回顾Python编程
args=(q,)) w1.start() w2.start() r1.start() w1.join() w2.join() r1.terminate( ,'url_3']) t2 = myThread(name='Thread_2',urls=['url_4','url_5','url_6']) t1.start() t2.start() t1.join Exception: print(Exception) if __name__=='__main__': urls = ['https://github.com/','https://www.python.org urls = ['https://github.com/','https://www.python.org/','http://www.cnblogs.com/'] results = if __name__ == '__main__': #windows下多进程可能会有问题，添加这句可以缓解 freeze_support() win_run() 创建任务进程：python
77920发布于 2019-07-31
来自专栏玄魂工作室
Python爬虫之urllib模块2
-------------------------------------------------------------------------------------------------------------------------------- 本文来自网友投稿作者：PG,一个待毕业待就业的二流大学生。 ---------------------------------------------------------------------------------------------
59050发布于 2018-04-12
来自专栏python3
python2爬虫编码问题
import sys reload(sys) sys.setdefaultencoding('utf-8') # 输出的内容是utf-8格式
71720发布于 2020-01-15
来自专栏若是烟花
python爬虫----（2. scrapy框架）
scrapy.cfg: 项目配置文件 items.py: 需要提取的数据结构定义文件 pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等 settings.py: 爬虫配置文件 install w3lib pip install twisted pip install lxml apt-get install libxml2-dev libxslt-dev apt-get new-blog目配置文件 # items.py: 需要提取的数据结构定义文件 # pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等 # settings.py: 爬虫配置文件 # spiders: 放置spider的目录（2）定义要抓取的数据结构 items.py from scrapy.item import Item, Field # 定义我们要抓取的数据 def parse(self, response): filename = response.url.split('/')[-2] open(filename, 'wb'
56720发布于 2020-07-27
来自专栏兵马俑的CSDN
python爬虫学习（2）——requests模块
简单来说：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。二、如何使用：（requests模块的编码流程） 1.指定URL； 2.发起请求； 3.获取响应数据； 4.持久化存储；三、使用步骤（爬取搜狗首页的页面数据） 1.引入库（环境安装） pip install requests 2.完整代码 #! usr/bin/env python3 # -*- coding: utf-8 -*- #需求：爬取搜狗首页的页面数据 import requests if __name__ == '__main__' 3.运行代码爬取成功总结 `Python代码使用requests库从指定的网址下载网页内容，然后将其保存到本地文件中，最后打印出保存成功的消息。
43410编辑于 2024-05-28
来自专栏程序员小王
【Python爬虫】Urllib的使用（2）
写在前面这是第二篇介绍爬虫基础知识的文章，之前的文章【Python爬虫】初识爬虫（1）主要是让大家了解爬虫和爬虫需要的基础知识，今天主要给大家介绍Urllib的使用。 Urllib是Python自带的标准库，无需安装，直接可以用，且提供了以下功能：网页请求响应获取代理和cookie设置异常处理 URL解析爬虫所需要的功能，基本上在Urllib中都能找到我的爬虫环境是基于py3.x，这里在啰嗦一下py2.x和py3.x环境下 Urllib的区别。 py2.x环境下有 Urllib Urlli2 urllib与urllib2都是Python内置的，要实现Http请求，以urllib2为主,urllib为辅. ——-对应的，在Python3.x中会使用http.CookieJar 在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request
84550发布于 2019-07-02
来自专栏CSDN博客
Python2实现简单的爬虫
当做一个分类任务时，需要大量的图像数据，这个图像数据如果要人工一个个下载的，这很明显不合理的，这是就要用到爬虫程序。使用爬虫程序帮我们下载所需要的图像。那么我们就开始学习爬虫吧。爬虫的框架整体框架下图是爬虫的整体框架，其中包括调度端、URL管理器、网页下载器、网页解析器、价值数据，它们的作用如下：调度端：主要是调用URL管理器、网页下载器、网页解析器，也设置爬虫的入口； *图像来自慕课网课程下图是爬虫的一个顺序图，从顺序图中可以看出调度器通过训练调用URL管理器、网页下载器、网页解析器来不断获取网络数据。 ? *图像来自慕课网课程网页下载器的代码片段： # coding=utf-8 import urllib2 url = "https://www.baidu.com" response = urllib2 url = "https://www.baidu.com" request = urllib2.Request(url) # 模仿火狐浏览器 request.add_header("user-agent
86810发布于 2020-05-06
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列2
tag/fiddler/" class="sister" id="link1">fiddler, python, <a href="http://www.cnblogs.com/yoyoketang/tag/selenium/" class
2.为了学习方便，可以把此html文件和脚本放同一文件夹下 3.用python的open函数读取这个html,如下图能正确打印出来，说明读取成功了 ? 3.html.parser这个是python库里面自带的解析器，无需安装。 4.prettify()这个方法是把文件解析成html格式，用html的标准格式输出（有缩进的） ? 三、对象的种类 1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag : 标签对象，如：<p class="title
79460发布于 2018-04-08
来自专栏Rattenking
Python 爬虫 NO.2 HTTP 和 HTTPS
2. SSL 加密的主要作用建立一个信息安全通道，保证数据传输的安全性。确认网站的真实性。但本书主要讲的是网络爬虫相关，主要爬取的是 HTTP/HTTPS 协议相关的内容，所以这里就不再展开深入讲解 TCP、IP 等相关知识了，感兴趣的读者可以搜索相关资料了解下，如《计算机网络》、《图解 HTTP
34610编辑于 2022-08-26
来自专栏授客的专栏
Python 利用Python编写简单网络爬虫实例2
by:授客 QQ：1033553122 实验环境 python版本：3.3.5（2.7下报错实验目的获取目标网站“http://www.51testing.com/html/index.html 目标url存在子页面中的文章中，随机分布，我们要把它找出来 python脚本 #! /usr/bin/env python # -*- coding:utf-8 -*- from urllib.request import * import gzip, re from io import BytesIO from html.parser import HTMLParser # 爬虫类 class Reptile: """to download web pages""" def url in url_list: self.url_set.add(url) ##############测试################ # 添加头域，伪装浏览器访问网站,防止一些网站拒绝爬虫访问
69250发布于 2019-09-11
来自专栏杨熹的专栏
Python 爬虫 2 爬取多页网页
参考资料：极客学院: Python单线程爬虫代码：2.Single-thread-crawler.ipynb 本文内容： Requests.get 爬取多个页码的网页例：爬取极客学院课程列表爬虫步骤打开目标网页，先查看网页源代码 get网页源码找到想要的内容，找到规律，用正则表达式匹配，存储结果 Requests 收录了 python 的第三方http库完美地替代了 python 的 urllib2 ie=utf-8&kw=python') # print html.text # 这里并没有遇到取不到的情况，所以没有用到hea # 这个程序没有获得源代码，因为一个网站会对访问他的程序进行检查 # hea 爬取多个页码的网页爬虫只能爬网页上看得见的内容 url = 'https://www.crowdfunder.com/browse/deals' html = requests.get(url).text q=filter&page=1[] 2https://www.crowdfunder.com/?q=filter&page=2[] 3https://www.crowdfunder.com/?
2.3K50发布于 2018-04-02
来自专栏萌海无涯
Python爬虫学习之代理IP抓取(2)
= TinyDB("db2.json") self.Fruit = Query() 更新查找下页代码 # 查找下一页url next_page = html.xpath('//*[@ , proxies=proxies, timeout=5) print("{} 可用".format(proxies)) self.db2. AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Mobile Safari/537.36' } # 爬虫数据存储数据库 self.db = TinyDB("db.json") # 整理后数据库 self.db2 = TinyDB("db2.json") # # 获取url内容用于整理 html = etree.HTML(txt.text) # 第一条是表头一页100行数据 for i in range(2,
64130发布于 2019-08-08
来自专栏大家一起学编程
【python爬虫 2】BeautifulSoup快速抓取网站图片
有兴趣了解爬虫的小伙伴们，赶快学起来吧。第一步：了解需求在开始写之前，我们需要知道我们要做什么？做爬虫。抓取什么？抓取网站图片。在什么地方抓取？ 2、获取图片列表，以及链接，以及翻页操作继续分析，点击链接进入之后，发现有已经有图片了列表，并且还可以翻页。 3、获取图片详情，所有图片再点击继续研究，发现图片还有多张。 except: pass tu_detail(name,url1,2) if page==1: for z in range(2, ,url,page): """获取详情""" if page<=2: page=2 response = requests.get(url+"_"+str(page)+".html" 2、掌握正则，re.findall 的使用 3、掌握字符串切片的方式 str[0,-5] 截取第一个文字，到倒数第5个文字。
1.9K20编辑于 2022-01-25
来自专栏Python攻城狮
Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作
目录： Python网络爬虫（一）- 入门基础 Python网络爬虫（二）- urllib爬虫案例 Python网络爬虫（三）- 爬虫进阶 Python网络爬虫（四）- XPath Python网络爬虫（五）- Requests和Beautiful Soup Python网络爬虫（六）- Scrapy框架 Python网络爬虫（七）- 深度爬虫CrawlSpider Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序 1.爬虫进阶cookielib Python入门网络爬虫之精华版：详细讲解了Python学习网络爬虫。可以设置代理IP来进行爬虫，具体见代码操作（四）当你获取一个URL你使用一个opener。在 Python网络爬虫（二）- urllib爬虫案例中，我们都是使用的默认的opener，也就是urlopen。
93140发布于 2018-08-23
来自专栏用户8057608的专栏
Python爬虫系列：正则表达式(2)
之前关于Python的文章一直处于断更状态，想着也是鸽了很久，这不，小编准备给补上了~ 关于上次Python爬虫的文章：Python爬虫系列：正则表达式(1) 目录： raw string原生字符串类型那么什么是原生字符串呢，字面意思是原生的，在Python中为不含转义符的字符串。常见形式为：r'text'，即在字符串之前添加一个大写或小写的r。例如：r'[1-9]\d{5}'。 2.正则库常用函数当我们在爬取特定内容时，不可避免的需要用到正则库，其中正则库中的函数可以帮助我们做很多事，下面将列举最常用到的正则库的主要功能函数： re.search() 在一个字符串中搜索匹配正则表达式的第一个位置 2.match函数简介： re.match(pattern,string,flags=0) #从一个字符串的开始位置起匹配正则表达式，返回match对象其中，相关参数表示为： pattern :
58560发布于 2021-07-29
来自专栏python学习指南
python爬虫(七)_urllib2：urlerror和httperror
#urllib2_urlerror.py import urllib2 request = urllib2.Request("http://www.sdfsdfsf.com") try: urllib2 _urllib2_httperror.py import urllib2 request = urllib2.Request("http://blog.baidu.com/itcast") try : urllib2.urlopen(request) except urllib2.HTTPError, err: print err.code print err 运行结果如下 import urllib2 request = urllib2.Request("http://blog.baidu.com/itcast") try: urllib2.urlopen (request) except urllib2.HTTPError,err: print err.code except urllib2.URLError,err: print err
2.9K80发布于 2018-01-17
来自专栏Python绿色通道
Python爬虫准备：认识urlliburllib2与requests
首先说明一下我的爬虫环境是基于py2.x的，为什么用这个版本呢，因为py2.x的版本支持的多，而且一般会使用py2.x环境，基本在py3.x也没有太大问题，好了，进入正题！ urllib 与 urllib2 urllib与urllib2是Python内置的，要实现Http请求，以urllib2为主,urllib为辅. ** 构建一个请求与响应模型** import urllib2 注意处理请求的headers 很多时候我们服务器会检验请求是否来自于浏览器，所以我们需要在请求的头部伪装成浏览器来请求服务器.一般做请求的时候，最好都要伪装成浏览器，防止出现拒绝访问等错误，这也是一种反爬虫的一种策略 x-www-form-urlencoded ：浏览器提交 Web 表单时使用在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务 requests requests是Python print r.status_code print r.history 得到： http://www.baidu.com/ 200 [] 8.超时设置超时选项是通过参数timeout来设置的 python
59120发布于 2018-10-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

python 爬虫2

【Python环境】Python爬虫入门（2）：爬虫基础了解

Python 爬虫（2）

python网络爬虫（2）回顾Python编程

Python爬虫之urllib模块2

python2爬虫编码问题

python爬虫----（2. scrapy框架）

python爬虫学习（2）——requests模块

【Python爬虫】Urllib的使用（2）

Python2实现简单的爬虫

python爬虫beautifulsoup4系列2

Python 爬虫 NO.2 HTTP 和 HTTPS

Python 利用Python编写简单网络爬虫实例2

Python 爬虫 2 爬取多页网页

Python爬虫学习之代理IP抓取(2)

【python爬虫 2】BeautifulSoup快速抓取网站图片

Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作

Python爬虫系列：正则表达式(2)

python爬虫(七)_urllib2：urlerror和httperror

Python爬虫准备：认识urlliburllib2与requests

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python 爬虫2

【Python环境】Python爬虫入门（2）：爬虫基础了解

Python 爬虫（2）

python网络爬虫（2）回顾Python编程

Python爬虫之urllib模块2

python2爬虫编码问题

python爬虫----（2. scrapy框架）

python爬虫学习（2）——requests模块

【Python爬虫】Urllib的使用（2）

Python2实现简单的爬虫

python爬虫beautifulsoup4系列2

Python 爬虫 NO.2 HTTP 和 HTTPS

Python 利用Python编写简单网络爬虫实例2

Python 爬虫 2 爬取多页网页

​Python爬虫学习之代理IP抓取(2)

【python爬虫 2】BeautifulSoup快速抓取网站图片

Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作

Python爬虫系列：正则表达式(2)

python爬虫(七)_urllib2：urlerror和httperror

Python爬虫准备：认识urlliburllib2与requests

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python爬虫学习之代理IP抓取(2)