首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏python3

    Python 爬虫4

    webdriver.chrome.driver"] = chromedriver driver = webdriver.Chrome(chromedriver) driver.get("http://www.python.org webdriver.chrome.driver"] = chromedriver driver = webdriver.Chrome(chromedriver) driver.get("http://www.python.org driver.find_element_by_tag_name(“input”) 3. find_element_by_class_name(‘input-class’)     #根绝class定位 4. contiune并且type属性为button的input元素://input[@name='continue'][@type='button'] 查找页面上id为loginForm的form元素下第4个 input元素://form[@id='loginForm']/input[4] 控件操作: 输入框; element.clear()   #清空输入框数据 element.sendkeys(“username

    1.2K30发布于 2020-01-10
  • 来自专栏全栈程序员必看

    python爬虫4个实例

    文章目录 1、京东商品页面的爬取 2、亚马逊商品页面的爬取 可以先看 网络爬虫基础知识,然后结合下面的实例学习爬虫的常用方法。 print(r.text[:1000]) except: print("爬取失败") 结果: C:\Users\Admin\Anaconda3\python.exe "E:/2019/May 1 限制网络爬虫的方法: 来源审查: 检查来访HTTP协议头的User – Agent域,只响应浏览器或友好爬虫的访问。 发布公告: Robots协议,告知所有爬虫网站的爬取策略,要求爬虫遵守。 可以看到头部有一个字段是’User-Agent’: ‘python-requests/2.18.4’,说明我们的爬虫告诉亚马逊服务器这次的访问是由一个python的requests库的程序产生的。 :50,startTimer:function(){a.ts++;setInterval(function(){d.ue&&a.pec<a.ec&&d.uex("at");a.pec=a.ec},1E4)

    85420编辑于 2022-08-24
  • 来自专栏python3

    Python爬虫笔记4-Beautif

    安装 我的环境是Python 3.6.5,windows下cmd里执行pip安装即可。 pip3 install beautifulsoup4 测试 python终端里导入beautifulsoup,无报错信息即安装成功。 >>from bs4 import BeautifulSoup >> BeautifulSoup对象 BeautifulSoup将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象 比如id,class_(class为Python关键字,使用下划线区分),如下: print(soup.find_all(id='link1')) print(soup.find_all(class_= 网络爬虫开发实战]:4.2-使用Beautiful Soup

    1K40发布于 2020-01-03
  • 来自专栏python学习指南

    Python爬虫(十五)_案例:使用bs4爬虫

    本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南 案例:使用BeautifulSoup的爬虫 我们已腾讯社招页面来做演示:http://hr.tencent.com 使用BeautifulSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、时间、以及每个职位详情的点击链接存储出来。 #-*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib2 import urllib import json #使用json get_text() workLocation = site.select('td')[3].get_text() publishTime = site.select('td')[4]

    1.2K60发布于 2018-01-17
  • 来自专栏python3

    Python爬虫4-URLError与H

    GitHub代码练习地址:URLError:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac06_URLError.py            HTTPError:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac07_HTTPError.py 模块:urllib.error 一、URLError   产生的原因: 没网

    48620发布于 2020-01-17
  • 来自专栏python爬虫教程

    python爬虫之BeautifulSoup4使用

    钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。 上一章我们讲解针对结构化的html、xml数据,使用Xpath实现网页内容爬取。 除了支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果不安装它,则Python会使用默认的解析器。 and Tillie 钢铁学爬虫 \n ', Tillie, '\n 钢铁学爬虫 and 5 Tillie 6 钢铁学爬虫

    1.8K20编辑于 2022-09-19
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列2

    前言 本篇详细介绍beautifulsoup4的功能,从最基础的开始讲起,让小伙伴们都能入门 一、读取HTML页面 1.先写一个简单的html页面,把以下内容copy出来,保存为html格式文件 /" class="sister" id="link2">python, <a href="http://www.cnblogs.com/yoyoketang/tag/selenium/" class

    2.为了学习方便,可以把此html文件和脚本放同一文件夹下 3.用python的open函数读取这个html,如下图能正确打印出来,说明读取成功了 ? 3.html.parser这个是python库里面自带的解析器,无需安装。 4.prettify()这个方法是把文件解析成html格式,用html的标准格式输出(有缩进的) ? 三、对象的种类 1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag : 标签对象,如:<p class="title

    79460发布于 2018-04-08
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列1

    前言 以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。 一、安装 1.打开cmd用pip在线安装beautifulsoup4 >pip install beautifulsoup4 ? 二、解析器 1.我们主要用第一个html.parser,这个是python的标准库,可以直接用。其它几个需要安装对应解析器, 下表列出了主要的解析器,以及它们的优缺点: ? 2.用requests里的get方法打开博客首页,r.content返回整个html内容,返回类型为string 3.查找所有的class属性为dayTitle的Tag类 4.获取当前Tag的标签为 五、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com

    1K110发布于 2018-04-08
  • 来自专栏全栈程序员必看

    python爬虫-数据解析(bs4

    文章目录 python爬虫-数据解析(bs4) 基本知识概念 bs4实例 —— 爬取三国演义所有章节 效果图 练习2—爬取多情剑客无情剑小说所有章节 效果图 python爬虫-数据解析(bs4 ) 基本知识概念 数据解析原理: 标签定位 提取标签、标签属性中存储的数据值 bs4数据解析原理: 1.实例化一个BeautifulSoup对象,并且将页面原码数据加载到该对象中 2.通过调用BeautifulSoup 对象中相关的属性或方法进行标签定位和数据提取 环境安装: pip install bs4 pip install lxml 如何实例化BeautifulSoup对象: from bs4 import - text/get_ text() :可以获取某一个标签中所有的文本内容 - string:只可以获取该标签下面直系的文本内容 - 获取标签中属性值: - soup.a['href'] bs4实例 练习2—爬取多情剑客无情剑小说所有章节 https://www.gulongwang.com/duo/ from bs4 import BeautifulSoup import requests

    1.3K30发布于 2021-04-19
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列3

    find_all找出所有的标签 1.find_all(class_="lazy")获取所有的图片对象标签 2.从标签里面提出jpg的url地址和title # coding:utf-8 from bs4 os.getcwd()这个方法可以获取当前脚本的路径 3.用open打开写入本地电脑的文件路径,命名为:os.getcwd()+"\\jpg\\"+title+'.jpg'(命名重复的话,会被覆盖掉) 4. 四、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests import os r = requests.get("http:

    784100发布于 2018-04-08
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列4-子节点​

    这个string就是上面div的子节点(string通常看成是一个tag的子节点) 4." contents 1.tag对象contents可以获取所有的子节点,返回的是list 2.len()函数统计子节点的个数 3.通过下标可以取出对应的子节点 # coding:utf-8 from bs4 六、参考代码: # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com

    2.1K70发布于 2018-04-08
  • 来自专栏机器学习与统计学

    4 幅思维导图:学会 Python 爬虫

    原创:ZOE酱 https://zhuanlan.zhihu.com/p/36204695 这次给大家带来的是4 幅思维导图,梳理了 Python 爬虫部分核心知识点:网络基础知识,Requests, BeautifulSoup,urllib 和 Scrapy 爬虫框架。 本文思维导图仅仅涉及了爬虫最核心基础的部分,但足够应对入门所需了~ 1 爬虫基础知识 ? 2 Requests 库 ? 3 BeautifulSoup & urllib ? 4 Scrapy 爬虫框架 ?

    79730发布于 2019-07-05
  • 来自专栏机器学习算法与Python学习

    Python爬虫系列笔记(4) -- URL异常处理

    新创建资源的URI可在响应的实体中得到 处理方式:爬虫中不会遇到 202:请求被接受,但处理尚未完成 处理方式:阻塞等待 204:服务器端已经实现了请求,但是没有返回新的信 息。

    2.2K90发布于 2018-04-04
  • 来自专栏Rattenking

    Python 爬虫 NO.4 HTTP 响应状态码

    爬虫中,我们可以根据状态码来判断服务器响应状态,如状态码为 200,则证明成功返回数据,再进行进一步的处理,否则直接忽略。下表列出了常见的错误代码及错误原因。 2. –499)和服务器错误 (500–599): 分类 分类描述 1** 信息,服务器收到请求,需要请求者继续执行操作 2** 成功,操作被成功接收并处理 3** 重定向,需要进一步的操作以完成请求 4* * 客户端错误,请求包含语法错误或无法完成请求 5** 服务器错误,服务器在处理请求的过程中发生了错误 4.

    2K10编辑于 2022-09-27
  • 来自专栏Lansonli技术博客

    Python案例:使用BeautifuSoup4爬虫

    &start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。 # bs4_tencent.py from bs4 import BeautifulSoup import urllib2 import urllib import json # 使用了json get_text() workLocation = site.select('td')[3].get_text() publishTime = site.select('td')[4]

    38510发布于 2021-10-09
  • 来自专栏嘘、小点声

    python网络爬虫4)结构与基本概念

    基本模型 请求与响应 import urllib.request as urllib2 request=urllib2.Request('http://www.zhihu.com') response=urllib2.urlopen(request) html=response.read() print(html) Cookie处理 呵呵 import urllib.request as urllib2 import http.cookiejar as cookielib cookie = cookie

    66320发布于 2019-07-31
  • 来自专栏python学习指南

    Python爬虫(十四)_BeautifulSoup4 解析器

    CSS选择器:BeautifulSoup4 和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。 BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。 使用pip安装即可:pip install beautifulsoup4 官方文档: http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0 |抓取工具| 但是我们可以通过soup = BeautifulSoup(html, "lxml") 四大对象种类 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象, element.Tag'> 我们可以利用 soup 加标签名轻松地获取这些标签的内容,这些对象的类型是bs4.element.Tag。

    1.1K80发布于 2018-01-17
  • 来自专栏python3

    python3爬虫4)各种网站视频下载

    发现全连接那个下载失败,视频连接那个下载成功,下载到了60多兆的视频文件,可以播放,这样这个下载地址就算找到了,我们再试试上次用python写的简单7行代码试试, 代码链接: python3爬虫(2)下载有固定链接的视频 经过前面的学习我们知道这是m3u8+ts传输视频流的,具体技术请看: python3爬虫(3)下载流媒体m3u8 我们看下这个具体细节,手工下载一下m3u8文件,可以下载,和网页端比较一下是一样的,手工下载 这个m3u8的参数:type:mp4,ups_key:49fa2661f64619e0e57d22611df8e5b7,都是不容易找到。 打开抓包工具Fiddler,这个是名气最大的,简单看下,7个请求,其中有6个是python进程的请求,1个是浏览器sogouexplore.exe请求。 ? 看看这个6个python请求。 第一个是log.mmstat.com,第二个是https请求,后边4次好像是重复的动作,一模一样,其实是两次请求。

    3.7K21发布于 2020-01-13
  • 来自专栏python3

    Python学习】爬虫报错处理bs4.

    【BUG回顾】 在学习Python爬虫时,运Pycharm中的文件出现了这样的报错: bs4.FeatureNotFound: Couldn’t find a tree builder with the 【解决方案】 原因是电脑安装了Anaconda3(python3.7),lxml库是4.2.5,在Pycharm(社区,2018.3)版中老是不支持lxml。

    92520发布于 2020-01-16
  • 来自专栏Python小屋

    Python爬虫扩展库BeautifulSoup4用法精要

    BeautifulSoup是一个非常优秀的Python扩展库,可以用来从HTML或XML文件中提取我们感兴趣的数据,并且允许指定使用不同的解析器。 由于beautifulsoup3已经不再继续维护,因此新的项目中应使用beautifulsoup4,目前最新版本是4.5.0,可以使用pip install beautifulsoup4直接进行安装,安装之后应使用 from bs4 import BeautifulSoup导入并使用。 下面我们就一起来简单看一下BeautifulSoup4的强大功能,更加详细完整的学习资料请参考https://www.crummy.com/software/BeautifulSoup/bs4/doc/ >>> from bs4 import BeautifulSoup >>> BeautifulSoup('hello world!'

    92950发布于 2018-04-16
领券