搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
python爬虫-数据解析（bs4）
文章目录 python爬虫-数据解析（bs4）基本知识概念 bs4实例 —— 爬取三国演义所有章节效果图练习2—爬取多情剑客无情剑小说所有章节效果图 python爬虫-数据解析（bs4 ）基本知识概念数据解析原理：标签定位提取标签、标签属性中存储的数据值 bs4数据解析原理： 1.实例化一个BeautifulSoup对象，并且将页面原码数据加载到该对象中 2.通过调用BeautifulSoup 对象中相关的属性或方法进行标签定位和数据提取环境安装： pip install bs4 pip install lxml 如何实例化BeautifulSoup对象： from bs4 import BeautifulSoup 对象的实例化： 1.将本地的html文档中的数据加载到该对象中 fp = open('. select('.tang > ul > li > a'): >表示的是一个层级 - oup. select(' .tang > ul a'): 空格表示的多个层级 - 获取标签之间的文本数据
1.3K30发布于 2021-04-19
来自专栏java和python
python爬虫（三）数据解析，使用bs4工具
目录 1 BeautifulSoup4介绍 2 安装和文档： 3 简单使用： 4 四个常用的对象： 4.1 Tag： 4.2 NavigableString： 4.3 Comment： 5 遍历文档树和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful Soup 4。 2 安装和文档： 1. 安装：`pip install bs4`。 2. 中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 3 简单使用： from bs4 import BeautifulSoup import BeautifulSoup url ="http://www.xinfadi.com.cn/getPriceData.html" # 获取连接的全部数据 resp = requests.get
1.2K10编辑于 2022-06-06
来自专栏python3
Python 爬虫（4）
driver.find_element_by_tag_name(“input”) 3. find_element_by_class_name(‘input-class’) #根绝class定位 4. contiune并且type属性为button的input元素：//input[@name='continue'][@type='button'] 查找页面上id为loginForm的form元素下第4个 input元素：//form[@id='loginForm']/input[4] 控件操作：输入框； element.clear() #清空输入框数据 element.sendkeys(“username ”) #发送数据 element.text #获取元素文本的值按钮： element.click() #"点击"操作 element.submit() #同.click xxxxxxxxxx") randomSleep(2, 5) browser.find_element_by_id("password").send_keys("xxxxxxxxx") randomSleep(1, 4)
1.2K30发布于 2020-01-10
来自专栏码上修行
《Python网络爬虫与数据挖掘小课堂》——part4
Python的下载（版本有2.x和3.x）、安装、环境变量配置、pip安装及使用见往前文章（爬虫系列）。 Response对象包含爬虫返回的内容 ? HTTP协议对资源的操作：方法及说明 GET——请求获取URL位置的资源 HEAD——请求获取URL位置资源的响应消息报告，即获得该资源的头部信息 POST——请求向URL位置的资源后附加新的数据通过URL和命令管理资源，操作独立无状态，网络通道及服务器成为了黑盒子理解PATCH和PUT的区别假设URL位置有一组数据UserInfo，包括UserID、UserName等20个字段需求：用户修改了 (url, data=None, json=None, **kwargs) url : 拟更新页面的url链接 data : 字典、字节序列或文件，Request的内容 json : JSON格式的数据
80930发布于 2019-11-24
来自专栏python学习指南
Python爬虫(十五)_案例：使用bs4的爬虫
本章将从Python案例讲起：所使用bs4做一个简单的爬虫案例，更多内容请参考:Python学习指南案例：使用BeautifulSoup的爬虫我们已腾讯社招页面来做演示：http://hr.tencent.com 使用BeautifulSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、时间、以及每个职位详情的点击链接存储出来。 #-*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib2 import urllib import json #使用json get_text() workLocation = site.select('td')[3].get_text() publishTime = site.select('td')[4]
1.3K60发布于 2018-01-17
来自专栏python全栈教程专栏
爬虫学习（4）：error异常处理
首先要导入request模块，还有异常处理模块error.用try和except搭配，如果能正常访问呢，就正常执行，不能正常执行就打印出出错的原因（reason）和状态码(code)以及请求头(headers).关键字参数sep是实现分隔符，比如多个参数输出时想要输出中间的分隔字符，这里就是打印里的每一个都对应一个换行，看结果图就知道了。上面我们用到HTTPError，他是URLError的子类，现在我把子类和父类加进来：
45330发布于 2021-10-18
来自专栏全栈程序员必看
python爬虫的4个实例
文章目录 1、京东商品页面的爬取 2、亚马逊商品页面的爬取可以先看网络爬虫基础知识，然后结合下面的实例学习爬虫的常用方法。限制网络爬虫的方法：来源审查：检查来访HTTP协议头的User – Agent域，只响应浏览器或友好爬虫的访问。发布公告： Robots协议，告知所有爬虫网站的爬取策略，要求爬虫遵守。 :50,startTimer:function(){a.ts++;setInterval(function(){d.ue&&a.pec<a.ec&&d.uex("at");a.pec=a.ec},1E4) Process finished with exit code 0 可见，更改User-Agent属性之后的爬虫可以正常爬取信息。尝试和修改后的爬虫程序如下： import requests url = "https://www.amazon.cn/dp/B07G7K1Z98/ref=sr_1_3?
85820编辑于 2022-08-24
来自专栏python3
Python爬虫笔记4-Beautif
BeautifulSoup介绍与lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML数据。 pip3 install beautifulsoup4 测试 python终端里导入beautifulsoup，无报错信息即安装成功。 >>from bs4 import BeautifulSoup >> BeautifulSoup对象 BeautifulSoup将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象 ,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment BeautifulSoup 对象表示的是一个文档的内容。 story
The Dormouse's story 关于BeautifulSoup的使用就这样吧，常用个人就觉得用好find_all即可(=.=~) 参考链接崔庆才 [Python3网络爬虫开发实战
1K40发布于 2020-01-03
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列4-子节点
这个string就是上面div的子节点（string通常看成是一个tag的子节点） 4." contents 1.tag对象contents可以获取所有的子节点，返回的是list 2.len()函数统计子节点的个数 3.通过下标可以取出对应的子节点 # coding:utf-8 from bs4 六、参考代码： # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com
2.1K70发布于 2018-04-08
来自专栏python3
Python爬虫4-URLError与H
GitHub代码练习地址：URLError：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac06_URLError.py 　　　　　　　　　　 HTTPError：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac07_HTTPError.py 模块：urllib.error 一、URLError 　　产生的原因：没网
48720发布于 2020-01-17
来自专栏python爬虫教程
python爬虫之BeautifulSoup4使用
钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的html、xml数据，使用Xpath实现网页内容爬取。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 and Tillie 钢铁学爬虫 \n ', Tillie, '\n 钢铁学爬虫 and 5 Tillie 6 钢铁学爬虫
1.8K20编辑于 2022-09-19
来自专栏TeamsSix的网络空间安全专栏
Python Scrapy 爬虫框架 | 4、数据项介绍和导出文件
0x00 前言通过上文的内容，已经把博客文章的标题及目录爬取下来了，接下来为了方便数据的保存，我们可以把这些文章的标题及目录给包装成一个数据项，也就是 items。 result2.json [ {"_id": "https://www.teamssix.com/year/191224-093319.html", "title": "【Python Scrapy 爬虫框架】 2、利用 Scrapy 爬取我的博客文章标题链接", "list": ["0x00 新建项目", "0x01 创建一个爬虫", "0x02 运行爬虫", "0x03 爬取内容解析"]}, {"_id ，下一篇文章将介绍如何导出到 MongoDB数据库中。参考链接： https://youtu.be/aDwAmj3VWH4 http://doc.scrapy.org/en/latest/topics/architecture.html
68920发布于 2019-12-30
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列2
前言本篇详细介绍beautifulsoup4的功能，从最基础的开始讲起，让小伙伴们都能入门一、读取HTML页面 1.先写一个简单的html页面，把以下内容copy出来，保存为html格式文件 4.prettify()这个方法是把文件解析成html格式，用html的标准格式输出（有缩进的） ? 三、对象的种类 1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag : 标签对象，如：<p class="title 2.那么获取其中的某一个属性，就跟操作字典一样，如：tag["href"] 3.由于class属性一般可以为多个，中间空格隔开，所以class属性获取的是一个list类型：[u'sister'] 4. 七、发福利 1.爬糗事百科首页的段子 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("
79860发布于 2018-04-08
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列1
前言以博客园为例，爬取我的博客上首页的发布时间、标题、摘要，本篇先小试牛刀，先了解下它的强大之处，后面讲beautifulsoup4的详细功能。一、安装 1.打开cmd用pip在线安装beautifulsoup4 >pip install beautifulsoup4 ? 2.用requests里的get方法打开博客首页，r.content返回整个html内容，返回类型为string 3.查找所有的class属性为dayTitle的Tag类 4.获取当前Tag的标签为五、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com
1.1K110发布于 2018-04-08
来自专栏技术大杂烩
【爬虫】（三）lo4d.com
前言因为毕设是基于机器学习的，所以需要大量的样本来训练模型和检验成果，因此，通过爬虫，在合法合规的情况下，爬取自己所需要的资源，在此进行记录；本次爬取的网站是 https://www.lo4d.com 分析大致浏览之后，接下来就是进行分析以及分步操作了； 1、先请求一下网页，看看是否能请求成功； import requests url = "https://en.lo4d.com/windows 接下来随机点开一个文件的镜像网站看看能不能成功下载； import requests from lxml import etree url = "https://videopad-free.en.lo4d.com /get-file/videopad-free/507d856d49f52f00265b1037d4df1629/'} 6、最后一步，实现下载； def download(url): info 上篇精讲：【爬虫】（二）windows10download.com 我是，期待你的关注；创作不易，请多多支持；系列专栏：爬虫专栏
48730编辑于 2023-08-26
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列3
find_all找出所有的标签 1.find_all(class_="lazy")获取所有的图片对象标签 2.从标签里面提出jpg的url地址和title # coding:utf-8 from bs4 os.getcwd()这个方法可以获取当前脚本的路径 3.用open打开写入本地电脑的文件路径，命名为：os.getcwd()+"\\jpg\\"+title+'.jpg'（命名重复的话，会被覆盖掉） 4. 四、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests import os r = requests.get("http:
788100发布于 2018-04-08
来自专栏短信接收服务
爬虫数据采集
经常有小伙伴需要将互联网上的数据保存的本地，而又不想自己一篇一篇的复制，我们第一个想到的就是爬虫，爬虫可以说是组成了我们精彩的互联网世界。这都是爬虫数据采集的功劳。这篇文章我总结了爬虫数据采集的说有流程，从最开始的最简单的基本爬虫，到爬虫所采集到的数据如何存储，以及我们如何绕过一些反爬措施，来获取我们需要的数据，进行爬虫的数据采集：爬虫介绍：主要介绍了什么是爬虫存储 CSV 文件：这篇文章介绍了如何将爬虫采集到的数据保存为 csv 文件，为我们后面的数据分析或者其他的一些要求做好铺垫。使用 MySQL 存储数据：这篇文章详细介绍了如何将爬虫采集到的数据保存到数据库，可以提供给我们查询或者是分析等任务。读取文档：这篇文章介绍了如何解析文档内容，并读取内容。
2.6K10编辑于 2022-04-28
来自专栏用户7289880的专栏
python零基础网络爬虫：抓取4A级猎头公司数据
实战思路剖析： 1.获取网站源码 2.从源码解析所需要的数据 3.数据存储到excel 实战步骤讲解第一步：获取网站源码需要安装的库：pip install xlwt 第一步先导入urllib.request
',html) 复制代码第三步：数据存储到excel 根据内容，我觉得存储到excel表格里面会比较好，所以对每行也写了一定的注释，大家可以参考下！ colnum,heData[colnum],xlwt.easyxf('font:bold on')) index = 1 for j in range(0,len(items)):#计算数据有多少条 i in range(0,7): print(items[j][i]) ws.write(index,i,items[j][i])#行数列数数据 index+=1 wb.save(newTable)#保存复制代码结果如下：我们可以看到所有的数据都被抓下来，并且存储到名为test2019的文件夹了。
71930发布于 2020-05-18

来自专栏机器学习与统计学

4 幅思维导图：学会 Python 爬虫

原创：ZOE酱 https://zhuanlan.zhihu.com/p/36204695 这次给大家带来的是4 幅思维导图，梳理了 Python 爬虫部分核心知识点：网络基础知识，Requests， BeautifulSoup，urllib 和 Scrapy 爬虫框架。本文思维导图仅仅涉及了爬虫最核心基础的部分，但足够应对入门所需了~ 1 爬虫基础知识 ? 2 Requests 库 ? 3 BeautifulSoup & urllib ? 4 Scrapy 爬虫框架 ?

79730发布于 2019-07-05

来自专栏GopherCoder

专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123

68270发布于 2018-06-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

python爬虫-数据解析（bs4）

python爬虫（三）数据解析，使用bs4工具

Python 爬虫（4）

《Python网络爬虫与数据挖掘小课堂》——part4

Python爬虫(十五)_案例：使用bs4的爬虫

爬虫学习（4）：error异常处理

python爬虫的4个实例

Python爬虫笔记4-Beautif

python爬虫beautifulsoup4系列4-子节点

Python爬虫4-URLError与H

python爬虫之BeautifulSoup4使用

Python Scrapy 爬虫框架 | 4、数据项介绍和导出文件

python爬虫beautifulsoup4系列2

python爬虫beautifulsoup4系列1

【爬虫】（三）lo4d.com

python爬虫beautifulsoup4系列3

爬虫数据采集

python零基础网络爬虫：抓取4A级猎头公司数据

4 幅思维导图：学会 Python 爬虫

专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫-数据解析（bs4）

python爬虫（三）数据解析，使用bs4工具

Python 爬虫（4）

《Python网络爬虫与数据挖掘小课堂》——part4

Python爬虫(十五)_案例：使用bs4的爬虫

爬虫学习（4）：error异常处理

python爬虫的4个实例

Python爬虫笔记4-Beautif

python爬虫beautifulsoup4系列4-子节点​

Python爬虫4-URLError与H

python爬虫之BeautifulSoup4使用

Python Scrapy 爬虫框架 | 4、数据项介绍和导出文件

python爬虫beautifulsoup4系列2

python爬虫beautifulsoup4系列1

【爬虫】（三）lo4d.com

python爬虫beautifulsoup4系列3

爬虫数据采集

python零基础网络爬虫：抓取4A级猎头公司数据

4 幅思维导图：学会 Python 爬虫

专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫beautifulsoup4系列4-子节点