搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏技术探究
爬虫系列（7）数据提取--Beautiful Soup。
它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
1.7K30发布于 2019-07-10
来自专栏嘘、小点声
python网络爬虫（7）爬取静态数据详解
目的爬取http://seputu.com/数据并存储csv文件导入库 lxml用于解析解析网页HTML等源码，提取数据。 title通过正则表达式完成分组，并进行数据提取。注意的是：python正则表达式部分，不支持部分的零宽断言语法，采用分组方案，避开了可能出现的错误！ <=\[.*\]\s).*') result1=re.search(pattern, box_title) rows存储了二维数据，用于写入csv文件。 div_mulus=html.xpath('. rows.append([h2_title,result1.group(2),href,result1.group(1)]) pass pass pass 存储数据建立header一维数据，配合之前rows二维数据，通过w权限，配合writer方法，完成一维、二维的数据写入通过最后的输出，标记正常完成。
59130发布于 2019-07-31
来自专栏python3
VII Python（7）爬虫
VII Python（7）爬虫网络爬虫（网页蜘蛛）： python访问互联网： urllib和urllib2模块（python2. *分urllib和urllib2；python3..4.1中把urllib和urllib2合并统一为一个包package，注意版本3是包不是模块）； json模块（json轻量级的数据交换格式，此处对其应用是用字符串形式将 python的数据结构封装起来）； URL的一般格式： protocol://hostname[:port]/path/to/file protocal有：http、https、ftp、file、ed2k [19]: 'http://www.FishC.com' In [20]: response.info() Out[20]: <httplib.HTTPMessage instanceat 0x16a7b48 /usr/bin/python2.7 举例7（使用代理访问网页）：准备（通过http://www.whatismyip.com.tw/得到当前正在使用的IP，通过http://www.xicidaili.com
55220发布于 2020-01-07
来自专栏Python大数据分析
数据采集必备的7个低代码爬虫工具
爬虫是网络数据采集的简称，顾名思义就是利用http请求技术向网站发送数据请求，然后进行html解析并提取到需要的数据，可以使用Python等工具实现，这个过程看似简单，但暗藏很多机关，也导致很多人只是入了爬虫的门这主要是因为网络上到处是反爬虫机制，爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题，需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。为了偷点懒，我找了一些不需要代码或者低代码就可以用的爬虫软件，能点点点就配置好爬虫，非常的方便。下面是7个我常用的爬虫软件，分三大类，零代码工具、半自动化工具、低代码工具，都很好操作。零代码工具八爪鱼爬虫八爪鱼算是非常出名的数据采集软件了，很早就流传开来。它是一款无需任何代码，图形化操作非常方便的桌面端爬虫应用，你只需配置好URL，并简单的拖拽就可以实现批量数据采集。亮数据爬虫亮数据是一种专门应对反爬的数据采集工具，很适合亚马逊、Shopee等电商网站的数据采集和监测。
1.5K10编辑于 2025-08-06
来自专栏短信接收服务
爬虫数据采集
经常有小伙伴需要将互联网上的数据保存的本地，而又不想自己一篇一篇的复制，我们第一个想到的就是爬虫，爬虫可以说是组成了我们精彩的互联网世界。这都是爬虫数据采集的功劳。这篇文章我总结了爬虫数据采集的说有流程，从最开始的最简单的基本爬虫，到爬虫所采集到的数据如何存储，以及我们如何绕过一些反爬措施，来获取我们需要的数据，进行爬虫的数据采集：爬虫介绍：主要介绍了什么是爬虫存储 CSV 文件：这篇文章介绍了如何将爬虫采集到的数据保存为 csv 文件，为我们后面的数据分析或者其他的一些要求做好铺垫。使用 MySQL 存储数据：这篇文章详细介绍了如何将爬虫采集到的数据保存到数据库，可以提供给我们查询或者是分析等任务。读取文档：这篇文章介绍了如何解析文档内容，并读取内容。
2.6K10编辑于 2022-04-28
来自专栏GopherCoder
专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123
专栏：FROM 爬虫 TO 数据科学共同成长社群，精进专栏: 爬虫知识教程 0 关于本人：初学者，同时喜欢编程和文艺书籍。私下学些心理学，增强自己的认知能力。摸滚打爬才学习了编程技术，写专栏的初衷是自己梳理爬虫知识。走过许多弯路，可能也还在继续走着弯路。 01: CSDN专栏 02: 静觅爬虫专栏 03: 极客学院 2 专栏中技能概要 Git re BeautifulSoup xpath MySQL mongodb elasticsearch Scrapy 基本的匹配文本的方法| |03|requests模块的学习|网页下载器| |04|BeautifulSoup|解析器| |05|xpath|强大的解析器| |06|本地文本操作| |07|MySQL|关系型数据库 mongodb|No SQL| |09|elacsticsearch| |10|scrapy| |11|scrapy + Mongodb| |12|scrapy + Mongodb + redis| 数据科学专栏
68270发布于 2018-06-06
来自专栏二爷记
Python爬虫，pentagram图片及数据采集爬虫
很久没有写爬虫了，随手写了一个爬虫，分享给大家，目标是获取所有图片及数据内容，由于图片存在多张，故简单的采用了多线程来采集下载图片，同时也简单的运用python写入txt构建了一下爬取过程的日志文件，代码写的比较啰嗦 with open("log.txt", 'a+', encoding='utf-8') as f: f.write(f"{now()}-获取数据 listdatas.append(listdata) print(len(listdatas)) return listdatas #获取详情数据内容微博爬虫，python微博用户主页小姐姐图片内容采集爬虫 ? 图片爬虫，手把手教你Python多线程下载获取图片 ? Python下载爬虫，解析跳转真实链接下载文件 ? Python爬虫，B站视频下载源码脚本工具助手附exe ·················END·················
88220发布于 2021-07-05
来自专栏python学习指南
python爬虫(一)_爬虫原理和数据抓取
DT即数据技术，由数据在推倒人们的衣食住行，当今时代是一个大数据时代，数据从何而来？企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所政府机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询爬取网络数据：如果需要的数据市场上没有，或者不愿意购买，那么就可以招/做一名爬虫工程师，自己动手丰衣足食。百度百科：网络爬虫关于Python爬虫，我们需要学习的有： Python基础语法学习(基础知识) HTML页面的内容抓取(数据抓取) HTML页面的数据提取(数据清洗) Scrapy框架以及通用爬虫和聚焦爬虫网络爬虫可分为通用爬虫和聚焦爬虫两种。
3.5K70发布于 2018-01-17
来自专栏短信接收服务
爬虫系列：数据采集
在开始以前，还是要提醒大家：在网络爬虫的时候，你必须非常谨慎地考虑需要消耗多少网络流量，还要尽力思考能不能让采集目标的服务器负载更低一点。在做数据采集以前，对网站经行分析，看看代码结构。以上从网站结构开始分析，到具体代码实现，这是爬虫抽取网站内容的一个基本思路。每个网站不同，结构也会有所不同，所以要针对性的编写代码。以上代码已托管在 Github，地址：https://github.com/sycct/Scrape_1_1/ 文章来源：爬虫识别 - 爬虫系列：数据采集
78020发布于 2021-10-19
来自专栏我是思聪
共享单车数据爬虫
需要数据请联系微信bcdata 在线实时查看共享单车的位置，并提供了API供调用，方便进行研究，请查看体验：http://www.dancheditu.com/ 完整体验请在电脑上打开，手机可能显示不完整
1.5K10发布于 2020-04-30
来自专栏python3
爬虫之数据解析
　　一、啥是数据解析　　在上一篇关于爬虫的博客里，我提到过，整个爬虫分为四个部分，上一篇博客已经完成了前两步，也就是我说的最难的地方，接下来这一步数据解析不是很难，但就是很烦人，但只要你有耐心，一步一步查找、排除就会提取出目标信息，这一步就相当于从接收到的庞大数据中提取出真正想要、有意义的信息，所以对于爬虫来说，应该是很重要的。　　数据解析有三种方式，一是通过正则表达式，在python中就是利用re模块；二是xpath；三是利用BeautifulSoup。　　 worksheet.write(num, 6, label=li_list[num].find('p',class_='sum').text) worksheet.write(num, 7, 明显发现这就是登录请求的路径，数据结构拿到了，再去拿到请求的路径 ? 　　
1.3K20发布于 2020-01-21
大数据—爬虫基础
目录爬虫是什么？发送网络请求解析数据正则表达式正则表达式元字符常用函数 Beautiful Soup find_all()函数 find()函数 select() xpath库：爬虫是什么？爬虫（Crawler），也被称为网络爬虫、网页蜘蛛或网络机器人，是一种按照既定规则在网络上自动爬取信息的程序或脚本。它模拟人类操作客户端（如浏览器或APP）向服务器发起网络请求，以抓取数据。爬虫可以用于网站数据采集、内容监测等多种用途。爬虫的工作流程：选取目标数据源：确定要爬取的网站或网页。发起网络请求：模拟浏览器向目标网站发送请求。获取响应数据：接收目标网站返回的响应数据，通常是HTML、XML或JSON格式的数据。解析数据：使用解析器（如BeautifulSoup、lxml等）解析响应数据，提取出所需的信息。
98721编辑于 2024-06-13
来自专栏短信接收服务
爬虫系列：数据清洗
前面我们已经介绍了网络数据采集的一些基础知识，现在我们将进入高级数据采集部分。到目前为止，我们创建的网络爬虫都不是特别给力，如果网络服务器不能立即提供样式规范的信息，爬虫就不能采集正确的数据。如果爬虫只能采集那些显而易见的信息，不经过处理就存储起来，那么迟早要被登录表单、网页交互以及 Javascript 困住手脚。总之，目前爬虫还没有足够的实力去采集各种数据，只能处理那些愿意被采集的信息。数据清洗到目前为止，我们都没有处理过那些样式不规范的数据，要么使用的是样式规范的数据源，要么就是放弃样式不符合我们预期的数据。但在网络数据采集中，你通常无法对采集的数据样式太挑剔。本期关于数据清洗就是如上内容，在接下来的内容中我会讲解数据标准化，以及存储的数据如何清洗。
2.1K10编辑于 2022-01-12
来自专栏我和PYTHON有个约会
爬虫0040：数据筛选爬虫处理之结构化数据操作
爬虫处理之结构化数据操作目录清单正则表达式提取数据正则表达式案例操作 Xpath提取数据 Xpath案例操作 BeautifulSoup4提取数据 BeautifulSoup4案例操作章节内容关于数据爬虫程序，主要是运行在网络中进行数据采集的一种计算机程序，正常的一个爬虫采集数据的过程大致如下：访问目标服务器采集数据，获取访问url的数据根据需要筛选数据处理数据，存储到文件或者数据库，等待下一步进行数据分析或者数据展示由于存在着不同的服务器和软件应用，所以爬虫获取到的数据就会出现各种不同的表现形式，但是总体来说还是有规律的，有规律就可以被掌握的 ---- 首先，关于爬虫处理的数据，这是爬虫在采集完数据之后，针对数据进行筛选必须要进行的操作 ---- 接下来，了解两种不同的数据的表现形式非结构化数据无格式字符串数据：用户名、邮箱、账号、电话号码、地址、电影名称、评分、评论、如果前面的条件都不满足，若n和m均为八进制数字（0-7），则\nm将匹配八进制转义值nm。 \nml 如果n为八进制数字（0-3），且m和l均为八进制数字（0-7），则匹配八进制转义值nml。
4.1K10发布于 2018-08-27
来自专栏北京马哥教育
Python 爬虫实战：股票数据定向爬虫
选取方法：打开网页，查看源代码，搜索网页的股票价格数据是否存在于源代码中。所以判断该网页的数据使用js生成的，不适合本项目。因此换一个网页。从上图中可以发现百度股票的数据是html代码生成的，符合我们本项目的要求，所以在本项目中选择百度股票的网址。因此，在本项目中，使用字典来存储每只股票的信息，然后再用字典把所有股票的信息记录起来，最后将字典中的数据输出到文件中。 range(len(keyList)): key = keyList[i].text val = valueList[i].text infoDict[key] = val 6.最后把字典中的数据存入外部文件中
1.3K110发布于 2018-05-04
来自专栏大数据杂谈
Python 爬虫实战：股票数据定向爬虫
选取方法：打开网页，查看源代码，搜索网页的股票价格数据是否存在于源代码中。所以判断该网页的数据使用js生成的，不适合本项目。因此换一个网页。从上图中可以发现百度股票的数据是html代码生成的，符合我们本项目的要求，所以在本项目中选择百度股票的网址。因此，在本项目中，使用字典来存储每只股票的信息，然后再用字典把所有股票的信息记录起来，最后将字典中的数据输出到文件中。 range(len(keyList)): key = keyList[i].text val = valueList[i].text infoDict[key] = val 6.最后把字典中的数据存入外部文件中
1.7K40发布于 2018-06-11
来自专栏互联网-小阿宇
【Python爬虫网站数据实战】爬虫基础简介
- 在法律中是不被禁止的 - 具有违法风险 - 善意爬虫恶意爬虫爬虫带来的风险可以体现在如下2方面： - 爬虫干扰了被访问网站的正常运营 - 爬虫抓取了受到法律保护的特定类型的数据或信息抓取的是一整张页面数据 - 聚焦爬虫：是建立在通用爬虫的基础之上，抓取的是页面中特定的局部内容。 - 增量式爬虫：检测网站中数据更新的情况，只会爬取网站中最新更新出来的数据。爬虫的矛与盾：反爬机制：门户网站，可以通过制定相应策略或者技术手段，防止爬虫程序进行网站数据的爬取。 robots.txt协议君子协议，规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取。 HTTP协议： - 概念：就是服务器和客户端进行数据交互的一种形式。
66020编辑于 2022-11-21
来自专栏二爷记
Python爬虫，Json数据解析图片多线程爬虫!
搬砖许久，很久没写爬虫了，瞎写的，随便看看就好！目标网址：https://award.kidp.or.kr/Exhibit/winners.do? cd_gubun=1&awards_cate1=1 通过浏览器抓包获取真实网址及数据，很明显，这是一个POST请求方式获取的json数据，我们可以使用python requests 模拟 post 请求方式获取数据，关键在于协议头和提交的数据！几个关键点： requests.psot 模拟请求访问及解析json数据这里关键在于协议头及请求数据的提交，其他直接调用就可以了！ None 图片数据共有六个，由于图片数据存在数量差异，存在缺失图片的情况，比如三张、四张、五张，缺失的数据为None值，直接过滤处理掉多余的None！
74510编辑于 2022-03-29
来自专栏肖洒的博客
【爬虫】（八）Python之爬虫和数据小解析
之前爬的课表，现在需要将那些个一连串的字符串分割成想要的单独的数据，做个性化推送。程序的前面和之前一样，模拟登录。在处理选课/改课这个网页的时候，还是蛮复杂的。遇神杀神，见鬼杀鬼。爬虫 def Store(self): # 改课选课 grade_page = self.session.get( "http://yjsxt.xidian.edu.cn 获取指定td下的内容： row.findAll('td', attrs={'valign': "middle"})[:-1]: 这几次爬虫对于切片还是用的很好的。一周有两节课的情况，将该课程在数据库存两次，但是两次的上课时间、地点、周次是不一样的。 else 处理长度小于60的，即一周只要一节课的课。 ' # 学期 if e['上课学期'] == '2016秋': e['上课学期'] = '0' else: e['上课学期'] = '1' 存进数据库了
49930发布于 2018-08-07
来自专栏二爷记
Scrapy爬虫，华为商城商品数据爬虫demo
来自于华为云开发者大会，使用Python爬虫抓取图片和文字实验，应用Scrapy框架进行数据抓取，保存应用了mysql数据库，实验采用的是线上服务器，而这里照抄全是本地进行，如有不同，那肯定是本渣渣瞎改了 step1.配置环境 1.新建文件夹 huawei 2.命令行配置python虚拟环境 python -m venv ven 3.安装Scrapy框架 win7 64位系统下安装Scrapy框架 “pip IP 'port':3306, #云数据库端口 'user':'vmall', #云数据库用户 'password':'123456', #云数据库 RDS密码 'database':'vmall', #数据库名称 'charset':'utf8' } self.conn 来源：使用Python爬虫抓取图片和文字实验 https://lab.huaweicloud.com/testdetail.html?
96910发布于 2020-11-25

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬虫系列（7）数据提取--Beautiful Soup。

python网络爬虫（7）爬取静态数据详解

VII Python（7）爬虫

数据采集必备的7个低代码爬虫工具

爬虫数据采集

专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123

Python爬虫，pentagram图片及数据采集爬虫

python爬虫(一)_爬虫原理和数据抓取

爬虫系列：数据采集

共享单车数据爬虫

爬虫之数据解析

大数据—爬虫基础

爬虫系列：数据清洗

爬虫0040：数据筛选爬虫处理之结构化数据操作

Python 爬虫实战：股票数据定向爬虫

Python 爬虫实战：股票数据定向爬虫

【Python爬虫网站数据实战】爬虫基础简介

Python爬虫，Json数据解析图片多线程爬虫!

【爬虫】（八）Python之爬虫和数据小解析

Scrapy爬虫，华为商城商品数据爬虫demo

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐