搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏有趣的Python和你
python爬虫之MQL5爬虫
今天中文社区有人要爬MQL5的网站，要和其做的图表一样，这里写上原图和我画的图，代码就不上了~ 以下是我的图片成长.png 结余.png 净值.png 表格没有做，回归的直线没有做，继续加油!
47630发布于 2018-07-03
来自专栏Python爬虫逆向教程
Python爬虫之关系型数据库存储#5
创建数据库后，在连接时需要额外指定一个参数 db。接下来，新创建一个数据表 students，此时执行创建表的 SQL 语句即可。这里指定 3 个字段，结构如表 5-1 所示。表 5-1 数据表 students 字　段　名含　　义类　　型 id 学号 varchar name 姓名 varchar age 年龄 int 创建该表的示例代码如下： import pymysql 实际上，在爬虫过程中，我们会根据爬取结果设计特定的字段。 4. 插入数据下一步就是向数据库中插入数据了。如此以来，我们便实现了传入一个字典来插入数据的方法，不需要再去修改 SQL 语句和插入操作了。 5. 如果要做简单的数据更新的话，完全可以使用此方法。但是在实际的数据抓取过程中，大部分情况下需要插入数据，但是我们关心的是会不会出现重复数据，如果出现了，我们希望更新数据而不是重复保存一次。
38111编辑于 2024-02-12
来自专栏Python爬虫逆向教程
Python爬虫之非关系型数据库存储#5
对于爬虫的数据存储来说，一条数据可能存在某些字段提取失败而缺失的情况，而且数据可能随时调整。另外，数据之间还存在嵌套关系。如果没有安装，可以参考Python爬虫存储库安装#1-CSDN博客 2. 连接 MongoDB 连接 MongoDB 时，我们需要使用 PyMongo 库里面的 MongoClient。 5. 插入数据接下来，便可以插入数据了。 True flushall() 删除所有数据库中的所有键 flushall() 删除所有数据库中的所有键 True 5. ":0,"key":"age2","ttl":-1,"type":"string","value":"-5","size":2} 每条数据都包含 6 个字段，其中 db 即数据库代号，key 即键名，ttl
60410编辑于 2024-02-12
来自专栏Python数据科学
Python爬虫架构5模板 | 你真的会写爬虫吗？
2、基础爬虫的架构以及运行流程首先，给大家来讲讲基础爬虫的架构到底是啥样子的？JAP君给大家画了张粗糙的图： ? 从图上可以看到，整个基础爬虫架构分为5大类：爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。下面给大家依次来介绍一下这5个大类的功能： 1. HTML解析器：就是将要爬取的数据从HTML源码中获取出来，同时也将新的URL链接发送给URL管理器以及将处理后的数据发送给数据存储器。 5.数据存储器：就是将HTML下载器发送过来的数据存储到本地。 4、总结我们这里简单的讲解了一下，爬虫架构的五个模板，无论是大型爬虫项目还是小型的爬虫项目都离不开这五个模板，希望大家能够照着这些代码写一遍，这样有利于大家的理解，大家以后写爬虫项目也要按照这种架构去写
2.3K41发布于 2019-05-10
来自专栏Python爬虫逆向教程
Python爬虫之文件存储#5
爬虫专栏：http://t.csdnimg.cn/WfCSx 文件存储形式多种多样，比如可以保存成 TXT 纯文本形式，也可以保存为 JSON 格式、CSV 格式等，本节就来了解一下文本文件的存储方式。值得注意的是，JSON 的数据需要用双引号来包围，不能使用单引号。运行结果如下： json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 3 column 5 运行结束后，会生成一个名为 data.csv 的文件，此时数据就成功写入了。 10003', 'Jordan', 21]]) 输出效果是相同的，内容如下： id,name,age 10001,Mike,20 10002,Bob,22 10003,Jordan,21 但是一般情况下，爬虫爬取的都是结构化数据
1.4K10编辑于 2024-02-10
来自专栏AI科技大本营的专栏
5行代码就能入门爬虫？
为什么想起写这个爬虫呢，是因为这是曾经在工作中想要解决的问题，当时不会爬虫，只能用Excel花了数个小时才勉强地把数据爬了下来，所以在接触到爬虫后，第一个想法就是去实现曾未实现的目标。目标是利用爬下来的数据，尝试从不同维度年份、省份、城市去分析全国的股市信息，然后通过可视化图表呈现出来。抛开数据，可能你会觉得这张图在排版布局、色彩搭配、字体文字等方面还挺好看的。刚开始动手写爬虫，我只关注最核心的部分，也就是先成功抓到数据，其他的诸如：下载速度、存储方式、代码条理性等先不管，这样的代码简短易懂、容易上手，能够增强信心。所以，我在写第一遍的时候，只用了5行代码，就成功抓取了全部所需的信息，当时的感觉就是很爽，觉得爬虫不过如此啊，自信心爆棚。但是为了学习新知识，所以我选择将数据存储到 MySQL 中，以便练习 MySQL 的使用。
58520发布于 2019-03-06
来自专栏短信接收服务
爬虫数据采集
经常有小伙伴需要将互联网上的数据保存的本地，而又不想自己一篇一篇的复制，我们第一个想到的就是爬虫，爬虫可以说是组成了我们精彩的互联网世界。这都是爬虫数据采集的功劳。这篇文章我总结了爬虫数据采集的说有流程，从最开始的最简单的基本爬虫，到爬虫所采集到的数据如何存储，以及我们如何绕过一些反爬措施，来获取我们需要的数据，进行爬虫的数据采集：爬虫介绍：主要介绍了什么是爬虫存储 CSV 文件：这篇文章介绍了如何将爬虫采集到的数据保存为 csv 文件，为我们后面的数据分析或者其他的一些要求做好铺垫。使用 MySQL 存储数据：这篇文章详细介绍了如何将爬虫采集到的数据保存到数据库，可以提供给我们查询或者是分析等任务。读取文档：这篇文章介绍了如何解析文档内容，并读取内容。
2.6K10编辑于 2022-04-28
来自专栏早起Python
实战 | PyQt5制作雪球网股票数据爬虫工具
最近有盆友需要帮忙写个爬虫脚本，爬取雪球网一些上市公司的财务数据。于是，结合之前做过的汇率计算器小工具，我这边决定使用PyQt5给朋友制作一个爬虫小工具，方便他的操作可视化。一、效果演示 ? 支持同一家上市公司同类型财务数据追加三、制作过程首先引入需要的库 import sys from PyQt5 import QtCore, QtGui, QtWidgets from PyQt5. 这里不做更详细的介绍，我们在后续中对PyQt5的使用再专题讲解。这其实就是一个简单的网络爬虫及数据格式调整的过程，实现代码如下： 1import requests 2import pandas as pd 3import json 4from fake_useragent
2K42发布于 2020-09-23
来自专栏Python绿色通道
实战 | PyQt5制作雪球网股票数据爬虫工具
最近有盆友需要帮忙写个爬虫脚本，爬取雪球网一些上市公司的财务数据。于是，结合之前做过的汇率计算器小工具，我这边决定使用PyQt5给朋友制作一个爬虫小工具，方便他的操作可视化。一、效果演示 ? 支持同一家上市公司同类型财务数据追加三、制作过程首先引入需要的库 import sys from PyQt5 import QtCore, QtGui, QtWidgets from PyQt5. 这里不做更详细的介绍，我们在后续中对PyQt5的使用再专题讲解。这其实就是一个简单的网络爬虫及数据格式调整的过程，实现代码如下： 1import requests 2import pandas as pd 3import json 4from fake_useragent
3.2K40发布于 2020-09-24
来自专栏python全栈教程专栏
爬虫学习（5）：parse解析链接（网址）
s.netloc) print(s[1]) print(s[3]) 这样打印结果姐如下： 4.urlunsplit() 跟上面那个方法类似，这个就是再把各个部分组合成完整的链接，长度必须是5， ,'spm=1011.2124.3001.5359',' '] print(urlunsplit(data)) 根据前面打印拆分结果，我再给它复原了，运行结果如下，又得到csdn首页链接了 5. wd=%E5%B7%9D%E5%B7%9D' print(unquote(url)) 它就可以把被编码后的中文还原。这个模块差不多就这些了，学习爬虫慢慢来，不要一蹴而就。
86220发布于 2021-10-18
来自专栏Lan小站
Week5 情话网小爬虫
太久没写爬虫了，手生到连xpath怎么提取出来都忘记了，requests取回的数据编码都忘记怎么转换了于是乎在百度上随便搜了一个情话网，来进行爬取。 ']/div[@class='bodyMain']/div[@class='bodyMainBody']/div[@class='infoList']/ul[@class='infoListUL mt5' 但是这样取出来的数据并不是纯文本，他还包含了一些html标签，于是乎在后面加上一个/text() //li/a[@class='articleTitle fl']/text() 这样就可以获取到一页中的标题了
50020编辑于 2022-07-13
来自专栏python3
python 爬虫 5i5j房屋信息获
1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 5 def Geturl(fullurl #链接url 10 zf_url_list = [] 11 for zf_url_lost in zf_list: 12 zf_url = 'https://bj.5i5j.com zp_info_need_2 27 connection = pymysql.connect(host='localhost', user='root', password='1234', db='5i5j try: 29 with connection.cursor() as cursor: 30 sql = "INSERT INTO `5i5j_info 39 for i in range(1,pags+1): 40 url = 'https://bj.5i5j.com/zufang/huilongguan/n{}/' 41
48210发布于 2020-01-19
来自专栏GopherCoder
专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123
专栏：FROM 爬虫 TO 数据科学共同成长社群，精进专栏: 爬虫知识教程 0 关于本人：初学者，同时喜欢编程和文艺书籍。私下学些心理学，增强自己的认知能力。摸滚打爬才学习了编程技术，写专栏的初衷是自己梳理爬虫知识。走过许多弯路，可能也还在继续走着弯路。 01: CSDN专栏 02: 静觅爬虫专栏 03: 极客学院 2 专栏中技能概要 Git re BeautifulSoup xpath MySQL mongodb elasticsearch Scrapy 基本的匹配文本的方法| |03|requests模块的学习|网页下载器| |04|BeautifulSoup|解析器| |05|xpath|强大的解析器| |06|本地文本操作| |07|MySQL|关系型数据库 mongodb|No SQL| |09|elacsticsearch| |10|scrapy| |11|scrapy + Mongodb| |12|scrapy + Mongodb + redis| 数据科学专栏
68270发布于 2018-06-06
来自专栏Python 爬虫
【K哥爬虫普法】百亿电商数据，直接盗取获利，被判 5 年！
图片我国目前并未出台专门针对网络爬虫技术的法律规范，但在司法实践中，相关判决已屡见不鲜，K 哥特设了“K哥爬虫普法”专栏，本栏目通过对真实案例的分析，旨在提高广大爬虫工程师的法律意识，知晓如何合法合规利用爬虫技术案情简介2017 年 2 月至 5 月，被告人彭中正利用其在成都市知数科技有限公司（以下简称知数公司）从事技术工作的便利，非法获取公民个人信息数十万条，伙同被告人吕雷，通过 QQ 向被告人周敏、“123 2017 年 5 月 16 日，阿里巴巴集团公司以用户数据泄露为由报案。 ▶ 周敏（个人信息买家）从 2017 年 2 月份之后到 5 月份，他从网上购买数据，大约 5 万条左右，支付了 5 万元左右。 ▶ 王某1（知数公司股东之一，现任法人）爬虫组会爬取电商的评论、商品价格、商品详细情况、销量；爬取微博的内容、关注关系、注册基本信息；爬取招聘网站的公司招聘信息、注册信息；也爬过淘宝网上的数据，包括一些淘宝网页上的买家用户名
78140编辑于 2023-09-05
来自专栏二爷记
Python爬虫，pentagram图片及数据采集爬虫
很久没有写爬虫了，随手写了一个爬虫，分享给大家，目标是获取所有图片及数据内容，由于图片存在多张，故简单的采用了多线程来采集下载图片，同时也简单的运用python写入txt构建了一下爬取过程的日志文件，代码写的比较啰嗦 with open("log.txt", 'a+', encoding='utf-8') as f: f.write(f"{now()}-获取数据 listdatas.append(listdata) print(len(listdatas)) return listdatas #获取详情数据内容微博爬虫，python微博用户主页小姐姐图片内容采集爬虫 ? 图片爬虫，手把手教你Python多线程下载获取图片 ? Python下载爬虫，解析跳转真实链接下载文件 ? Python爬虫，B站视频下载源码脚本工具助手附exe ·················END·················
88220发布于 2021-07-05
来自专栏python学习指南
python爬虫(一)_爬虫原理和数据抓取
DT即数据技术，由数据在推倒人们的衣食住行，当今时代是一个大数据时代，数据从何而来？企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所政府机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询爬取网络数据：如果需要的数据市场上没有，或者不愿意购买，那么就可以招/做一名爬虫工程师，自己动手丰衣足食。百度百科：网络爬虫关于Python爬虫，我们需要学习的有： Python基础语法学习(基础知识) HTML页面的内容抓取(数据抓取) HTML页面的数据提取(数据清洗) Scrapy框架以及通用爬虫和聚焦爬虫网络爬虫可分为通用爬虫和聚焦爬虫两种。
3.5K70发布于 2018-01-17
来自专栏短信接收服务
爬虫系列：数据采集
在开始以前，还是要提醒大家：在网络爬虫的时候，你必须非常谨慎地考虑需要消耗多少网络流量，还要尽力思考能不能让采集目标的服务器负载更低一点。在做数据采集以前，对网站经行分析，看看代码结构。 section", {"class": "section-sm"})[0] get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 for item in get_child_item: # 获取标题文字 get_title = item.find("a", {"class": "h5 以上代码已托管在 Github，地址：https://github.com/sycct/Scrape_1_1/ 文章来源：爬虫识别 - 爬虫系列：数据采集
78020发布于 2021-10-19
来自专栏我是思聪
共享单车数据爬虫
需要数据请联系微信bcdata 在线实时查看共享单车的位置，并提供了API供调用，方便进行研究，请查看体验：http://www.dancheditu.com/ 完整体验请在电脑上打开，手机可能显示不完整
1.5K10发布于 2020-04-30
来自专栏python3
Python爬虫笔记5-JSON格式数
适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。数组：数组在js中是中括号[ ]括起来的内容，数据结构为 ["Python", "javascript", "C++", ...] json模块使用 json模块提供了四个功能:dumps,dump,load,loads，用于字符串和python数据类型进行转换。 age':1000} print(json.dumps(data_list)) print(json.dumps(data_dict)) 运行结果： [1, 2, 3, 4] {"name": "\u5c0f 如果要处理的是文件而不是字符串，可以使用 json.dump()和json.load()来编码和解码JSON数据。
1.4K10发布于 2020-01-03
来自专栏机器学习算法与Python学习
Python：爬虫系列笔记(5) -- cookie的使用
大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。转载请注明：静觅 » Python爬虫入门六之Cookie的使用
1.7K90发布于 2018-04-04

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

python爬虫之MQL5爬虫

Python爬虫之关系型数据库存储#5

Python爬虫之非关系型数据库存储#5

Python爬虫架构5模板 | 你真的会写爬虫吗？

Python爬虫之文件存储#5

5行代码就能入门爬虫？

爬虫数据采集

实战 | PyQt5制作雪球网股票数据爬虫工具

实战 | PyQt5制作雪球网股票数据爬虫工具

爬虫学习（5）：parse解析链接（网址）

Week5 情话网小爬虫

python 爬虫 5i5j房屋信息获

专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123

【K哥爬虫普法】百亿电商数据，直接盗取获利，被判 5 年！

Python爬虫，pentagram图片及数据采集爬虫

python爬虫(一)_爬虫原理和数据抓取

爬虫系列：数据采集

共享单车数据爬虫

Python爬虫笔记5-JSON格式数

Python：爬虫系列笔记(5) -- cookie的使用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫之MQL5爬虫

Python爬虫之关系型数据库存储#5

Python爬虫之非关系型数据库存储#5

Python爬虫架构5模板 | 你真的会写爬虫吗？

Python爬虫之文件存储#5

5行代码就能入门爬虫？

爬虫数据采集

实战 | PyQt5制作雪球网股票数据爬虫工具

实战 | PyQt5制作雪球网股票数据爬虫工具

爬虫学习（5）：parse解析链接（网址）

Week5 情话网小爬虫

python 爬虫 5i5j房屋信息 获

专栏：FROM 爬虫 TO 数据科学专栏：FROM 爬虫 TO 数据科学0123

【K哥爬虫普法】百亿电商数据，直接盗取获利，被判 5 年！

Python爬虫，pentagram图片及数据采集爬虫

python爬虫(一)_爬虫原理和数据抓取

爬虫系列：数据采集

共享单车数据爬虫

Python爬虫笔记5-JSON格式数

Python：爬虫系列笔记(5) -- cookie的使用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python 爬虫 5i5j房屋信息获