搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏有趣的Python和你
python爬虫之MQL5爬虫
今天中文社区有人要爬MQL5的网站，要和其做的图表一样，这里写上原图和我画的图，代码就不上了~ 以下是我的图片成长.png 结余.png 净值.png 表格没有做，回归的直线没有做，继续加油!
48730发布于 2018-07-03
来自专栏Python数据科学
Python爬虫架构5模板 | 你真的会写爬虫吗？
为啥标题是这样，因为我们日常写小爬虫都是一个py文件加上几个请求，但是如果你去写一个正式的项目时，你必须考虑到很多种情况，所以我们需要把这些功能全部模块化，这样也使我们的爬虫更加的健全。 2、基础爬虫的架构以及运行流程首先，给大家来讲讲基础爬虫的架构到底是啥样子的？JAP君给大家画了张粗糙的图： ? 从图上可以看到，整个基础爬虫架构分为5大类：爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。下面给大家依次来介绍一下这5个大类的功能： 1. 5.数据存储器：就是将HTML下载器发送过来的数据存储到本地。 4、总结我们这里简单的讲解了一下，爬虫架构的五个模板，无论是大型爬虫项目还是小型的爬虫项目都离不开这五个模板，希望大家能够照着这些代码写一遍，这样有利于大家的理解，大家以后写爬虫项目也要按照这种架构去写
2.3K41发布于 2019-05-10
来自专栏AI科技大本营的专栏
5行代码就能入门爬虫？
所以，我在写第一遍的时候，只用了5行代码，就成功抓取了全部所需的信息，当时的感觉就是很爽，觉得爬虫不过如此啊，自信心爆棚。 reportTime=2017-12-31&pageNum=%s' % (str(i)))[3] 5 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_ sig', hea 3000+ 上市公司的信息，安安静静地躺在 Excel 中 ▌不断完善有了上面的信心后，我开始继续完善代码，因为5行代码太单薄，功能也太简单，大致从以下几个方面进行了完善：增加异常处理经过以上这几点的完善，代码量从原先的5行增加到了下面的几十行： 1import requests 2import pandas as pd 3from bs4 import BeautifulSoup 4from lxml import etree 5import time 6import pymysql 7from sqlalchemy import create_engine 8from
60020发布于 2019-03-06
来自专栏Python爬虫逆向教程
Python爬虫之文件存储#5
爬虫专栏：http://t.csdnimg.cn/WfCSx 文件存储形式多种多样，比如可以保存成 TXT 纯文本形式，也可以保存为 JSON 格式、CSV 格式等，本节就来了解一下文本文件的存储方式。运行结果如下： json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 3 column 5 10003', 'Jordan', 21]]) 输出效果是相同的，内容如下： id,name,age 10001,Mike,20 10002,Bob,22 10003,Jordan,21 但是一般情况下，爬虫爬取的都是结构化数据
1.7K10编辑于 2024-02-10
来自专栏入门到放弃之路
AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞
前言AI的发展日新月异，及时掌握一些AI的消息和妹子聊天时也不至于词穷（不建议和妹子聊技术）。所以这里就以36氪和虎嗅网为例，来讲一下如何爬取AI新闻消息以及数据整合。 36氪和虎嗅网这两个网站新闻爬虫比较具有代表性，36氪是传统的html网页爬虫，虎嗅网是异步api加载加密的爬虫，这里就从简单的36氪讲起。通过python的requests模块发起请求，最后解析目标数据实现36Kr AI快讯爬虫的代码开发。如图，新闻数据通过接口请求返回json的方式渲染的，而非36Kr返回的HTML，所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。结语这就是我使用爬虫爬取AI新闻的过程，使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集，还有更优的程序设计架构。
1.6K50编辑于 2024-03-12
来自专栏iSharkFly
AI Bot 爬虫新势力
对使用CloudFlare的用户，可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练，AI也需要从互联网中不断的获取内容才能对自己进行训练。针对上面的内容和数据来看，AI的爬取量比较大，可能会超过传统的搜索引擎。
11310编辑于 2025-11-13
来自专栏python全栈教程专栏
爬虫学习（5）：parse解析链接（网址）
s.netloc) print(s[1]) print(s[3]) 这样打印结果姐如下： 4.urlunsplit() 跟上面那个方法类似，这个就是再把各个部分组合成完整的链接，长度必须是5， ,'spm=1011.2124.3001.5359',' '] print(urlunsplit(data)) 根据前面打印拆分结果，我再给它复原了，运行结果如下，又得到csdn首页链接了 5. wd=%E5%B7%9D%E5%B7%9D' print(unquote(url)) 它就可以把被编码后的中文还原。这个模块差不多就这些了，学习爬虫慢慢来，不要一蹴而就。
91420发布于 2021-10-18
来自专栏Lan小站
Week5 情话网小爬虫
太久没写爬虫了，手生到连xpath怎么提取出来都忘记了，requests取回的数据编码都忘记怎么转换了于是乎在百度上随便搜了一个情话网，来进行爬取。 ']/div[@class='bodyMain']/div[@class='bodyMainBody']/div[@class='infoList']/ul[@class='infoListUL mt5'
51220编辑于 2022-07-13
来自专栏python3
python 爬虫 5i5j房屋信息获
1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 5 def Geturl(fullurl #链接url 10 zf_url_list = [] 11 for zf_url_lost in zf_list: 12 zf_url = 'https://bj.5i5j.com zp_info_need_2 27 connection = pymysql.connect(host='localhost', user='root', password='1234', db='5i5j try: 29 with connection.cursor() as cursor: 30 sql = "INSERT INTO `5i5j_info 39 for i in range(1,pags+1): 40 url = 'https://bj.5i5j.com/zufang/huilongguan/n{}/' 41
49710发布于 2020-01-19
AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫
在页面上方筛选你要查看的域名和时间范围（建议先看最近 7 天）5. 、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高（如 /sitemap.xml、/feed、全站文章页）AI 爬虫倾向于先读 sitemap 二、核心操作：一键开启 AI 爬虫处置确认有 AI 爬虫活动后，接下来开启防护。：> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫，且持续更新> - 所有套餐（含免费版）都能用这个功能立即配置免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。
16110编辑于 2026-04-27
来自专栏python3
Python爬虫笔记5-JSON格式数
age':1000} print(json.dumps(data_list)) print(json.dumps(data_dict)) 运行结果： [1, 2, 3, 4] {"name": "\u5c0f
1.4K10发布于 2020-01-03
来自专栏机器学习算法与Python学习
Python：爬虫系列笔记(5) -- cookie的使用
大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？转载请注明：静觅 » Python爬虫入门六之Cookie的使用
1.7K90发布于 2018-04-04
来自专栏嘘、小点声
python网络爬虫（5）BeautifulSoup的使用示范
不能表达的属性的解决方案在html5中有些属性不被支持，查找时，通过定义字典实现输出 data_soup = BeautifulSoup('
foo!
1.3K20发布于 2019-07-31
来自专栏码神联盟
网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能
’，网络爬虫工程师又被亲切的称之为‘虫师’。网络爬虫原理网络爬虫原理： Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。网络爬虫工作原理：在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。控制器：控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。 5：如果想获取页面内，具体的相关内容，需要将html文件中的数据进行解析为Document，使用Jsoup技术进行解析即可，示例如下，增加如下代码： <dependency> <groupId>
6K50发布于 2018-07-30
AI网络爬虫：搜狗图片的时间戳反爬虫应对策略
query=%E5%AD%99%E5%85%81%E7%8F%A0&mode=2翻页规律如下：https://pic.sogou.com/napi/pc/searchList? mode=2&start=384&xml_len=48&query=%E5%AD%99%E5%85%81%E7%8F%A0&channel=pc_pichttps://pic.sogou.com/napi mode=2&start=336&xml_len=48&query=%E5%AD%99%E5%85%81%E7%8F%A0&channel=pc_pichttps://pic.sogou.com/napi v=5&eid=1951&keyword=%E5%AD%99%E5%85%81%E7%8F%A0&index=97&groupIndex=96&xurl=https://i02piccdn.sogoucdn.com 但是写了爬虫程序后，json数据爬取失败。仔细检查请求头，原来是里面加了时间戳：X-Time4p 是一个自定义的HTTP头部字段，通常用于传递与时间相关的信息。
1K10编辑于 2024-06-23
来自专栏Python 知识大全
5分钟快速掌握 scrapy 爬虫框架
这段时间，因为工作需要又重拾scrapy爬虫，本文和大家分享下，包你一用就会，欢迎交流。 1.1 scrapy框架 scrapy框架包括5个主要的组件和2个中间件Hook。 ENGIINE：整个框架的控制中心，控制整个爬虫的流程。根据不同的条件添加不同的事件（就是用的Twisted） SCHEDULER：事件调度器 DOWNLOADER：接收爬虫请求，从网上下载数据 SPIDERS：发起爬虫请求，并解析DOWNLOADER返回的网页内容 scrapy.cfg同级别的目录执行 scrapy crawl sexy 从上可知，我们要写的是spiders里的具体的spider类和items.py和pipelines.py（对应的ITEM PIPELINES） 5. 最后总结如下： scrapy是基于事件驱动Twisted框架的爬虫框架。
1K20发布于 2020-12-15
来自专栏程序员的知识天地
5 行代码就能入门爬虫？
入门爬虫很容易，几行代码就可以，可以说是学习 Python 最简单的途径。下面我就以曾写过的一个爬虫为例，说一说我是如何快速入门 Python 爬虫的。这里，以我之前写的「爬取国内所有上市公司信息」为例为什么当时想起写这个爬虫呢，是因为这是曾经在工作中想要解决的问题，当时不会爬虫，只能用 Excel 花了数个小时才勉强地把数据爬了下来，所以在接触到爬虫后很多人学爬虫都是去爬网上教程中的那些网站，网站一样就算了，爬取的方法也一模一样，等于抄一遍，不是说这样无益，但是会容易导致动力不足，因为你没有带着目标去爬，只是为了学爬虫而爬，爬虫虽然是门技术活，但是如果能所以，我在写第一遍的时候，只用了 5 行代码，就成功抓取了全部所需的信息，当时的感觉就是很爽，觉得爬虫不过如此啊，自信心爆棚。 reportTime=2017-12-31&pageNum=%s' % (str(i)))[3] 5 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_
74330发布于 2019-05-19
爬虫+动态代理助力 AI 训练数据采集
引言近年来，AI 技术飞速发展，很多朋友都投身于 AI 模型的训练。然而，相较于模型的获取，高质量的数据往往更加难以收集。借助其代理服务，我们可以显著提高爬虫程序的访问成功率，从而更高效地获取数据，助力 AI 模型的训练。维基百科是 AI 领域的重要数据来源，广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。登录以后进入控制台，点击网页抓取API，选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上，高质量的数据是不可或缺的
57810编辑于 2025-03-19
来自专栏ytkah
如何屏蔽各大AI公司爬虫User Agent
GPTBot GPTBot 是 OpenAI 使用的网络爬虫，用于下载 LLM（大型语言模型）的训练数据，为 ChatGPT 等人工智能产品提供支持。 cohere-ai 是一个未经确认的代理，可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。 1%的大站屏蔽了它 User-agent: cohere-ai Disallow: / Google-Extended Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫，用于其人工智能产品 0%的大站屏蔽了它 User-agent: FacebookBot Disallow: / anthropic-ai anthropic-ai 是一个未经证实的代理，可能是 Anthropic 用来下载 LLM（大型语言模型）训练数据的，比如AI产品Claude。
69710编辑于 2023-12-31
来自专栏CSDNToQQCode
零基础学Python-爬虫-5、下载音频
本套课程正式进入Python爬虫阶段，具体章节根据实际发布决定，可点击【python爬虫】分类专栏进行倒序观看【重点提示：请勿爬取有害他人或国家利益的内容，此课程虽可爬取互联网任意内容，但无任何收益 1、查找目标位置：播放的路径：【https://audio04.dmhmusic.com/71_53_T10049727031_128_4_1_0_sdk-cpm/cn/0208/M00/9C/D5/ xcode=986ee76b251cf5ea7c25506b1e42484eca69d0d】查看访问路径与需要参数： 2、解析路径，获取一个音乐集合的路径： 3、解析获取id与title import sign=03f0d20475fe5fb6c669c50fb92778b5&appid=16073360&TSID=T10049727031%2CT10049726992%2CT10038911463% sign=03f0d20475fe5fb6c669c50fb92778b5&appid=16073360&TSID=T10049727031%2CT10049726992%2CT10038911463%
41420编辑于 2022-11-28

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

python爬虫之MQL5爬虫

Python爬虫架构5模板 | 你真的会写爬虫吗？

5行代码就能入门爬虫？

Python爬虫之文件存储#5

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

AI Bot 爬虫新势力

爬虫学习（5）：parse解析链接（网址）

Week5 情话网小爬虫

python 爬虫 5i5j房屋信息获

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

Python爬虫笔记5-JSON格式数

Python：爬虫系列笔记(5) -- cookie的使用

python网络爬虫（5）BeautifulSoup的使用示范

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

5分钟快速掌握 scrapy 爬虫框架

5 行代码就能入门爬虫？

爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

零基础学Python-爬虫-5、下载音频

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫之MQL5爬虫

Python爬虫架构5模板 | 你真的会写爬虫吗？

5行代码就能入门爬虫？

Python爬虫之文件存储#5

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

AI Bot 爬虫新势力

爬虫学习（5）：parse解析链接（网址）

Week5 情话网小爬虫

python 爬虫 5i5j房屋信息 获

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

Python爬虫笔记5-JSON格式数

Python：爬虫系列笔记(5) -- cookie的使用

python网络爬虫（5）BeautifulSoup的使用示范

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

5分钟快速掌握 scrapy 爬虫框架

5 行代码就能入门爬虫？

​爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

零基础学Python-爬虫-5、下载音频

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python 爬虫 5i5j房屋信息获

爬虫+动态代理助力 AI 训练数据采集