搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏程序员的知识天地
Python爬虫入门，8个常用爬虫技巧盘点
python入门时用得最多的还是各类爬虫脚本，写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本写过自动收邮件的脚本、写过简单的验证码识别的脚本。这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，故累积了不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。 4.伪装成浏览器访问某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现： ? 8、多线程并发抓取单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发的。虽然说Python的多线程很鸡肋但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。 ? 9.
68010发布于 2018-12-13
来自专栏机器学习算法与Python学习
Python 爬虫：8 个常用的爬虫技巧总结！
文 / j_hao104 用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。，于是对爬虫一律拒绝请求。 StringIO.StringIO(compresseddata) gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read() 8、虽然说python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。
1.5K20发布于 2019-07-04
来自专栏入门到放弃之路
AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞
36氪和虎嗅网这两个网站新闻爬虫比较具有代表性，36氪是传统的html网页爬虫，虎嗅网是异步api加载加密的爬虫，这里就从简单的36氪讲起。通过python的requests模块发起请求，最后解析目标数据实现36Kr AI快讯爬虫的代码开发。如图，新闻数据通过接口请求返回json的方式渲染的，而非36Kr返回的HTML，所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。后来又打了一次断点，发现n这个变量发生了错误，在代码中，你可以看到我使用的是'hUzaABtNfDE-6UiyaYhfsmjW-8dnoyVc'。结语这就是我使用爬虫爬取AI新闻的过程，使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集，还有更优的程序设计架构。
1.6K50编辑于 2024-03-12
来自专栏iSharkFly
AI Bot 爬虫新势力
对使用CloudFlare的用户，可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练，AI也需要从互联网中不断的获取内容才能对自己进行训练。针对上面的内容和数据来看，AI的爬取量比较大，可能会超过传统的搜索引擎。
11310编辑于 2025-11-13
来自专栏测试开发技术
Python爬虫必备的8大技巧，收藏！
想要快速学习爬虫，最值得学习的语言一定是Python，Python应用场景比较多，比如：Web快速开发、爬虫、自动化运维等等，可以做简单网站、自动发帖脚本、收发邮件脚本、简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，今天就总结一下必备的8大技巧，以后也能省时省力，高效完成任务。，于是对爬虫一律拒绝请求。 StringIO.StringIO(compresseddata) gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read() 8、虽然说Python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。
36810编辑于 2024-11-06
来自专栏运维经验分享
Scrapy爬虫（8）scrapy-splash的入门
scrapy_splash.SplashAwareDupeFilter' HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage' 1 2 3 4 5 6 7 8 创建爬虫文件phoneSpider.py, 代码如下： # -*- coding: utf-8 -*- from scrapy import Spider, Request from scrapy_splash ').extract() print('='*40) print(''.join(info)) print('='*40) 1 2 3 4 5 6 7 8 运行爬虫，scrapy crawl phone, 结果如下： ?
2K30发布于 2019-03-11
AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫
先说结论：如果你有一个公开可访问的网站，大概率正在被 AI 爬虫批量抓取，而你可能完全不知道。、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高（如 /sitemap.xml、/feed、全站文章页）AI 爬虫倾向于先读 sitemap 二、核心操作：一键开启 AI 爬虫处置确认有 AI 爬虫活动后，接下来开启防护。：> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫，且持续更新> - 所有套餐（含免费版）都能用这个功能立即配置免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。
16110编辑于 2026-04-27
来自专栏机器学习算法与Python学习
Python：爬虫系列笔记(8) -- 爬去MM图片
转载于：静觅 » Python爬虫实战四之抓取淘宝MM照片链接：http://cuiqingcai.com/1001.html 1.抓取淘宝MM的姓名，头像，年龄 2.抓取每一个MM的资料简介以及写真图片我们首先抓取本页面的MM详情页面地址，姓名，年龄等等的信息打印出来，直接贴代码如下 123456789101112131415161718192 __author__ = 'CQC'# -*- coding:utf-8 ".txt" f = open(fileName,"w+") print u"正在偷偷保存她的个人信息为",fileName f.write(content.encode('utf-8' else: # 如果目录存在则不创建，并提示目录已存在 return False 3.代码完善主要的知识点已经在前面都涉及到了，如果大家前面的章节都已经看了，完成这个爬虫不在话下 spider.savePagesInfo(2,10) 1 tool.py 123456789101112131415161718192 __author__ = 'CQC'#-*- coding:utf-8
1.1K60发布于 2018-04-04
来自专栏若城技术专栏
爬虫入门指南(8): 编写天气数据爬虫程序，实现可视化分析
本文介绍了如何使用Python编写一个简单的天气数据爬虫程序，通过爬取指定网站上的天气数据，并使用Matplotlib库对数据进行可视化分析。首先，我们使用requests库向指定的URL发送GET请求，并指定编码为utf-8。然后，我们使用BeautifulSoup库解析网页内容，并通过CSS选择器获取温度数据。 shtml' # 天气预报页面的URL response = requests.get(url) # 发送GET请求，获取网页内容 response.encoding = 'utf-8' 将编码设置为utf-8，以确保正确解析中文。使用BeautifulSoup(response.text, 'html.parser')解析网页内容。运行效果完结历时一个星期终于将爬虫这点东西搞完了, 可能会有写欠缺,但是也还好, 希望可以帮助各位辛勤劳作的朋友
1K10编辑于 2024-02-29
来自专栏嘘、小点声
python网络爬虫（8）多媒体文件抽取
回调函数中，count表示已下载的数据块，size数据块大小，total表示总大小。
59420发布于 2019-07-31
来自专栏码神联盟
网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能
’，网络爬虫工程师又被亲切的称之为‘虫师’。网络爬虫原理网络爬虫原理： Web网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据来源。网络爬虫工作原理：在网络爬虫的系统框架中，主过程由控制器，解析器，资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。控制器：控制器是网络爬虫的中央控制器，它主要是负责根据系统传过来的URL链接，分配一线程，然后启动线程调用爬虫爬取网页的过程。 ; try { //这里后面加了网址是为了解决后面绝对路径和相对路径的问题 doc = Jsoup.parse(input, "UTF-8"
6K50发布于 2018-07-30
AI网络爬虫：搜狗图片的时间戳反爬虫应对策略
query=%E5%AD%99%E5%85%81%E7%8F%A0&mode=2翻页规律如下：https://pic.sogou.com/napi/pc/searchList? mode=2&start=384&xml_len=48&query=%E5%AD%99%E5%85%81%E7%8F%A0&channel=pc_pichttps://pic.sogou.com/napi mode=2&start=336&xml_len=48&query=%E5%AD%99%E5%85%81%E7%8F%A0&channel=pc_pichttps://pic.sogou.com/napi 例如，如果每页显示48张图片（由 xml_len参数决定），那么第一个URL将从第8页开始（384 / 48 = 8），第二个URL从第7页开始（336 / 48 = 7），第三个URL从第6页开始（288 但是写了爬虫程序后，json数据爬取失败。仔细检查请求头，原来是里面加了时间戳：X-Time4p 是一个自定义的HTTP头部字段，通常用于传递与时间相关的信息。
1K10编辑于 2024-06-23
来自专栏分布式爬虫
8、web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import random #引入随机模块文件请求时自动使用代理IP #请求 url = "https://www.baidu.com/" data = urllib.request.urlopen(url).read().decode("utf-8" /usr/bin/env python -- coding: utf-8 -- import urllib from urllib import request import random #引入随机模块文件 /usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json def random import re import urllib.erro def hq_html(hq_url): """ hq_html()封装的爬虫函数，自动启用了用户代理和ip代理
1.1K50发布于 2019-07-05
爬虫+动态代理助力 AI 训练数据采集
引言近年来，AI 技术飞速发展，很多朋友都投身于 AI 模型的训练。然而，相较于模型的获取，高质量的数据往往更加难以收集。借助其代理服务，我们可以显著提高爬虫程序的访问成功率，从而更高效地获取数据，助力 AI 模型的训练。维基百科是 AI 领域的重要数据来源，广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。登录以后进入控制台，点击网页抓取API，选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上，高质量的数据是不可或缺的
57810编辑于 2025-03-19
来自专栏ytkah
如何屏蔽各大AI公司爬虫User Agent
GPTBot GPTBot 是 OpenAI 使用的网络爬虫，用于下载 LLM（大型语言模型）的训练数据，为 ChatGPT 等人工智能产品提供支持。 cohere-ai 是一个未经确认的代理，可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。 1%的大站屏蔽了它 User-agent: cohere-ai Disallow: / Google-Extended Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫，用于其人工智能产品 0%的大站屏蔽了它 User-agent: FacebookBot Disallow: / anthropic-ai anthropic-ai 是一个未经证实的代理，可能是 Anthropic 用来下载 LLM（大型语言模型）训练数据的，比如AI产品Claude。
69710编辑于 2023-12-31
来自专栏python3
Python3网络爬虫实战-8、APP爬
MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProxy 的命令行接口，利用它我们可以对接 Python 脚本，用 Python 实现监听后的处理。另一个是 MitmWeb，它是一个 Web 程序，通过它我们可以清楚地观察到 MitmProxy 捕获的请求。本节我们来了解一下 MitmProxy、MitmDump、MitmWeb 的安装方式。
1K20发布于 2020-01-03
来自专栏Crossin的编程教室
这个男人让你的爬虫开发效率提升8倍
“提升8倍”虽是我胡诌的数据，开发效率的提升却是杠杠滴。我们先来看看它官网上的说法： ? 对于 Requests，要做的仅仅是两件事：告诉你有这样一个工具，用来开发爬虫很轻松告诉你它的官方文档很好，你去读就可以了到此为止，本篇的目的已经达到。有时我们做爬虫时，需要保持 cookie 一致，比如登录后才可访问的页面。其他更多详细内容不多说了，中文官网地址 cn.python-requests.org，顺着看一遍，写一遍，你就掌握这个爬虫神器了。
59030发布于 2018-07-24
来自专栏全栈程序员必看
8个最高效的Python爬虫框架，你用过几个？
小编收集了一些较为高效的Python爬虫框架。分享给大家。 1.Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。项目地址：https://scrapy.org/ 2.PySpider pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看项目地址：http://project.crawley-cloud.com/ 4.Portia Portia是一个开源可视化爬虫工具，可让您在不需要任何编程知识的情况下爬取网站！项目地址：http://docs.grablib.org/en/latest/#grab-spider-user-manual 8.Cola Cola是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数
4.8K10编辑于 2022-07-01
来自专栏技术探究
爬虫系列（8）数据提取--扩展三种方法。
与 GBK 互相转换，那就先把UTF-8转换成Unicode，再从Unicode转换成GBK，反之同理。 # 这是一个 UTF-8 编码的字符串 utf8Str = "你好地球" # 1. 将 UTF-8 编码的字符串转换成 Unicode 编码 unicodeStr = utf8Str.decode("UTF-8") # 2. 再将 Unicode 编码格式字符串转换成 UTF-8 utf8Str = unicodeStr.encode("UTF-8") decode的作用是将其他编码的字符串转换成 Unicode 编码 encode 的作用是将 Unicode 编码转换成其他编码的字符串一句话：UTF-8是对Unicode字符集进行编码的一种编码方式 ?
2.5K20发布于 2019-07-10
来自专栏python-爬虫
爬虫爬取m3u8视频文件
一.m3u8视频格式一般m3u8文件和视频流ts文件放在同一目录而m3u8文件格式存放的一般都是ts 文件的一个列表二.根据m3u8视频存放以及写法的规律思路我们一般网站上能找到的m3u8的 url 将m3u8格式的文件下载下来然后打开m3u8找到里面所有的ts的路径可以用正则匹配然后m3u8的url进行替换比如https:www.xxx/xxx/xxx.m3u8改成https:www.xxx /xxx/xxx.ts 为什么这样改因为一般不出意外的话m3u8和ts 是放在同一目录
2K21发布于 2020-06-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python爬虫入门，8个常用爬虫技巧盘点

Python 爬虫：8 个常用的爬虫技巧总结！

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

AI Bot 爬虫新势力

Python爬虫必备的8大技巧，收藏！

Scrapy爬虫（8）scrapy-splash的入门

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

Python：爬虫系列笔记(8) -- 爬去MM图片

爬虫入门指南(8): 编写天气数据爬虫程序，实现可视化分析

python网络爬虫（8）多媒体文件抽取

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

8、web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用

爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

Python3网络爬虫实战-8、APP爬

这个男人让你的爬虫开发效率提升8倍

8个最高效的Python爬虫框架，你用过几个？

爬虫系列（8）数据提取--扩展三种方法。

爬虫爬取m3u8视频文件

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python爬虫入门，8个常用爬虫技巧盘点

Python 爬虫：8 个常用的爬虫技巧总结！

AI新闻爬虫：传统爬虫和XHR异步加密爬虫的碰撞

AI Bot 爬虫新势力

Python爬虫必备的8大技巧，收藏！

Scrapy爬虫（8）scrapy-splash的入门

AI 爬虫处置实操：用 EdgeOne 一键拦截 20+ 种 AI 爬虫

Python：爬虫系列笔记(8) -- 爬去MM图片

爬虫入门指南(8): 编写天气数据爬虫程序，实现可视化分析

python网络爬虫（8）多媒体文件抽取

网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

AI网络爬虫：搜狗图片的时间戳反爬虫应对策略

8、web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用

​爬虫+动态代理助力 AI 训练数据采集

如何屏蔽各大AI公司爬虫User Agent

Python3网络爬虫实战-8、APP爬

这个男人让你的爬虫开发效率提升8倍

8个最高效的Python爬虫框架，你用过几个？

爬虫系列（8）数据提取--扩展三种方法。

爬虫爬取m3u8视频文件

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

爬虫+动态代理助力 AI 训练数据采集