搜索 - 腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

来自专栏我的小碗汤
爬虫性能分析及优化
前两天我们写了单任务版爬虫爬取了珍爱网用户信息，那么它的性能如何呢？我们针对来通过分析单任务版爬虫的设计来看下： ?
46330发布于 2018-08-22
来自专栏python3
Python 爬虫（4）
driver.find_element_by_tag_name(“input”) 3. find_element_by_class_name(‘input-class’) #根绝class定位 4. contiune并且type属性为button的input元素：//input[@name='continue'][@type='button'] 查找页面上id为loginForm的form元素下第4个 input元素：//form[@id='loginForm']/input[4] 控件操作：输入框； element.clear() #清空输入框数据 element.sendkeys(“username xxxxxxxxxx") randomSleep(2, 5) browser.find_element_by_id("password").send_keys("xxxxxxxxx") randomSleep(1, 4)
1.2K30发布于 2020-01-10
来自专栏python学习指南
Python爬虫(十五)_案例：使用bs4的爬虫
本章将从Python案例讲起：所使用bs4做一个简单的爬虫案例，更多内容请参考:Python学习指南案例：使用BeautifulSoup的爬虫我们已腾讯社招页面来做演示：http://hr.tencent.com 使用BeautifulSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、时间、以及每个职位详情的点击链接存储出来。 #-*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib2 import urllib import json #使用json get_text() workLocation = site.select('td')[3].get_text() publishTime = site.select('td')[4]
1.3K60发布于 2018-01-17
来自专栏FreeBuf
爬虫采集去重优化浅谈
对于 URL 直接去重，主要涉及的是存储优化方面，对于本文不是重点，这里不再细说。而对于 URL 逻辑上的去重，则需要更多地追求数据的可用性，这是做测试工作需要去考量的。 urlparse.urlparse(url) scheme=tmp[0] netloc=tmp[1] path=tmp[2][1:] query=tmp[4] 那么在针对URL获取的过程中，我们还可以做的小优化有哪些呢？日期时间命名首先，我们可以根据日期来去重。我们知道，在爬取一些Blog和和门户等系统时，经常会遇到以日期命名的目录。总结笔者这里旨在提出一些对相似URL去重的小优化，可能效果有限，也可能存在未尽人意之处。欢迎大家提出建议，希望少一些爱喷的童鞋，多一点讨论的大牛，与诸君共勉。 /47973715 实用科普：爬虫技术浅析编写爬虫应注意的点 http://www.cnseay.com/?
1.3K60发布于 2018-02-27
来自专栏python全栈教程专栏
爬虫学习（4）：error异常处理
首先要导入request模块，还有异常处理模块error.用try和except搭配，如果能正常访问呢，就正常执行，不能正常执行就打印出出错的原因（reason）和状态码(code)以及请求头(headers).关键字参数sep是实现分隔符，比如多个参数输出时想要输出中间的分隔字符，这里就是打印里的每一个都对应一个换行，看结果图就知道了。上面我们用到HTTPError，他是URLError的子类，现在我把子类和父类加进来：
45330发布于 2021-10-18
来自专栏小徐学爬虫
Rust异步爬虫实现与优化
Rust 语言在爬虫领域的应用相对较少，尽管 Rust 的 async/await 已稳定，但其与线程安全、Pin 等概念的结合仍较复杂，而爬虫高度依赖并发处理，进一步提高了开发成本。这就导致了使用Rust语言爬虫用的人很少。下面是一个使用 Rust 编写的异步爬虫示例，支持并发请求、深度控制和去重功能。该爬虫使用 Tokio 作为异步运行时，Reqwest 处理 HTTP 请求，Select 解析 HTML。 , predicate::{Name, Attr},};use tokio::{ sync::{Mutex, Semaphore}, time,};use url::Url;// 爬虫配置：限制最大页面数请求超时设置 (5 秒)请求间延迟 (100ms)3、智能解析：使用 url 库处理相对/绝对路径通过 select 库解析 HTML 并提取链接只处理标签的 href 属性4、
25910编辑于 2025-07-04
来自专栏全栈程序员必看
python爬虫的4个实例
文章目录 1、京东商品页面的爬取 2、亚马逊商品页面的爬取可以先看网络爬虫基础知识，然后结合下面的实例学习爬虫的常用方法。限制网络爬虫的方法：来源审查：检查来访HTTP协议头的User – Agent域，只响应浏览器或友好爬虫的访问。发布公告： Robots协议，告知所有爬虫网站的爬取策略，要求爬虫遵守。 :50,startTimer:function(){a.ts++;setInterval(function(){d.ue&&a.pec<a.ec&&d.uex("at");a.pec=a.ec},1E4) Process finished with exit code 0 可见，更改User-Agent属性之后的爬虫可以正常爬取信息。尝试和修改后的爬虫程序如下： import requests url = "https://www.amazon.cn/dp/B07G7K1Z98/ref=sr_1_3?
85820编辑于 2022-08-24
来自专栏python3
Python爬虫笔记4-Beautif
pip3 install beautifulsoup4 测试 python终端里导入beautifulsoup，无报错信息即安装成功。 >>from bs4 import BeautifulSoup >> BeautifulSoup对象 BeautifulSoup将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象 ,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment BeautifulSoup 对象表示的是一个文档的内容。获取Tags # 导入模块 from bs4 import BeautifulSoup html = """ <html><head><title>The Dormouse's story</title story
The Dormouse's story 关于BeautifulSoup的使用就这样吧，常用个人就觉得用好find_all即可(=.=~) 参考链接崔庆才 [Python3网络爬虫开发实战
1K40发布于 2020-01-03
来自专栏河湾欢儿的专栏
4.页面优化
为什么要优化？优化的好处 1.提升网页响应速度 2.有利于搜索引擎搜索 3.对后期维护比较方便怎么优化？ 1.减少请求 2.减少文件的大小 3.页面性能 4.可读性、维护性 1.图片合并 2.css文件合并（多个css文件合并为一个、少量的行内样式、避免import的方式引入文件） 3.减少图片的大小（选择合适的图片格式） 4.css值缩写 5.0px 中px省略 0% 0 0.5可以写成.5 6.选择器合并 7.link标签引入样式放到head标签中 8.js脚本建议放在底部，等页面加载完之后再处理尽量用语义化的标签来编写，有利于seo 15.类型和id名，以内容语义来命名 16.避免hack 17.模块化（一系列相关的结构做成一个模块来处理） 18.必要的时候添加注释，可读性比较好比如说代码优化，大家试着说一下怎么优化？
51220发布于 2018-09-06
来自专栏技术杂记
Mysql 优化存储4
优化脚本一般此过程会非常漫长，可以写一个脚本来后台运行，或简单的控制一下IO [hunter@opti-slave ~]$ cat opti.bash #! opti.bash >> /path/to/optimize.log 2>&1 & 通过监控 optimize.log 来判断执行完成状态也可以通过查看监控，IOPS很能反映问题 ---- 恢复备份优化完成后，立刻恢复备份 start slave; 通过对比前后数据文件大小，可以明显看到优化效果一般少也能缩减5%的空间，平均在10%左右，我自己经历最明显效果的是减少了32%的空间，对于一个大库来说，能节省不少磁盘空间，并且对查询性能也有一定优化效果 ---- 命令汇总 pt-table-checksum --nocheck-replication-filters --nocheck-binlog-format --
41620编辑于 2022-03-21
来自专栏Java 汇总
4.Mysql 优化
1.ORDER BY的优化某些情况下，MySQL使用索引排序，尽量避免使用 filesort 即使ORDER BY与索引不完全匹配，也可以使用索引，只要索引的未使用部分和额外的如果是这样，优化器可能不使用索引。如果SELECT*只选择索引列，则使用索引并避免排序。 * FROM t1 WHERE key_part1 = constantORDER BY key_part2; ---- 假设 key_part1不是索引或索引的一部分，在条件中作为常量条件存在，则优化器也会使用索引为了获得文件排序操作的内存，从MySQL8.0.12开始，优化器会根据需要递增地分配内存缓冲区，直到达到sort_buffer_size系统变量指定的大小，而不是像MySQL8.0.12之前那样预先分配固定数量的
1K20发布于 2020-10-29
来自专栏小徐学爬虫
优化爬虫请求：如何选择合适的爬虫ip轮换策略？
在进行爬虫任务时，使用隧道爬虫ip并采用合适的轮换策略可以提高稳定性和效率。选择合适的隧道爬虫ip轮换策略可以优化您的爬虫请求过程。 4、多因素权衡与动态调整根据实际需求和情况，综合考虑多个因素来进行隧道爬虫ip轮换策略的优化：网络带宽、服务器资源等；目标网站响应速度及稳定性；预设切换周期或触发条件； 5、异常处理机制与日志分析建立监测系统以追踪隧道爬虫ip状态，并设置相应异常处理机制。当某个IP不可用时自动切换到备选方案; 记录每次请求结果并对其进行分析, 从中获取有价值信息; 选择合适的隧道爬虫ip轮换策略是优化爬虫任务过程中关键步骤之一。请根据具体情况灵活运用以上方法，以达到更好地选择和管理隧道爬虫ip，在爬虫请求过程中取得良好效果。
38830编辑于 2023-08-30
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列4-子节点
这个string就是上面div的子节点（string通常看成是一个tag的子节点） 4." contents 1.tag对象contents可以获取所有的子节点，返回的是list 2.len()函数统计子节点的个数 3.通过下标可以取出对应的子节点 # coding:utf-8 from bs4 六、参考代码： # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com
2.1K70发布于 2018-04-08
来自专栏小徐学爬虫
Java使用Selenium反爬虫优化方案
当我们爬取大站的时候，就得需要对抗反爬虫机制的场景，因为项目要求使用Java和Selenium。Selenium通常用于模拟用户操作，但效率较低，所以需要我们结合其他技术来实现高效。在 Java 中使用 Selenium 进行高效反爬虫对抗时，需结合特征隐藏、行为模拟、代理管理及验证码处理等策略，以下为系统性优化方案及代码实现：一、特征隐藏：消除自动化痕迹Selenium 暴露的
66810编辑于 2025-06-11
来自专栏mathor
枚举+优化（4）——哈希表优化实例2
例3.四平方和思路1：枚举abcd，判断a^2^+b^2^+c^2^+d^2^是否等于N 分析规模 a：0 ~ sqrt(500000 / 4) b：0 ~ sqrt(500000 / 3 font color = red>经验：1秒=10^8^ 思路2：枚举abc，判断N-a^2^-b^2^-c^2^是不是完全平方数分析规模 a：0 ~ sqrt(500000 / 4) * d) == f.end()) f[c * c + d * d] = c; //枚举a，b的值 for(int a = 0;a * a <= n / 4; << c << " " << d << endl; return 0; } } } return 0; } 例4. ; return 0; } 第一次作业先说说的思路，当时看到这题有点懵，可能还是对哈希算法掌握的不够，怎么都想不到用哈希的方法去做，索性先写了个O(N^2^)的两重循环，想着这几天学的优化
83050发布于 2018-06-08
Java HttpClient 多线程爬虫优化方案
引言在当今大数据时代，网络爬虫（Web Crawler）广泛应用于搜索引擎、数据采集、竞品分析等领域。然而，单线程爬虫在面对大规模数据抓取时效率低下，而多线程爬虫能显著提升爬取速度。本文介绍如何基于 Java HttpClient 构建高效的多线程爬虫，涵盖线程池优化、请求并发控制、异常处理、代理管理等关键技术点，并提供完整代码实现。1. 多线程爬虫的核心优化点1.1 为什么需要多线程爬虫？单线程爬虫瓶颈：顺序执行 HTTP 请求，IO 等待时间长，CPU 利用率低。多线程优势：并发执行多个请求，提高爬取效率，适用于大规模数据采集。 1.2 多线程爬虫的关键优化方向优化方向说明线程池管理使用 ExecutorService 控制线程数量，避免资源耗尽请求队列使用 BlockingQueue 存储待爬取的 URL，实现生产者-消费者模式连接池优化复用总结本文介绍了 Java HttpClient 多线程爬虫的优化方案，包括：✅ 线程池管理（ExecutorService）✅ 连接池优化（PoolingHttpClientConnectionManager
43410编辑于 2025-04-02
来自专栏python3
Python爬虫4-URLError与H
GitHub代码练习地址：URLError：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac06_URLError.py 　　　　　　　　　　 HTTPError：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac07_HTTPError.py 模块：urllib.error 一、URLError 　　产生的原因：没网
48720发布于 2020-01-17
来自专栏python爬虫教程
python爬虫之BeautifulSoup4使用
钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的html、xml数据，使用Xpath实现网页内容爬取。 and Tillie 钢铁学爬虫 \n ', Tillie, '\n 钢铁学爬虫 and 5 Tillie 6 钢铁学爬虫 10 Tillie 11 Tillie 12 钢铁学爬虫
1.8K20编辑于 2022-09-19
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列2
前言本篇详细介绍beautifulsoup4的功能，从最基础的开始讲起，让小伙伴们都能入门一、读取HTML页面 1.先写一个简单的html页面，把以下内容copy出来，保存为html格式文件 4.prettify()这个方法是把文件解析成html格式，用html的标准格式输出（有缩进的） ? 三、对象的种类 1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag : 标签对象，如：<p class="title 2.那么获取其中的某一个属性，就跟操作字典一样，如：tag["href"] 3.由于class属性一般可以为多个，中间空格隔开，所以class属性获取的是一个list类型：[u'sister'] 4. 七、发福利 1.爬糗事百科首页的段子 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("
79860发布于 2018-04-08
来自专栏从零开始学自动化测试
python爬虫beautifulsoup4系列1
前言以博客园为例，爬取我的博客上首页的发布时间、标题、摘要，本篇先小试牛刀，先了解下它的强大之处，后面讲beautifulsoup4的详细功能。一、安装 1.打开cmd用pip在线安装beautifulsoup4 >pip install beautifulsoup4 ? 2.用requests里的get方法打开博客首页，r.content返回整个html内容，返回类型为string 3.查找所有的class属性为dayTitle的Tag类 4.获取当前Tag的标签为五、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com
1.1K110发布于 2018-04-08

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多