搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏爬虫资料
Python多线程爬虫编程中queue.Queue和queue.SimpleQueue的区别和应用
# 在主线程中向队列中放入数据，这里假设有三组代理IP和URL的组合 data_list = [ {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN "16IP-ps1", "url": "http://example.com/1.html"}, {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN "16IP-ps2", "url": "http://example.com/2.html"}, {"proxy_ip": "www.16yun.cn:3100", "username": "16YUN "16IP-ps1"}, {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/2.html", "username": "16YUN "16IP-ps2"}, {"proxy_ip": "www.16yun.cn:3100", "url": "http://example.com/3.html", "username": "16YUN
72820编辑于 2023-03-14
来自专栏爬虫资料
如何使用 scrapy.Request.from_curl() 方法将 cURL 命令转换为 Scrapy 请求
我们可以使用下面的 cURL 命令来实现这个功能： curl -x http://www.16yun.cn:3111 -u 16YUN:16IP -X POST -d "name=Bing&message ，如下所示： from scrapy import Request request = Request.from_curl('curl -x http://www.16yun.cn:3111 -u 16YUN b'User-Agent': b'Mozilla/5.0'} # 请求携带的头部信息 meta: {'proxy': 'http://www.16yun.cn:3111'} # 请求使用的亿牛云代理服务器 auth: ('16YUN 如下所示： import scrapy # 亿牛云爬虫代理加强版设置代理服务器 proxyHost = "www.16yun.cn" proxyPort = "3111" proxyUser = "16YUN proxyPass}@{proxyHost}:{proxyPort}" # cURL命令 curl_command = ( 'curl -x http://www.16yun.cn:3111 -u 16YUN
1.2K30编辑于 2023-08-08
来自专栏爬虫资料
深入探讨 Puppeteer 如何使用 X 和 Y 坐标实现鼠标移动
const puppeteer = require('puppeteer');// 配置代理IP信息 16yun爬虫代理const proxy = { host: '代理服务器域名', // 替换为 16yun爬虫代理提供的域名 port: '代理服务器端口', // 替换为16yun爬虫代理提供的端口 username: '用户名', // 替换为16yun爬虫代理提供的用户名 password: '密码', // 替换为16yun爬虫代理提供的密码};// 自定义 Cookie 和 User-Agentconst cookies = [ {
1.1K10编辑于 2024-11-20
来自专栏爬虫资料
Clicknium：更强大的自动化工具，可用于爬取抖音动态网页数据
546209991 # 返回一个字符串类型的 _signature 值 return signature # 创建一个 requests.Session 对象，并设置 proxies 参数（设置16YUN 代理的认证信息） session = requests.Session() session.proxies = {"http": "http://16YUN:16IP@www.16yun.cn:8000 ", "https": "http://16YUN:16IP@www.16yun.cn:8000"} # 创建一个浏览器对象，并传入 session 参数 browser = cn.Browser(session
3.4K31编辑于 2023-03-13
来自专栏爬虫资料
Kubernetes下的分布式采集系统设计与实战：趋势监测失效引发的架构进化
请求过程通过中转IP服务（以第三方供应商如“16yun”为例）进行流量转发。请求头信息、访问顺序、身份标识进行伪随机模拟，以降低重复行为特征。 randomimport timeimport jsonfrom bs4 import BeautifulSoup# 中转服务配置（以亿牛云爬虫代理为例）PROXIES = { "http": "http://16YUN :16IP@proxy.16yun.cn:3100", "https": "http://16YUN:16IP@proxy.16yun.cn:3100",}# 模拟客户端标识USER_AGENTS
20710编辑于 2025-07-07
来自专栏爬虫资料
捕捉页面的关键元素：用CSS选择器与Puppeteer自动抓取
完整代码实现const puppeteer = require('puppeteer');// 配置代理IP信息 16yun爬虫代理加强版const proxyHost = "proxy.16yun.cn true, // 设置为 true 表示无头模式 args: [ `--proxy-server=${proxyHost}:${proxyPort}` // 配置16yun 代理服务器 ] }); // 创建新页面 const page = await browser.newPage(); // 配置16yun代理的认证信息 await
62010编辑于 2024-11-19
来自专栏爬虫资料
处理动态分页：自动翻页与增量数据抓取策略-数据议事厅
GubaCrawler: def __init__(self): # 亿牛云代理配置 self.proxy = { "http": "http://16YUN :16IP@yn-proxy.16yun.cn:3111", "https": "http://16YUN:16IP@yn-proxy.16yun.cn:3111"
36510编辑于 2025-03-10
来自专栏爬虫资料
JSON数据解析实战：从嵌套结构到结构化表格
import Digraph# ---------------------------# 代理IP设置（参考亿牛云爬虫代理）# 代理信息：域名(proxy.16yun.cn)、端口(8080)、用户名(16YUN )、密码(16IP)# ---------------------------proxies = { "http": "http://16YUN:16IP@proxy.16yun.cn:8080" , "https": "http://16YUN:16IP@proxy.16yun.cn:8080"}# ---------------------------# 请求头设置：模拟浏览器请求，包含
73910编辑于 2025-03-06
来自专栏爬虫资料
Playwright 多语言一体化——Python/Java/.NET 全栈采集实战
proxy={ "server": "proxy.16yun.cn:12345", # 代理域名与端口 "username": "16YUN browser.newContext(new Browser.NewContextOptions() .setProxy(new Proxy("proxy.16yun.cn:12345", "16YUN new BrowserNewContextOptions { Proxy = new Proxy { Server = "proxy.16yun.cn:12345", Username = "16YUN
52810编辑于 2025-05-19
来自专栏爬虫资料
实现自动化数据抓取：使用Node.js操控鼠标点击与位置坐标
代理IP：通过代理IP减少被网站封锁的风险，这里我们将使用16yun的代理服务。User-Agent与Cookie：通过设置请求头，模仿正常用户行为，提高抓取的效率与隐蔽性。二、实现细节1. const puppeteer = require('puppeteer');// 代理IP配置 16yun爬虫代理const proxyHost = '代理服务器域名'; const proxyPort 代码解析代理IP配置：使用16yun的代理IP服务（域名、端口、用户名、密码），通过page.authenticate()方法设置认证信息，保证访问来自代理IP。
1.1K10编辑于 2024-11-07
来自专栏爬虫资料
学术数据采集中的两条路径：结构化提取与交互式解析
BeautifulSoup# ====== 代理配置（亿牛云示例） ======proxy_host = "proxy.16yun.cn"proxy_port = "3100"proxy_user = "16YUN"proxy_pass sync_playwright# ====== 代理配置（亿牛云示例） ======proxy_host = "proxy.16yun.cn"proxy_port = "3100"proxy_user = "16YUN"proxy_pass
39210编辑于 2025-08-25
来自专栏爬虫资料
数据合并：cbind函数在网页爬取中的实用技巧
二：利用代理IP和多线程提高效率在连续访问网页时，为避免被定义为恶意连接，通常需要以下手段：以代理IP进行安全应用：使用爬虫代理服务，如16yun爬虫加强版（基于域名，端口，用户名和密码），做到线上无痕 bs4 import BeautifulSoupimport pandas as pdfrom concurrent.futures import ThreadPoolExecutor# 代理IP设置 16yun
38610编辑于 2024-12-23
来自专栏爬虫资料
价格监控：接口请求还是模拟点击？一次性能对比分享
用了代理）：import requests#设置爬虫代理IP 参考亿牛云示例proxy_host = "proxy.16yun.cn"proxy_port = "3100"proxy_user = "16YUN"proxy_pass import sync_playwright#设置爬虫代理IP 参考亿牛云示例proxy_host = "proxy.16yun.cn"proxy_port = "3100"proxy_user = "16YUN"proxy_pass
31210编辑于 2025-08-20
来自专栏爬虫资料
将html_table2结果转化为tibble的最佳实践
3.3 使用代理 IP以下是实现代理 IP 技术的代码示例：# 设置代理参数 16yun爬虫代理 proxy_url <- "http://proxy.16yun.cn"proxy_port <- "12345 案例分析：采集汽车之家数据以下是完整的代码实现：library(rvest)library(dplyr)library(tidyr)# 设置代理参数 16yun爬虫代理proxy_url <- "http
44610编辑于 2024-12-19
来自专栏爬虫资料
Python Requests 的高级使用技巧：应对复杂 HTTP 请求场景
import requestsfrom bs4 import BeautifulSoupimport hashlib# 代理信息，需替换成实际的16yun爬虫代理配置proxy = { "http import requestsimport timeimport random# 代理信息，需替换成实际的16yun爬虫代理配置proxy = { "http": "http://username import requestsimport timeimport threadingimport queue# 代理信息，需替换成实际的16yun爬虫代理配置proxy = { "http": "
68020编辑于 2024-10-31
来自专栏python进阶学习
使用aiohttp库实现异步爬虫进行优化
sudaref=www.baidu.com"proxies = ["socks5://16yun:16ip@www.16yun.cn:8888", "socks5://16yun:16ip@www.16yun.cn
1K30编辑于 2023-03-31
来自专栏爬虫资料
动态与静态结合：抓取移动端新闻数据的探索实践
requestsimport jsonfrom fake_useragent import UserAgent# 使用亿牛云爬虫代理服务proxies = { "http": "http://16YUN :16IP@proxy.16yun.cn:31000", "https": "http://16YUN:16IP@proxy.16yun.com:31000"}# 伪造请求头，模拟浏览器或移动端访问
32510编辑于 2025-06-17
来自专栏爬虫资料
构建面向电子行业的垂直信息采集系统：Digikey元器件搜索实战
BeautifulSoupimport sqlite3import timefrom datetime import datetime# 代理与请求头配置（参考亿牛云示例）proxies = { "http": "http://16YUN :16IP@proxy.16yun.cn:3100", "https": "http://16YUN:16IP@proxy.16yun.cn:3100"}headers = { "User-Agent
21010编辑于 2025-07-21
来自专栏爬虫资料
轻量级爬虫框架Feapder入门：快速搭建企业级数据管道
代理、Cookie 和 User-Agent 参数设置在代码中需要使用代理 IP 进行请求，参考爬虫代理的配置：代理域名：proxy.16yun.cn 代理端口：9000 用户名：16YUN 密码：16IP构造代理 URL 格式：# 代理设置格式：protocol://username:password@domain:portproxy_url = "http://16YUN:16IP@proxy 示例） self.save_data(data)if __name__ == "__main__": # 定义代理和请求头等全局参数 proxy_url = "http://16YUN
50810编辑于 2025-04-10
来自专栏爬虫资料
使用Puppeteer爬取地图上的用户评价和评论
爬虫代理域名const proxyPort = '8100'; // 爬虫代理端口const proxyUsername = '16IP'; // 爬虫代理用户名const proxyPassword = '16YUN 爬虫代理域名const proxyPort = '8100'; // 爬虫代理端口const proxyUsername = '16IP'; // 爬虫代理用户名const proxyPassword = '16YUN 爬虫代理域名const proxyPort = '8100'; // 爬虫代理端口const proxyUsername = '16IP'; // 爬虫代理用户名const proxyPassword = '16YUN 爬虫代理域名const proxyPort = '8100'; // 爬虫代理端口const proxyUsername = '16IP'; // 爬虫代理用户名const proxyPassword = '16YUN
1.1K20编辑于 2023-09-06

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python多线程爬虫编程中queue.Queue和queue.SimpleQueue的区别和应用

如何使用 scrapy.Request.from_curl() 方法将 cURL 命令转换为 Scrapy 请求

深入探讨 Puppeteer 如何使用 X 和 Y 坐标实现鼠标移动

Clicknium：更强大的自动化工具，可用于爬取抖音动态网页数据

Kubernetes下的分布式采集系统设计与实战：趋势监测失效引发的架构进化

捕捉页面的关键元素：用CSS选择器与Puppeteer自动抓取

处理动态分页：自动翻页与增量数据抓取策略-数据议事厅

JSON数据解析实战：从嵌套结构到结构化表格

Playwright 多语言一体化——Python/Java/.NET 全栈采集实战

实现自动化数据抓取：使用Node.js操控鼠标点击与位置坐标

学术数据采集中的两条路径：结构化提取与交互式解析

数据合并：cbind函数在网页爬取中的实用技巧

价格监控：接口请求还是模拟点击？一次性能对比分享

将html_table2结果转化为tibble的最佳实践

Python Requests 的高级使用技巧：应对复杂 HTTP 请求场景

使用aiohttp库实现异步爬虫进行优化

动态与静态结合：抓取移动端新闻数据的探索实践

构建面向电子行业的垂直信息采集系统：Digikey元器件搜索实战

轻量级爬虫框架Feapder入门：快速搭建企业级数据管道

使用Puppeteer爬取地图上的用户评价和评论

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐