
一场始于 Selector Error 的拯救行动:企查查数据采集故障排查记
• 17:00:开发人员小李正在尝试利用 Python 爬虫从企查查(https://www.qcc.com https://www.qcc.com)抓取公司工商信息。原本一切正常,但突然发现信息采集失败,程序抛出大量选择器错误。
• 17:15:小李发现,尽管请求能正常返回 HTML 页面,但关键数据(公司名称、法人代表、注册资本)的定位选择器失效,抓取到的内容为空或错误。初步判断是网页结构发生了不可预料的变化。
• 17:30:尝试更新选择器,但新问题接踵而至:动态加载的内容无法被解析,数据仍然缺失。
分析式线索追踪
本地测试日志片段
17:15:23 INFO - 发送 GET 请求至 https://www.qcc.com,状态码 200,请求成功。
17:15:25 ERROR - 选择器失效!无法找到公司名称元素 (selector: #companyName)。
17:15:30 DEBUG - HTML 快照保存至 ./snapshots/qcc_17_15_25.html,便于后续分析。

网页结构与选择器对比
• 原始选择器:#companyName 用于定位公司名称。
• 快照 HTML 分析:发现 <div id="companyName"> 标签已不存在,取而代之的是动态加载的 <div class="loader"> 和 <script> 标签。
解决方案探寻过程
# 引入爬虫代理 IP配置
proxies = {
'http': 'http://用户名:密码@域名:端口',
'https': 'https://用户名:密码@域名:端口',
}
response = requests.get(url, proxies=proxies)headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Cookie': 'your-cookie-string' # 替换为实际有效 Cookie
}# 企查查数据采集解决方案
import requests
from bs4 import BeautifulSoup
# 设置代理IP(亿牛云爬虫代理示例 www.16yun.cn)
PROXY_USERNAME = '16YUN' # 替换为实际用户名
PROXY_PASSWORD = '16IP' # 替换为实际密码
PROXY_DOMAIN = 'proxy.16yun.cn'
PROXY_PORT = '8080'
# 配置代理
proxies = {
'http': f'http://{PROXY_USERNAME}:{PROXY_PASSWORD}@{PROXY_DOMAIN}:{PROXY_PORT}',
'https': f'https://{PROXY_USERNAME}:{PROXY_PASSWORD}@{PROXY_DOMAIN}:{PROXY_PORT}',
}
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
'Cookie': 'your-cookie-string' # 替换为实际有效的 Cookie
}
# 爬取目标 URL
url = "https://www.qcc.com"
# 发送请求
response = requests.get(url, headers=headers, proxies=proxies)
response.encoding = 'utf-8' # 设置正确编码
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 示例:解析公司信息(需根据实际页面结构调整选择器)
company_name = soup.select_one('.company-name') # 假设 .company-name 是公司名称的类名
if company_name:
print(f"公司名称: {company_name.text.strip()}")
else:
print("未能获取公司名称!")
legal_representative = soup.select_one('.legal-rep') # 假设 .legal-rep 是法人代表的类名
if legal_representative:
print(f"法人代表: {legal_representative.text.strip()}")
else:
print("未能获取法人代表信息!")
registered_capital = soup.select_one('.reg-capital') # 假设 .reg-capital 是注册资本的类名
if registered_capital:
print(f"注册资本: {registered_capital.text.strip()}")
else:
print("未能获取注册资本信息!")架构改进方案
• 动态加载应对策略:采用 Selenium / Playwright 等框架,模拟人类交互行为加载完整页面。
• 选择器稳定性保障:利用 XPath 表达式,结合多个属性定位元素;定期更新长效选择器库。
• 代理池搭建:引入多 IP 代理池,轮询使用不同 IP,提高请求成功率。
• 数据清洗与过滤:构建专用的数据清洗规则集,去除冗余、异常数据,提升数据质量。
总结
本次故障源于网页动态加载机制与选择器不匹配,辅以合理的代理 IP、请求头配置及动态加载调试工具,成功解决数据采集问题。在爬虫项目中,持续关注目标网站更新动态、优化选择器策略、升级反爬规避方案,是保障数据稳定性抓取的关键。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。