搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
Python爬虫程序实例
在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包，所以我们之前要安装这两个包，如果不清楚是否安装，可以使“pip list”查看是否已经安装。做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查，在网页空白处右击鼠标在弹出菜单中，使用“检查”菜单项。源码下载：Python源码发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/149643.html原文链接：https://javaforall.cn
40320编辑于 2022-07-05
来自专栏菠萝上市没有
Rust 简单爬虫程序
导致解析任务不能在多个线程中并发执行，极大影响了爬虫的爬取效率。
3.2K40发布于 2021-05-21
来自专栏程序源代码
【程序源代码】python爬虫
多种电商商品数据爬虫，整理收集爬虫练习。每个项目都是成员写的。通过实战项目练习解决一般爬虫中遇到的问题。通过每个项目的 readme，了解爬取过程分析。对于精通爬虫的 pyer，这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护，确保即下即用，减少爬取的时间。
82230发布于 2020-07-01
来自专栏Python、Flask、Django
爬虫学习--第六个爬虫程序
思路呢，教程呢，都是学习了人家的。只不过有的地方出错，有的地方理解不了。就换成了自己能理解的方法改写了一点。 #-*- coding:utf-8 -*- from bs4 import BeautifulSoup import requests import os,sys import time class mzitu(): def allUrl(self,url): #获取图片页面所有连接 html = self.request(url)
39520发布于 2018-07-18
来自专栏小徐学爬虫
使用libcurl编写爬虫程序指南
用户想知道用Curl库编写的爬虫程序是什么样的。首先，我需要明确Curl本身是一个命令行工具和库，用于传输数据，支持多种协议。用户可能想了解如何用libcurl来编写爬虫程序，或者可能混淆了curl命令和编程中的使用。首先，我应该考虑用户可能的背景。他可能对爬虫有一定了解，但可能不太清楚如何具体用libcurl实现。使用 libcurl 库编写的爬虫程序通常涉及以下几个关键步骤。这里以 C 语言为例，展示一个简单的示例程序，并解释其核心逻辑。 /crawler进阶功能多线程爬虫使用 curl_multi_init() 实现异步请求，同时处理多个 URL。遵守 robots.txt：确保爬虫行为符合目标网站的规则。
44810编辑于 2025-04-10
来自专栏Linux技术资源分享
爬虫 | 继Helloworld程序『scrapy & redis』
前言天黑之后就在图书馆玩一个爬虫，就是那个开源的爬虫 -- scrapy！早几天就搭建了一个Redis集群服务器，于是就将爬取的数据存储于Redis数据库。 public = scrapy.Field() # 出版地 clicked = scrapy.Field() # 浏览次数 type = scrapy.Field() # 书籍类型编辑爬虫 Spider程序在spiders文件夹新建一个BookSpider.py文件，用户爬取数据逻辑的文件，获取书籍的信息并存储到Redis，核心程序！ ], 8) presenter.zadd(z_key, book_item["type"], 9) yield book_item 执行scrapy的程序
93840发布于 2018-06-08
来自专栏程序源代码
【程序源代码】微信爬虫
关键字：爬虫 ? 正文 | 内容 01 — 【介绍】一个爬虫代码。主要用于对公众号进行获取数据使用的。使用的python进行开发的。内容比较简单。可以简单试用下。创建超级管理员账号,访问后台，并配置要爬取的公众号和关键字 python manage.py createsuperuser 8）启动爬虫 $ python bin/scheduler.py $ python
83421发布于 2020-10-30
来自专栏全栈程序员必看
爬虫工具_应用程序market
一个简单的异步爬虫. 私信太多,统一回答一下: 关于异步函数的: 1. www.baidu.com') print('fetch : ' , res) self.write(res.body) 2.这个案例比较容易理解, 使用了新的语法,与下面爬虫的协程语法一致发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/210149.html原文链接：https://javaforall.cn
70130编辑于 2022-11-18
来自专栏Python使用工具
使用HttpClient库的爬虫程序
使用HttpClient库的爬虫程序，该爬虫使用C#来抓取内容。 // 输出结果 Console.WriteLine(result); } } } } 这个程序首先创建了一个
35730编辑于 2023-11-02
来自专栏小徐学爬虫
Go语言高并发爬虫程序源码
因为最近工作量有点大，都是反复的做那几个事情，正好之前有用GO语言写的爬虫，现在稍微修改下，然后实现高并发实现快速抓取数据，因为有些属于商业机密，我就写成一个通用的模版以供大家参考。下面是一个使用Go语言编写的高并发爬虫程序模板，采用工作池模式实现高效并发处理，并包含美观的UI界面展示爬取结果。 , Size: len(body), Duration: duration, } } }}程序功能说明这个 Go语言爬虫程序具有以下特点：1、高并发处理：使用工作池模式（worker pool）管理并发通过通道(channel)实现任务队列使用sync.WaitGroup等待所有任务完成2、用户友好界面：使用 "停止"按钮终止爬取过程点击"清空结果"可重置统计信息和结果列表运行要求运行此程序需要安装以下依赖：go get fyne.io/fyne/v2此程序可在Windows、macOS和Linux上运行，并自动适配本地主题
23710编辑于 2025-06-12
来自专栏python3
小程序开发（一）：使用scrapy爬虫
过完年回来，业余时间一直在独立开发一个小程序。主要数据是8000+个视频和10000+篇文章，并且数据会每天自动更新。本系列文章大致会介绍一下内容：数据准备（python的scrapy框架）接口准备（nodejs的hapijs框架）小程序开发（mpvue以及小程序自带的组件等）部署上线（小程序安全域名等配置以及爬虫创建项目 scrapy startproject jqhtml 修改items 添加爬虫爬虫爬虫编写pipeline 修改配置文件这样我们就顺利地完成了爬虫项目的编写。 scrapyd提供了一些api接口来查看项目爬虫情况，以及执行或者停止执行爬虫。这样我们就很方便的调这些接口来管理我们的爬虫任务了。完成小程序所需要的所有接口的开发，以及使用定时任务执行爬虫脚本。
1.4K10发布于 2020-01-06
来自专栏小徐学爬虫
使用CPR库编写的爬虫程序
在 Python 中，CPR（py-cpr）库用于与 HTTP 代理进行配合，编写爬虫程序是一个常见的任务。你可以通过 CPR 库来发送 HTTP 请求并通过代理服务器来抓取数据。以下是如何使用 CPR 库和 HTTP 代理一起编写爬虫程序的示例。你可以使用以下命令来安装：pip install py-cpr requests2、编写爬虫程序(1) 导入所需模块import requestsfrom cpr import CPR(2) 设置 HTTP JSON 响应data = response.json()print("Your IP via Proxy: ", data)3、完整示例：使用 HTTP 代理抓取网页以下是一个完整的 Python 程序 cpr.get('https://www.example.com')# 打印网页内容print(cpr_response.text)4、总结通过上述代码示例，你可以看到如何结合 CPR 和 HTTP 代理来编写爬虫程序
24710编辑于 2025-03-10
来自专栏小徐学爬虫
PHP编写图书信息爬虫程序
最近闲来无事，有个朋友问我他在用PHP写一个抓取图书信息的爬虫程序出现了一些BUG，想要让我看下帮他修改，无奈写的语法太过复杂凌乱，索性我重头再来，直接用自己的方式写了一篇给他一些思路做参考。以下是一个使用PHP编写的简单图书信息爬虫示例，使用 GuzzleHttp 发送HTTP请求和 Symfony DomCrawler 解析HTML内容：<? 页数据\n"; sleep(1); // 遵守爬虫道德，添加延迟 } catch (Exception $e) { echo "抓取失败: ".
33600编辑于 2025-05-12
来自专栏小徐学爬虫
C#编写HttpClient爬虫程序示例
要写一个使用C#和HttpClient的爬虫程序。首先，我需要了解HttpClient的基本用法。HttpClient是用来发送HTTP请求和接收响应的类，对吧？以下是使用C#和HttpClient编写的爬虫程序示例，包含详细注释和扩展说明：using System;using System.Net.Http;using System.Threading.Tasks C# 7.1+ 支持异步Main方法，需在.csproj中添加：<PropertyGroup> <LangVersion>latest</LangVersion> </PropertyGroup>这个爬虫框架可根据具体需求扩展更多功能
55510编辑于 2025-04-07
来自专栏程序源代码
基于PHP爬虫的博客小程序
博客小程序小程序后端是基于 Wext-server-thinkphp3.2 实现的数据爬虫，使用 ThinkPHP3.2 框架开发。 Wext-server-thinkphp3.2 是集成小程序账号体系的快速开发Demo。小程序前端使用ES6+小程序原生语法，基于 ZanUI WeApp 和 Wext 开发的小程序应用。 ZanUI WeApp 是有赞移动 Web UI 规范 ZanUI 的小程序现实版本。Wext 是针对小程序API和部分JS功能实现封装的小程序组件。
1.9K10发布于 2018-09-21
来自专栏Python与Excel之交
超级简单，适合小白的爬虫程序
一、前言今天教大家一个最简单的爬虫程序，只需要几行代码就能爬取多页数据。这个程序需要用到一个名为pandas的库，先介绍一下pandas： pandas是基于NumPy构建的，使数据预处理、清洗、分析工作变得更快更简单。五、结语： pandas爬虫适合爬取且是静态网页的表格型table数据，但有些网页表面看起来是表格型table数据，而源代码却不是的表格型table数据或者数据不在源代码中的，这就要考虑网页是不是动态加载的网页了
1.1K20发布于 2021-08-05
来自专栏小徐学爬虫
使用puppeteer库编写的爬虫程序
以下是一个使用 Pyppeteer (Python 版本的 Puppeteer) 编写的网络爬虫示例，用于处理需要 JavaScript 渲染的页面：先安装依赖pip install pyppeteer 示例代码：动态页面爬虫import asynciofrom urllib.parse import urljoinfrom pyppeteer import launchfrom pyppeteer.errors no-sandbox', '--disable-setuid-sandbox'] ) async def crawl(self, start_url): """启动爬虫
51110编辑于 2025-04-02
来自专栏小徐学爬虫
C++舆情监控爬虫程序实现
如果用C++写一个舆情监控的爬虫程序。我们得要考虑C++在这方面的优势，比如性能高，适合处理大量数据。如果大家对C++的网络库不太熟悉，需要选择合适的库，比如libcurl或者Boost.Beast。以下是用C++实现舆情监控爬虫的示例代码。这个程序使用libcurl进行网络请求，Gumbo-Parser进行HTML解析，并支持多线程抓取：#include <iostream>#include <string>#include <vector 示例提取
标签内容（可根据需要修改）多线程支持：使用C++11线程实现并发抓取使用互斥锁保证线程安全舆情分析功能：关键词过滤简单的结果分析输出配置选项：可配置监控网站列表可自定义关键词列表扩展建议：反爬虫策略 .cpp -lcurl -lgumbo -lsqlite3 -lpthread -o monitor上面就是我辛苦熬夜几个通宵写出来的相关程序，希望大家能用得到。
38910编辑于 2025-05-12
来自专栏upuptop的专栏
【趣学程序】python之scrapy爬虫
初识python_scrapy爬虫 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中. 当前教程默认读者已安装python环境安装scrapy pip install Scrapy 创建爬虫项目通过命令方式进行创建爬虫项目 scrapy startproject studyscrapypro spiders:项目中的模块，通常在该模块下编写python代码，爬虫的逻辑代码等。items.py:项目中用到的实体类，需要开发者自己定义。pipelines.py：处理爬虫爬到的数据，数据处理器。 Scrapy的开发步骤创建项目编写item实体类创建爬虫类(Spider) 编写爬虫的逻辑编写爬虫结果数据处理类(Pipeline) 启动项目当前案例以爬取博客数据为例目标网址： https scrapy genspider cn_blogs_splider "www.cnblogs.com" 我们会在spiders文件夹中看到我们新创建的类 cnblogssplider 编写爬虫逻辑自定义的
69630发布于 2019-10-24
来自专栏小徐学爬虫
利用Python requests库爬虫程序示例
如果想要一个使用Python requests库的爬虫程序。首先，我需要确认他们的具体需求是什么。可能他们需要基本的爬虫示例，或者有特定的网站要抓取，但用户没有提到具体网站，所以最好提供一个通用的例子。接下来，我应该考虑requests库的基本用法。比如加入User-Agent，这样看起来更像普通浏览器，而不是爬虫。还可能要考虑异常处理，比如连接错误、超时等，使用try-except块来捕获异常，增强程序的健壮性。以下是一个使用 Python requests 库的基础爬虫程序示例，包含基本功能和注释说明：import requestsfrom bs4 import BeautifulSoup # 用于解析HTML as f: f.write(response.content)重要注意事项：遵守目标网站的 robots.txt 规则尊重网站版权和隐私政策添加适当的请求间隔（建议 2-5 秒）检查网站是否支持爬虫处理反爬机制
46110编辑于 2025-04-08

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python爬虫程序实例

Rust 简单爬虫程序

【程序源代码】python爬虫

爬虫学习--第六个爬虫程序

使用libcurl编写爬虫程序指南

爬虫 | 继Helloworld程序『scrapy & redis』

【程序源代码】微信爬虫

爬虫工具_应用程序market

使用HttpClient库的爬虫程序

Go语言高并发爬虫程序源码

小程序开发（一）：使用scrapy爬虫

使用CPR库编写的爬虫程序

PHP编写图书信息爬虫程序

C#编写HttpClient爬虫程序示例

基于PHP爬虫的博客小程序

超级简单，适合小白的爬虫程序

使用puppeteer库编写的爬虫程序

C++舆情监控爬虫程序实现

【趣学程序】python之scrapy爬虫

利用Python requests库爬虫程序示例

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Python爬虫程序实例

Rust 简单爬虫程序

【程序源代码】python爬虫

爬虫学习--第六个爬虫程序

使用libcurl编写爬虫程序指南

爬虫 | 继Helloworld程序 『scrapy & redis』

【程序源代码】微信爬虫

爬虫工具_应用程序market

使用HttpClient库的爬虫程序

Go语言高并发爬虫程序源码

小程序开发（一）：使用scrapy爬虫

使用CPR库编写的爬虫程序

PHP编写图书信息爬虫程序

C#编写HttpClient爬虫程序示例

基于PHP爬虫的博客小程序

超级简单，适合小白的爬虫程序

使用puppeteer库编写的爬虫程序

C++舆情监控爬虫程序实现

【趣学程序】python之scrapy爬虫

利用Python requests库爬虫程序示例

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

爬虫 | 继Helloworld程序『scrapy & redis』