首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏有趣的Python和你

    python爬虫之MQL5爬虫

    今天中文社区有人要爬MQL5的网站,要和其做的图表一样,这里写上原图和我画的图,代码就不上了~ 以下是我的图片 成长.png 结余.png 净值.png 表格没有做,回归的直线没有做,继续加油!

    48730发布于 2018-07-03
  • 来自专栏Python数据科学

    Python爬虫架构5模板 | 你真的会写爬虫吗?

    为啥标题是这样,因为我们日常写小爬虫都是一个py文件加上几个请求,但是如果你去写一个正式的项目时,你必须考虑到很多种情况,所以我们需要把这些功能全部模块化,这样也使我们的爬虫更加的健全。 2、基础爬虫的架构以及运行流程 首先,给大家来讲讲基础爬虫的架构到底是啥样子的?JAP君给大家画了张粗糙的图: ? 从图上可以看到,整个基础爬虫架构分为5大类:爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。 下面给大家依次来介绍一下这5个大类的功能: 1. 5.数据存储器:就是将HTML下载器发送过来的数据存储到本地。 4、总结 我们这里简单的讲解了一下,爬虫架构的五个模板,无论是大型爬虫项目还是小型的爬虫项目都离不开这五个模板,希望大家能够照着这些代码写一遍,这样有利于大家的理解,大家以后写爬虫项目也要按照这种架构去写

    2.3K41发布于 2019-05-10
  • 来自专栏AI科技大本营的专栏

    5行代码就能入门爬虫

    所以,我在写第一遍的时候,只用了5行代码,就成功抓取了全部所需的信息,当时的感觉就是很爽,觉得爬虫不过如此啊,自信心爆棚。 reportTime=2017-12-31&pageNum=%s' % (str(i)))[3] 5 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_ sig', hea 3000+ 上市公司的信息,安安静静地躺在 Excel 中 ▌不断完善 有了上面的信心后,我开始继续完善代码,因为5行代码太单薄,功能也太简单,大致从以下几个方面进行了完善: 增加异常处理 经过以上这几点的完善,代码量从原先的5行增加到了下面的几十行: 1import requests 2import pandas as pd 3from bs4 import BeautifulSoup 4from lxml import etree 5import time 6import pymysql 7from sqlalchemy import create_engine 8from

    60020发布于 2019-03-06
  • 来自专栏Python爬虫逆向教程

    Python爬虫之文件存储#5

    爬虫专栏:http://t.csdnimg.cn/WfCSx 文件存储形式多种多样,比如可以保存成 TXT 纯文本形式,也可以保存为 JSON 格式、CSV 格式等,本节就来了解一下文本文件的存储方式。 运行结果如下: json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 3 column 5 10003', 'Jordan', 21]]) 输出效果是相同的,内容如下: id,name,age 10001,Mike,20 10002,Bob,22 10003,Jordan,21 但是一般情况下,爬虫爬取的都是结构化数据

    1.7K10编辑于 2024-02-10
  • 来自专栏入门到放弃之路

    AI新闻爬虫:传统爬虫和XHR异步加密爬虫的碰撞

    前言AI的发展日新月异,及时掌握一些AI的消息和妹子聊天时也不至于词穷(不建议和妹子聊技术)。所以这里就以36氪和虎嗅网为例,来讲一下如何爬取AI新闻消息以及数据整合。 36氪和虎嗅网这两个网站新闻爬虫比较具有代表性,36氪是传统的html网页爬虫,虎嗅网是异步api加载加密的爬虫,这里就从简单的36氪讲起。 通过python的requests模块发起请求,最后解析目标数据实现36Kr AI快讯爬虫的代码开发。 如图,新闻数据通过接口请求返回json的方式渲染的,而非36Kr返回的HTML,所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。 结语这就是我使用爬虫爬取AI新闻的过程,使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集,还有更优的程序设计架构。

    1.6K50编辑于 2024-03-12
  • 来自专栏iSharkFly

    AI Bot 爬虫新势力

    对使用CloudFlare的用户,可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练,AI也需要从互联网中不断的获取内容才能对自己进行训练。 针对上面的内容和数据来看,AI的爬取量比较大,可能会超过传统的搜索引擎。

    11310编辑于 2025-11-13
  • 来自专栏python全栈教程专栏

    爬虫学习(5):parse解析链接(网址)

    s.netloc) print(s[1]) print(s[3]) 这样打印结果姐如下: 4.urlunsplit() 跟上面那个方法类似,这个就是再把各个部分组合成完整的链接,长度必须是5, ,'spm=1011.2124.3001.5359',' '] print(urlunsplit(data)) 根据前面打印拆分结果,我再给它复原了,运行结果如下,又得到csdn首页链接了 5. wd=%E5%B7%9D%E5%B7%9D' print(unquote(url)) 它就可以把被编码后的中文还原。 这个模块差不多就这些了,学习爬虫慢慢来,不要一蹴而就。

    91420发布于 2021-10-18
  • 来自专栏Lan小站

    Week5 情话网小爬虫

    太久没写爬虫了,手生到连xpath怎么提取出来都忘记了,requests取回的数据编码都忘记怎么转换了 于是乎在百度上随便搜了一个情话网,来进行爬取。 ']/div[@class='bodyMain']/div[@class='bodyMainBody']/div[@class='infoList']/ul[@class='infoListUL mt5'

    51220编辑于 2022-07-13
  • 来自专栏python3

    python 爬虫 5i5j房屋信息 获

    1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 5 def Geturl(fullurl #链接url 10 zf_url_list = [] 11 for zf_url_lost in zf_list: 12 zf_url = 'https://bj.5i5j.com zp_info_need_2 27 connection = pymysql.connect(host='localhost', user='root', password='1234', db='5i5j try: 29 with connection.cursor() as cursor: 30 sql = "INSERT INTO `5i5j_info 39 for i in range(1,pags+1): 40 url = 'https://bj.5i5j.com/zufang/huilongguan/n{}/' 41

    49710发布于 2020-01-19
  • AI 爬虫处置实操:用 EdgeOne 一键拦截 20+ 种 AI 爬虫

    在页面上方筛选你要查看的域名和时间范围(建议先看最近 7 天)5. 、Bytespider、CCBot、anthropic-ai 等这些是主流 AI 爬虫的标识某些 Path 的请求量异常高(如 /sitemap.xml、/feed、全站文章页)AI 爬虫倾向于先读 sitemap 二、核心操作:一键开启 AI 爬虫处置确认有 AI 爬虫活动后,接下来开启防护。 :> - AI 爬虫处置不影响百度蜘蛛、Googlebot 等搜索引擎爬虫——你的 SEO 不会受到任何影响> - 特征库覆盖 20+ 种主流 AI 爬虫,且持续更新> - 所有套餐(含免费版)都能用这个功能立即配置 免费获取完整报告EdgeOne AI 爬虫处置可以解决"已知 AI 爬虫"的问题。但你的站可能还面临其他安全威胁——异常高频访问、恶意扫描、CC 攻击试探等。

    16110编辑于 2026-04-27
  • 来自专栏python3

    Python爬虫笔记5-JSON格式数

    age':1000} print(json.dumps(data_list)) print(json.dumps(data_dict)) 运行结果: [1, 2, 3, 4] {"name": "\u5c0f

    1.4K10发布于 2020-01-03
  • 来自专栏机器学习算法与Python学习

    Python:爬虫系列笔记(5) -- cookie的使用

    大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? 转载请注明:静觅 » Python爬虫入门六之Cookie的使用

    1.7K90发布于 2018-04-04
  • 来自专栏嘘、小点声

    python网络爬虫5)BeautifulSoup的使用示范

    不能表达的属性的解决方案 在html5中有些属性不被支持,查找时,通过定义字典实现输出 data_soup = BeautifulSoup('

    foo!

    1.3K20发布于 2019-07-31
  • 来自专栏码神联盟

    网络爬虫 | Java 实现 AI人工智能技术 - 网络爬虫功能

    ’,网络爬虫工程师又被亲切的称之为‘虫师’。 网络爬虫原理 网络爬虫原理: Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。 网络爬虫工作原理: 在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。 控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。 控制器: 控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。 5:如果想获取页面内,具体的相关内容,需要将html文件中的数据进行解析为Document,使用Jsoup技术进行解析即可,示例如下,增加如下代码: <dependency> <groupId>

    6K50发布于 2018-07-30
  • AI网络爬虫:搜狗图片的时间戳反爬虫应对策略

    query=%E5%AD%99%E5%85%81%E7%8F%A0&mode=2翻页规律如下:https://pic.sogou.com/napi/pc/searchList? mode=2&start=384&xml_len=48&query=%E5%AD%99%E5%85%81%E7%8F%A0&channel=pc_pichttps://pic.sogou.com/napi mode=2&start=336&xml_len=48&query=%E5%AD%99%E5%85%81%E7%8F%A0&channel=pc_pichttps://pic.sogou.com/napi v=5&eid=1951&keyword=%E5%AD%99%E5%85%81%E7%8F%A0&index=97&groupIndex=96&xurl=https://i02piccdn.sogoucdn.com 但是写了爬虫程序后,json数据爬取失败。仔细检查请求头,原来是里面加了时间戳:X-Time4p 是一个自定义的HTTP头部字段,通常用于传递与时间相关的信息。

    1K10编辑于 2024-06-23
  • 来自专栏Python 知识大全

    5分钟快速掌握 scrapy 爬虫框架

    这段时间,因为工作需要又重拾scrapy爬虫,本文和大家分享下,包你一用就会, 欢迎交流。 1.1 scrapy框架 scrapy框架包括5个主要的组件和2个中间件Hook。 ENGIINE:整个框架的控制中心, 控制整个爬虫的流程。 根据不同的条件添加不同的事件(就是用的Twisted) SCHEDULER:事件调度器 DOWNLOADER:接收爬虫请求,从网上下载数据 SPIDERS:发起爬虫请求,并解析DOWNLOADER返回的网页内容 scrapy.cfg同级别的目录执行 scrapy crawl sexy 从上可知,我们要写的是spiders里的具体的spider类和items.py和pipelines.py(对应的ITEM PIPELINES) 5. 最后总结如下: scrapy是基于事件驱动Twisted框架的爬虫框架。

    1K20发布于 2020-12-15
  • 来自专栏程序员的知识天地

    5 行代码就能入门爬虫

    入门爬虫很容易,几行代码就可以,可以说是学习 Python 最简单的途径。 下面我就以曾写过的一个爬虫为例,说一说我是如何快速入门 Python 爬虫的。 这里,以我之前写的「爬取国内所有上市公司信息」为例 为什么当时想起写这个爬虫呢,是因为这是曾经在工作中想要解决的问题,当时不会爬虫,只能用 Excel 花了数个小时才勉强地把数据爬了下来, 所以在接触到爬虫后 很多人学爬虫都是去爬网上教程中的那些网站,网站一样就算了,爬取的方法也一模一样,等于抄一遍,不是说这样无益,但是会容易导致动力不足,因为你没有带着目标去爬,只是为了学爬虫而爬,爬虫虽然是门技术活,但是如果能 所以,我在写第一遍的时候,只用了 5 行代码,就成功抓取了全部所需的信息,当时的感觉就是很爽,觉得爬虫不过如此啊,自信心爆棚。 reportTime=2017-12-31&pageNum=%s' % (str(i)))[3] 5 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_

    74330发布于 2019-05-19
  • 爬虫+动态代理助力 AI 训练数据采集

    引言近年来,AI 技术飞速发展,很多朋友都投身于 AI 模型的训练。然而,相较于模型的获取,高质量的数据往往更加难以收集。 借助其代理服务,我们可以显著提高爬虫程序的访问成功率,从而更高效地获取数据,助力 AI 模型的训练。 维基百科是 AI 领域的重要数据来源,广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。 登录以后进入控制台,点击网页抓取API,选择进入到Web爬虫库。Web爬虫库中有各种网站的丰富爬虫应用可以直接使用。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上,高质量的数据是不可或缺的

    57810编辑于 2025-03-19
  • 来自专栏ytkah

    如何屏蔽各大AI公司爬虫User Agent

    GPTBot GPTBot 是 OpenAI 使用的网络爬虫,用于下载 LLM(大型语言模型)的训练数据,为 ChatGPT 等人工智能产品提供支持。 cohere-ai 是一个未经确认的代理,可能由 Cohere 的人工智能聊天产品在需要检索互联网内容时根据用户prompts提示派遣。 1%的大站屏蔽了它 User-agent: cohere-ai Disallow: / Google-Extended Google-Extended 是谷歌用来下载人工智能训练内容的网络爬虫,用于其人工智能产品 0%的大站屏蔽了它 User-agent: FacebookBot Disallow: / anthropic-ai anthropic-ai 是一个未经证实的代理,可能是 Anthropic 用来下载 LLM(大型语言模型)训练数据的,比如AI产品Claude。

    69710编辑于 2023-12-31
  • 来自专栏CSDNToQQCode

    零基础学Python-爬虫-5、下载音频

    本套课程正式进入Python爬虫阶段,具体章节根据实际发布决定,可点击【python爬虫】分类专栏进行倒序观看 【重点提示:请勿爬取有害他人或国家利益的内容,此课程虽可爬取互联网任意内容,但无任何收益 1、查找目标位置: 播放的路径:【https://audio04.dmhmusic.com/71_53_T10049727031_128_4_1_0_sdk-cpm/cn/0208/M00/9C/D5/ xcode=986ee76b251cf5ea7c25506b1e42484eca69d0d】 查看访问路径与需要参数: 2、解析路径,获取一个音乐集合的路径: 3、解析获取id与title import sign=03f0d20475fe5fb6c669c50fb92778b5&appid=16073360&TSID=T10049727031%2CT10049726992%2CT10038911463% sign=03f0d20475fe5fb6c669c50fb92778b5&appid=16073360&TSID=T10049727031%2CT10049726992%2CT10038911463%

    41420编辑于 2022-11-28
领券