首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏建帅技术分享

    parsel使用

    一、parsel使用 parsel这个可以解析HTML和XML,并支持使用Xpath和CSS选择器对内容进行提取和修改,同时还融合了正则表达式的提取功能。 parsel灵活且强大,同时也是python最流行的爬虫框架Scrapy的底层支持 # coding=utf-8 """ 作者:gaojs 功能: 新增功能: 日期:2022 /3/25 19:35 """ import os.path import requests import parsel def get_address(): """ 获取url地址 requests.get(url, headers=headers) res.encoding = res.apparent_encoding selector = parsel.Selector requests.get(list_url, headers=headers) # print(res1.text) selector1 = parsel.Selector

    82120编辑于 2022-08-24
  • 来自专栏云原生生态圈

    Python原来如此美丽|Request & Parsel

    学习Python的Request与Parsel模块今天分享一个爬取代理节点的小脚本,我们在使用爬虫的时候,可以通过设置一些代理避免(或者尽可能避免)我们的服务器IP被封掉,可是这些代理从哪里来呢? date: 2020-02-20 Change Activity: 2020-02-20 IDE: PyCharm """ import requests,parsel return content.text def GetElementSelectorObj(htmlData, extractRule,isSelector): htmlData = parsel.Selector 是不是看着很简单,但是对于小白来说,知识点还是不少的,简单的总结一下: 温习了一下代理基本原理和requests包proxy的使用方法 学习了一下Parsel如何通过XPATH获取HTML元素 得到一个免费代理服务地址的网站

    34730发布于 2021-11-15
  • 来自专栏爬虫

    爬取美国公司案例-parsel教学篇(Xpath的详细使用)

    @TOC 前言 本文分享一个爬虫案例,通过使用parsel中的xpath来爬取美国排名前一百名的公司,来详细解释下Xpath的使用。 导航 爬取小说案例-BeautifulSoup教学篇 爬取二手房案例--parsel教学篇(CSS选择器) 爬取美国公司案例-parsel教学篇(Xpath的详细使用) 爬取东方财富网-parsel 教学篇(正则表达式的详细使用+实例) 爬取QQ音乐的评论-JSON的详细使用 Xpath的使用 Xpath的介绍 XPath 是一门在 XML /HTML文档中查找信息的语言。 完整源码 import requests # 数据请求 import parsel # 数据解析 # 目标网站 url='https://companiesmarketcap.com/' # 请求体 537.36 Edg/126.0.0.0' } # 响应数据 response = requests.get(url=url, headers=headers) # 实例化对象 selector = parsel.Selector

    38710编辑于 2025-01-16
  • 来自专栏python-爬虫

    python爬虫网页解析之parsel模块

    08.06自我总结 python爬虫网页解析之parsel模块 一.parsel模块安装 官网链接https://pypi.org/project/parsel/1.0.2/ pip install parsel ==1.0.2 二.模块作用 改模块主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配 三.使用 import requests import parsel response = requests.get(url) sel = parsel.Selector(response.text) #注意这里的S要大写 # re正则 # print(sel.re('正则匹配格式')

    3.5K20发布于 2019-09-11
  • 来自专栏mysql

    hhdb数据介绍(9-9)

    :192.168.210.137:3311双主备:192.168.210.137:3310 从2:192.168.210.137:3312从3:192.168.210.137:3313从优先级: 和dn_02的双主备,dn_01从1和dn_02备的general.log如下:从不可用从机读取优先级的值为1时,当从不可用时,会根据异常处理策略设置的值匹配对应结果,以上述自动分片表rw_b_yds 不可用 读dn_01主库,dn_02备 只有dn_02备不可用 读dn_01从1,dn_02主库 dn_01从1和dn_02的备都不可用读dn_01和dn_ _01从1,dn_02主库 dn_01的从1和从2都不可用 读dn_01从3,dn_02备 dn_01所有从和dn_02的备都不可用读dn_01和dn_02主库 4.异常处理策略配置为读其他可用从机 dn_01从3,dn_02备复制延迟大于配置值从复制延迟大于配置时,跟上述中从不可用的匹配结果一致,此处不再赘述从数量小于从机读取优先级的值根据异常处理策略设置的值输出对应结果,以上述自动分片表

    24110编辑于 2024-11-29
  • 来自专栏CSDN搜“看,未来”

    缩略muduo9):TcpServer

    准备讲解了,这里就直接放代码吧。 #pragma once #include "EventLoop.hpp" #include "Accept.hpp" #include "EventLoopThreadPool.hpp" #include "InetAddr.hpp" #include "nocopyable.hpp" #include "callback.hpp" #include <string> #include <functional> #include <atomic> #include <

    49120发布于 2021-10-09
  • 来自专栏爬虫资料

    Parsel vs BeautifulSoup:从性能到用法的全方位对决

    摘要本文对比了 Parsel 与 BeautifulSoup 两种常用 Python HTML 解析在性能、用法、易用性和生态上的差异。 全文分为四大模块:核心主题:解析选型要点多分支技术路线:Parsel 与 BeautifulSoup 用法与性能对比图谱展示:思维导图一览路线建议:基于项目需求的选型指引核心主题项目背景:在爬取 eastmoney.com Parsel 路线Parsel 基于 lxml,支持 XPath 与 CSS Selector,适合对性能要求较高且习惯使用 XPath 的场景。 混合使用:在同一项目中,针对简单列表页用 BS4,针对复杂嵌套与深度解析用 Parsel。 ,相信您能根据项目需求,在 Parsel 和 BeautifulSoup 之间做出最适合的选型。

    38610编辑于 2025-05-13
  • 来自专栏python库介绍

    Python介绍9 访问数组

    print(a[-1],a[-2],a[-3],a[-4],a[-5],a[-6])

    33610编辑于 2024-05-12
  • 来自专栏烂笔头

    Python标准笔记(9) — functools模块

    目录[-] functools 作用于函数的函数 functools 模块提供用于调整或扩展函数和其他可调用对象的工具,而无需完全重写它们。 装饰器 partial 类是 functools 模块提供的主要工具, 它可以用来“包装”一个可调用的对象的默认参数。它产生的对象本身是可调用的,可以看作是原生函数。它所有的参数都与原来的相同,并且可以使用额外的位置参数或命名参数来调用。使用 partial 代替 lambda 来为函数提供默认参数,同时保留那些未指定的参数。 Partial 对象 下面列子

    1.1K30发布于 2018-06-20
  • 来自专栏Go每日一库

    Go每日一9:log

    虽然有时可以用fmt输出一些信息,但是灵活性不够。Go 标准提供了一个日志log。本文介绍log的使用。 快速使用 log是 Go 标准提供的,不需要另外安装。 log还定义了一个Lstdflag,为Ldate | Ltime,这就是我们默认的选项。 自定义 实际上,log为我们定义了一个默认的Logger,名为std,意为标准日志。 总结 log实现了一个小巧的日志,可供简单使用。本文介绍了它的基本使用,简单地分析了一下源码。 如果log的功能不能满足需求,我们可以在它之上做二次封装。看煎鱼大佬的这篇文章。 除此之外,社区也涌现了很多优秀的、功能丰富的日志,可以选用。 参考 log官方文档

    54130编辑于 2023-09-15
  • 来自专栏莫浅子的学习笔记

    数据-MySQL基础(9)-多表关系

    目录 概述 1、一对多 2、多对多 3、一对一 多表查询概述 多表查询分类 1、连接查询 2、子查询 ---- 概述 项目开发中,在进行数据表结构关系设计时,会根据业务需求及业务模块之间的关系,分析设计表结构

    1.4K20编辑于 2022-11-18
  • 来自专栏mysql

    hhdb数据介绍(9-4)

    另一类是关系集群数据可视化管理平台用户,用于管理配置信息。此章节将着重介绍计算节点用户相关内容。 基础权限 计算节点数据用户必须被赋予逻辑的权限,才能访问逻辑。 权限范围分为全局权限、逻辑权限及表权限: 全局权限:拥有全局权限的user对所有逻辑下的所有对象都拥有指定的权限。 逻辑权限:拥有逻辑权限的user对该逻辑下的所有对象拥有指定权限。 表权限:表权限又分为表允许权限和表拒绝权限。 *:某下的所有表,db_name为逻辑名; *.tbl_name:所有下的某张表,tbl_name为表名; db_name.tbl_name:某下的某表; where_condition用于控制用户可以访问的行数据条件 select hex(aes_encrypt('SDcrtest',unhex(md5('Hotpu@2013#shanghai#2017'))))查询到keyStorePass值,然后填写C43BD9DDE9C908FEE7683AED7A301E33

    35510编辑于 2025-03-10
  • 来自专栏mysql

    hhdb数据介绍(9-15)

    SQL语法支持 DML语句 在关系集群数据中,DML语句的逻辑将变的更为复杂。计算节点将DML语句分为两大类:单DML语句与跨DML语句。 在使用计算节点的时候,尽量使用单的DML语句。 上面的例子,描述的仅仅是简单单表的SELECT单与跨查询。 对于子查询语句,需要查询多个数据节点的数据时,称之为跨子查询;只需要单个数据节点的数据时,称之为单子查询。 计算节点对单JOIN的查询支持功能,与单SELECT语句支持功能一样。 当设置参数0时,只允许删除空,若中有表则删除失败。 且同时开启回收站功能,删除中表后再删除时提示: 设置enableDropDatabase=1,中有表或开启回收站后删除表,均可以成功删除: TRUNCATE与RENAME语句 存储节点语句类型

    61010编辑于 2025-03-26
  • 来自专栏mysql

    hhdb数据介绍(9-5)

    使用mysqlbinlog连接远程实例获取binlog文件并解析出其中的SQL语句,然后交由计算节点执行,从而将某个数据的增量数据导入到计算节点某个逻辑下。 dbremapping @@add@期望被导入的数据名:逻辑名 然后使用mysqlbinlog语句执行选中部分的binlog中SQL语句,要求使用如下语法与参数: mysqlbinlog -R -h 例如希望将192.168.200.77:3306中的物理db01导入计算节点192.168.210.30中的逻辑logicdb01: 1.先至192.168.210.30登入到管理端口3325,执行 场景描述:希望将源端192.168.210.45:3309(该实例为有生产数据的普通存储节点)中的物理db01导入计算节点192.168.210.32中的逻辑logicdb01,参考步骤如下: 1. 若源端数据名与计算节点的逻辑名不相同,则需要在管理端口先添加数据映射关系,例如: dbremapping @@add@db01:logicdb01 然后到计算节点(192.168.210.32)所在服务器上执行如下命令

    27610编辑于 2025-03-26
  • 来自专栏mysql

    hhdb数据介绍(9-7)

    29.344 INFO [HeartbeatTimer] (BackendDataNode.java:405) -found candidate backup for datanode 5 :[id:9, :57:29.344 INFO [pool-1-thread-1020] (CheckSlaveHandler.java:241) -slave_sql_running is Yes in :[id:9, 15:57:29.424 WARN [pool-1-thread-1066] (BackendDataNode.java:847) -datanode 5 switch datasource 5 to 9 eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000link/ether 18:a9: 192.168.200.255 scope global eth0inet 192.168.200.140/24 scope global secondary eth0:1inet6 fe80::1aa9:

    28010编辑于 2024-11-28
  • 来自专栏mysql

    hhdb数据介绍(9-29)

    是 参数说明 sql执行超时时间(秒) 默认值 3600 最小值 1 最大值 28800 Reload是否生效 是 参数作用: 计算节点从往存储节点发送SQL到接收完SQL执行结果的最大时间(包括单和跨 若设置为0,程序异常退出不会持久化,若配置的值大于0,则可以定时持久化到数据,重启也能累计。 在客户端执行SQL语句,会把相关命令统计在配置中。当设置为0时,则不统计到配置。 | 5 | master | | 600004 | write | | 600007 | write | | 600013 | write | +--------+--------+ 9 ,其他关联从是否同步CHANGE MASTER到接管服务的新主库 默认值 1 Reload是否生效 是 参数设置: <property name="switchSlaveMasterInFailover -- 控制当前主库切换至其他可用从<em>库</em>时,其他关联从<em>库</em>是否同步CHANGE MASTER到接管服务的新主库 --> 参数作用: 参数开启时,发生故障或切换的存储节点对象如果有级联从<em>库</em>,就将级联从<em>库</em>change

    32110编辑于 2025-03-19
  • 来自专栏mysql

    hhdb数据介绍(10-9)

    存储节点下的物理即database存储节点_类型: 存储节点在数据节点下的角色;有主库、从、双主备、MGR存储节点_状态: 存储节点是否可用;状态包含可用、不可用两种。 参数说明:组名:输入存储节点组命名连接用户:有权限访问该物理的用户名连接用户密码:有权限访问该物理的用户密码物理名称:存储节点中可引用的数据名称,例如“db01”备份用户:(选填)用于备份该物理的用户名备份用户密码 :(选填)用于备份该物理的用户密码字符集:被连接的物理字符集,默认utf8mb4最大连接数:物理最大连接数,默认4200初始连接数:物理初始连接数,默认32最大空闲连接数:物理最大空闲连接数, 当主库、从GTID不一致,但主库、从UUID一致且主库GTID比从多,可直接搭建复制。当主库、从GTID不一致且从GTID比主库多,会给出错误提醒,并给出确认按钮提示是否需要导出导入数据。 不显示其他说明若是双主带从的数据节点进行主从搭建,如未给从执行备为主,则默认从的master都为主库。

    56210编辑于 2024-12-05
  • 来自专栏mysql

    hhdb数据介绍(9-21)

    ."','"..math.random(1,9).."','"..math.random(1949,2013).."-0"..math.random(1,9).. .."','"..math.random(1,100).."','"..math.random(1,9).."','"..math.random(1,9).."')") -----------------+---------------+ | 10-10 | 0 | ,0:1,1:1,2:1,3:1,4:1,5:0,6:0,7:1,8:1,9: 若使用MGR配置,则需要设置为对应MGR配置的信息且保证MGR配置实例的复制关系正常,且互为MGR,当主配置发生故障时会自动切换到新的主配置。MGR配置最多支持3个。 以下四个场景举例说明: 数据准备: 开启XA 逻辑A,默认节点为1,2;逻辑B,默认节点为2,3,4 逻辑A创建表a;逻辑B创建表b;两张表的表结构一致 表a中插入1000条数据;表b无数据 场景一

    36310编辑于 2025-03-10
  • 来自专栏mysql

    hhdb数据介绍(9-3)

    例如:A逻辑包含1,2两个节点,B逻辑包含3,4两个节点。 如果1、2节点不可用,3、4节点可用,则计算节点可以启动,B逻辑下的表可以正常操作,A逻辑下的表无法进行读写;如果1、3节点不可用,则计算节点无法启动。 如果主库无法连接,从可连接,则会发生切换,将主库置为不可用,并且使用从。如果主库可以连接,从无法连接,则使用主库,从会置为不可用。如果主从数据均无法连接,则该节点不可用。 2.主库配置不可用,从配置可用 如果从可以连接,则使用从,此节点可用。如果从无法连接,则该节点不可用 3.主库配置可用,从配置不可用 如果主库可以连接,则使用主库,此节点可用。 普通模式下(含灾备模式的中心机房)只读计算节点默认读优先级最高的从,优先级最高的从不可用或从复制延迟大于maxLatencyForReadOnly的值时,读次优先级的从,从都不可用则读主库 灾备模式的灾备机房只读计算节点读灾备机房的主库

    38810编辑于 2024-11-28
  • 来自专栏mysql

    hhdb数据介绍(9-6)

    主从数据一致性检查,可校验主库与从各个表的表结构是否相同,表数据是否一致,主从是否延迟。当表数据在主库与从间仅有少量的数据不一致时,主从数据一致性检查可定位到不一致的数据行主键值。 表结构如下: db:逻辑名称。 table:表名称。 数据强一致性(XA事务) 在关系集群数据系统中,数据被拆分后,同一个事务可能会操作多个数据节点,产生跨事务。 原主库恢复正常后,对比原主库的binlog位置,检测原从(现主库)是否存在切换前没有获取到的事务,若存在,开启此参数则自动重置主从复制关系。 注意 检测是否有未接收的事务的前提是主从都需要开启GTID,否则此参数开启时,故障切换完成会自动重置主从复制关系。

    50910编辑于 2025-03-18
领券