首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 淘宝数据

    disable-blink-features=AutomationControlled') driver = webdriver.Edge(options = options) # TODO 关键词和最大页数 > div.fm-btn > button").click() print("登录成功,等待主页面加载...") wait = WebDriverWait(driver, 30) # TODO 数据 # TODO 翻页 def index_page(page): print('正在第 ', page, ' 页') if page > 0: input = wait.until button.next-btn.next-medium.next-btn-normal.next-pagination-jump-go'))) input.clear() input.send_keys(page) submit.click() # TODO 调用数据函数 get_data() # TODO 主函数,调度翻页批量 def main(): for i in range(1, MAX_PAGE + 1): index_page

    82710编辑于 2024-10-31
  • 来自专栏花落的技术专栏

    APP数据

    准备 时间:2021/02/02 系统环境:Windows 10 所用工具:Jupyter Notebook\Python 3.0\Fiddler\雷神模拟器 涉及的库:requests \json 获取基础数据 小提示undefined ①模拟器不要用Android 7.0以上的内核,可能会导致抓包失败。 undefined 参考资料 使用fiddler+模拟器进行APP抓包 获取url 蛋肥想法: 原本计划是利用Fiddler+雷神模拟器去完成数据抓包,找到数据的url规律,但实际操作发现,url里带

    1.4K00编辑于 2021-12-05
  • 来自专栏人邮电数据采集与预处理

    项目二 数据

    介绍 该文章包含urllib、xpath北京公交线路信息、selenium 淘宝网站信息、scrapy 北京公交信息 北京公交线路信息 注意事项:网络爬虫需要确保网络稳定,不建议使用校园网 ,且本文速度较慢,请耐心等待,若追求速度可使用多线程 本文章北京公交线路信息有两种方法实现(课本使用urllib) 一种是通过urllib,该方法主要实现于将数据取下来,保存在txt 文件中 一种是通过xpath,具体参考以下文章(该文包括txt文本转换为csv文件,以及将文本文件加载到数据库中的实现过程) urllib import csv import time import ') # 输出当前进度 urllib结果输出(共计720+条数据) 此处展示结尾部分数据过程中出现urllib.error.HTTPError: HTTP Error 503: Backend 实在解决不了,可通过本站联系我获取完整数据

    63532编辑于 2024-10-10
  • 来自专栏杂七杂八

    Scrapy数据初识

    Scrapy数据初识 初窥Scrapy Scrapy是一个为了网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 基本步骤 选择一个网站 定义您想抓取的数据 编写提取数据的Spider 执行spider,获取数据 查看提取到的数据 安装 控制台执行命令pip install Scrapy,如果执行过程中出现building'twisted.test.raiser “下一页”的链接,这些东西会被传回Scheduler;另一种是需要保存的数据,它们则被送到Item Pipeline那里,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。 位于引擎和抓取器之间的一个钩子,处理抓取器的输入和输出 (在spiders产生的Items到达Item Pipeline之前做一些预处理或response到达spider之前做一些处理) 一个小例子 创建项目 在开始取之前 image.png 定义Item Item 是保存取到的数据的容器;其使用方法和python字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。

    2K60发布于 2018-04-27
  • 来自专栏Dimples开发记

    数据-urllib库

    常见到的方法 requset.urlopen(url,data,timeout) 第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。 Post 请求 我们说了Request请求对象的里有data参数,它就是用在POST里的,我们要传送的数据就是这个参数data,data是一个字典,里面要匹配键值对 发送请求/响应header头的含义: 名称 含义 Accept 告诉服务器,客户端支持的数据类型 Accept-Charset 告诉服务器,客户端采用的编码 Accept-Encoding 告诉服务器,客户机支持的数据压缩格式 Accept-Language 服务器通过这个头,告诉浏览器数据采用的压缩格式 Content-Length 服务器通过这个头,告诉浏览器回送数据的长度 # 6. Ajax的请求获取数据 有些网页内容使用AJAX加载,而AJAX一般返回的是JSON,直接对AJAX地址进行post或get,就返回JSON数据了 # 8.

    76410编辑于 2022-12-21
  • 来自专栏测试开发架构之路

    数据入门指南

    那么,如何获取这些数据呢?写段简单的数据的代码就是最好的获取工具。本文以2014年的巴西世界杯球员为基础进行实践操作; 一、什么是数据? ; 还有就是根据自己的兴趣爱好通过一些数据做一些分析等(统计一本书/一部电影的好评度),这就需要已有网页的数据了,然后通过获取的数据做一些具体的分析/统计工作等。 .主要函数有数据库连接、获取数据库的所有表、执行sql并提交、关闭数据库连接等 2.数据并存储 1.通过requests.get()获取response对象; 2.bs4.BeautifulSoup response.raise_for_status() res = response.content soup = bs(res, 'html.parser') return soup -- 数据插入到 (2)Crawley: 高速对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等   (3)Portia:可视化网页内容   (4)newspaper:提取新闻、文章以及内容分析

    2.5K31发布于 2018-07-04
  • 来自专栏Kirin博客

    恩芝数据

    今天闲着无聊的时候逛qq群,看到有个教python的qq群里有个老师在这个网站http://www.endata.com.cn 看到是请求数据后返回的是json数据,比用xpath解析简单多了,于是乎 ,!!! ’50’, ‘typeId’: ‘0’, ‘year’: ‘0’, # ‘initial’: , ‘pageIndex’: f'{page}’, # ajax 通过post表单改变来提交获取数据 Exception as e: print(‘出错了’,e) # 异常捕捉 continue if __name__ == ‘__main__’: main(100) # 调用函数 里面填写的数值为需要的页数 1页十条数据 files = open(path,“w”) files.write(codecs.BOM_UTF8) files.write(“,”.join

    1K20发布于 2020-05-09
  • 来自专栏Python乱炖

    聊聊逆向数据

    买股票基金靠的不只有命运和运气,更多靠的是长期的经验和对股票基金数据的分析,今天我们使用scrapy框架来js逆向某证信数据平台的国内指数成分股行情数据。 mcode后面就英文状态的:,这时就只剩下第一个js了,双击该js文件,如下图所示: 在该js文件中,我们搜索mcode,返回的结果有75个那么多,该怎么办呢,这时我们发现在mcode上面一部分与我们要的 运行结果如下图所示: 好了,mcode参数成功获取下来了,接下来将正式编写代码来国内指数成分股行情数据。 > 其中,我们的Scrapy项目名为Shares,爬虫名字为:shares,允许的域名为:网站域名(xxx.xxx.cn)。 itmes.py文件 在获取数据前,我们先在items.py文件中,定义数据的字段,具体代码如下所示: import scrapy class SharesItem(scrapy.Item):

    1.5K21发布于 2021-11-16
  • 来自专栏python3

    通过python数据

    目标地址:xxxx 技术选型:python 软件包管理工具:pipenv 编辑器:jupyter 分析目标地址: gplId表示项目ID,可变参数 结果收集方式: 数据库 代码实现 导入相关模块 from 8'             return response.text         return None     except RequestException:         print('失败 remark varchar(50),' \     'PRIMARY KEY (serial_number))'     cursor.execute(sql)     conn.close() # 存储到数据库 from sqlalchemy import create_engine # 存储到数据库 def write_to_sql(tbl, db = 'miao_mu_data'):     engine

    1K10发布于 2020-01-10
  • 来自专栏Python乱炖

    聊聊某团数据

    正所谓:民以食为先,食以安为先,今天我们来某团的美食店家数据,看看有什么好吃的,有哪些优惠套餐。 前分析 URL请求参数 首先进入美团并打开开发者工具,如下图所示: 可以发现商店数据保存在上图中的红框3中的URL链接,那么我们看看该URL长什么样: https://fs.meituan.com/ 好了,token参数加密已经成功通过我们的投机取巧破解出来了,接下来我们正式某团商店的数据了。 保存数据 在上一步我们成功获取到数据了,接下来我们将获取到的数据保存在MySQL数据库中,主要代码如下所示: def saving_data(data): # 连接数据库 db = pymysql.connect 接下来将编写启动爬虫代码,代码如下所示: if __name__ == '__main__': for i in range(1,10): get_data(i) 结果展示 好了,某团商店数据就讲到这里了

    1.2K30编辑于 2022-01-05
  • 来自专栏北山啦的博客

    使用xpath数据

    使用xpath来提取数据数据的简单语法。 下载模块 快速下载模块 pip install lxml 导入模块 from lxml import etree 利用xpath获取text或者href内容 /li/a/@href 这样的应该是href

    91930编辑于 2022-11-27
  • 来自专栏练手小项目

    批量淘宝数据

    简介此代码主要批量淘宝IPad搜索页的商品图片网址,商品名称,商品价格,购买人数,商品店铺,店铺地址等数据获取相关参数打开搜索IPad页面并登录:https://s.taobao.com/search = eE(em.token + "&" + eC + "&" + eS + "&" + ep.data)处打上断点,然后点击搜索网页下一页cookie:cookie点击网络,然后刷新页面,搜索相关页面数据找到相应的数据包点击进去就能找到相关请求头里面的 cookie代码"""TODO @Time: 2024.11.13 10:05TODO @Description: TODO 批量淘宝IPad搜索页的商品图片网址,商品名称,商品价格, bc_offset, nt_offset"""第一页参数"""totalResults = 4800sourceS = '0'bc_offset = '""'nt_offset = '""'"""翻页 totalResults, sourceS, bc_offset, nt_offset = GetContent(page, totalResults, sourceS, bc_offset, nt_offset)数据

    89411编辑于 2024-11-15
  • 来自专栏Lansonli技术博客

    Python 代理网站数据

    代理IP通过https://www.kuaidaili.com/free/ 获取,我使用的的是http 协议的代理。根据自己需求选择http或者https 协议的页面。

    97710发布于 2021-10-09
  • 来自专栏数据科学CLUB

    肺炎病毒疫情数据

    目标网站如何抓取包含所有疫情信息的API数据需要导入的包获得各个国家疫情信息获取各个省市疫情情况获取相应的地级市疫情情况数据保存结果展示完整代码 目标网站 腾讯新闻提供的疫情实时追踪网站https: 在这里插入图片描述 按类型进行排序,找到json格式的文件,网站从服务器获取数据的方法为get,从而锁定了三个请求: ? 在这里插入图片描述 在消息头中找到相应的请求网址进行排查,从而顺利找到数据接口: https://view.inews.qq.com/g2/getOnsInfo? name=disease_h5 数据 需要导入的包 import pandas as pd import requests import json 网站将所有信息以json的格式存在data这个变量中 湖北 0 2020-02-06 15:04:04 4 荆州 801 10 18 湖北 0 2020-02-06 15:04:04 数据保存

    1.5K10发布于 2020-06-10
  • 来自专栏python进阶学习

    python肯德基店面数据

    所以今天我们通过python大数据获取来看下,肯德基在中国门店信息,使用requests模块对肯德基官网的数据进行,基本的获取代码信息如下: #! targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text 以上就是Python爬虫如何 KFC地址的步骤,主要还加上了代理的使用,大量获取数据的情况下网站是有封ip的可能的。

    66010编辑于 2024-06-08
  • 来自专栏北山啦的博客

    利用selenium数据总结

    的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接调用浏览器,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据

    1.6K30编辑于 2022-11-27
  • 来自专栏国产程序员

    Python网页数据

    都说python网页数据方便,我们今天就来试试,python数据到底有多方便 简介 数据,基本都是通过网页的URL得到这个网页的源代码,根据源代码筛选出需要的信息 准备 IDE:PyCharm 库:requests、lxml 注: requests:获取网页源代码 lxml:得到网页源代码中的指定数据 搭建环境 这里的搭建环境,可不是搭建python的开发环境,这里的搭建环境是指,我们使用 获取指定数据 现在我们已经得到网页源码了,这时就需要用到lxml来来筛选出我们所需要的信息 这里我就以得到我博客列表为例,可以找到原网页通过F12查看XPath,如图 ?

    6.1K50发布于 2019-08-06
  • 来自专栏阿牛的牙

    简单新浪新闻数据

    # -*- coding: utf-8 -*- """ @author: sato @file: sina_spider.py @time: 2019-09-03 15:57 """ import requests import re import multiprocessing import os class Spider(object): def __init__(self): self.headers = { 'User-Agent': 'Moz

    62440编辑于 2022-09-07
  • 来自专栏Web 技术

    【scrapy】scrapy数据指南

    import requests import time class MovieSpider(Spider): # 爬虫名字 name = 'MovieSpider' # 反措施 Request(self.url + str(nextpage), headers=self.headers, callback=self.parse) 3.编写pipelines.py与mysql数据库进行连接 import pymysql class MoviePipeline(object): def __init__(self): # 连接数据库 self.conn 我们通过代码自动访问mysql数据库, 前提是你要先开启mysql连接,并在127.0.0.1下新建数据库DOUBANDB,如图所示: 如何用代码自动添加并设计Movie表结构呢: 新建conn_sql.py DATETIME DEFAULT CURRENT_TIMESTAMP COMMENT '添加时间' )""" cursor.execute(sql) db.close() 6.执行并存入

    77931编辑于 2023-10-07
  • 来自专栏自学的专栏

    selenium登录网站数据

    目标网站:古诗文网站实现目标:自动化登录网站,并指定页面的数据,并存储用到的工具:selenium、百度手写数字识别第一步:浏览网页我们发现登录目标网站只需填写用户的信息,然后填写验证码既可以登录网站 ).send_keys('你的账号')# 填写密码bro.find_element_by_id('pwd').send_keys('你的密码')登录的关键在于获取验证码,之前我有尝试过直接把验证码图片取下来 127filter_func = lambda x:0 if x<threshold else 1image = imgs.point(filter_func,'1')point函数是定义一个点函数,将点函数中的矩阵数据映射到 bro.find_element_by_id('code').send_keys(f'{V_code}')# 点击登录bro.find_element_by_id('denglu').click()图片网站登录成功第五步:网站数据这里我就不全站取了 ,有兴趣的朋友可以学习了crawlspider之后结合selenium进行全站,后续会写相关文章,我们随便定位一个选项卡图片我们取名句的第一页数据,具体代码如下,我就不过多解释了bro.find_element_by_xpath

    1.2K30编辑于 2023-05-15
领券