首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AllTests软件测试

    蒲公英内测发版信息推送到钉钉群

    蒲公英内测发版信息推送到钉钉群 目录 1、前言 2、编写脚本 3、设置Jenkins 4、推送通知效果 1、前言 在项目测试阶段,每次测试的App发版后,发版信息都会发布到蒲公英上,又由于项目的人员组织架构 蒲公英发版信息: 解决思路:将脚本依托到Jenkins里,并利用Jenkins采用设定的轮询机制,蒲公英上的发版信息,并将信息发送到钉钉群。 test_AutomaticNotificationBuild.py(执行脚本) 获取配置文件信息(token、网址、密码),并进行拼接组装;之后循环蒲公英App内测版发版信息。 函数url_content(对蒲公英App内测版发版信息内容筛选) 函数requests_url(获取蒲公英App内测版发版信息内容) 数据库表AutomaticNotificationBuild_xxx 其作用为,的信息与数据库信息进行比对,一致时,说明版本未更新,不发送通知给钉钉群;不一致时,会将新的信息覆盖到表里,并同时发送通知给钉钉群。

    93120编辑于 2022-07-26
  • 来自专栏小红书采集软件

    【GUI软件】小红书蒲公英数据批量!高效筛选优质博主,助力品牌商!

    一、背景介绍 1.0 目标 ▲ 目标 众所周知,蒲公英是小红书推出的优质创作者商业合作服务平台,致力于为品牌和博主提供内容合作服务,可以高效的为品牌匹配出最符合的优质博主。 蒲公英平台,需要有一定权限的企业资质账号才能申请开通。开通之后,进入【寻找博主】页面,即可根据一定的筛选条件过滤出满足的博主列表,如下: ▲ 寻找博主页面 上面是筛选条件,下面是筛选结果。 爬虫功能分为2大类模块:第一是根据筛选条件博主列表,第二是根据取到的博主id进入详情页面详细数据,详情页如下: ▲ 某个博主的详情页面 通过分析网页接口,开发出了爬虫GUI软件,界面如下: 共取到 34个字段,字段如下: 详细演示数据:(看《蒲公英》这个sheet页) https://docs.qq.com/sheet/DVEFhZlFKR1NXVEdN? 其他个性化筛选条件,可以和我沟通定制 过程中,有log文件详细记录运行过程,方便回溯 过程中,自动保存结果到csv文件(每一条存一次,防止数据丢失) 可爬34个关键字段,含:关键词,页码,小红书昵称

    67000编辑于 2025-07-14
  • 来自专栏小明的博客

    壁纸

    本次爬虫主要的是4k壁纸网的美女壁纸,该网页的结构相对比较简单,这次爬虫的主要目的学会使用bs进行解析,另外是关于当的数据是非文本数据时数据的解析问题。 获取html文件 """ response = requests.get(url, headers=headers, verify=True) print(f"开始 {url}") return response def parse_page(response): """ 提取当页中所有所需数据的存储位置以及下一网页 """ else: return img_url_dict,next_url def save(response, out_dir,img_name): """ 保存结果

    1.2K30编辑于 2022-09-06
  • 来自专栏userlyz学习记录

    肯德基

    今天晚上搞了一个作业,作业要求是肯德基的餐厅查询: 代码如下: # -*-coding=utf-8-*- # 时间:2021/3/31;20:13 # 编写人:刘钰琢 import requests

    61730编辑于 2022-08-18
  • 来自专栏睡不着所以学编程

    豆瓣电影

    嗯,今天还是挑战了电影,因为我发现从别的页面进去就不是Ajax的页面了,步骤和书单差不多hhh 由于我在一边写一遍测试,就不停的运行,后来发现运行以后没有任何结果,我就测试了一下,应该是我发请求太频繁

    1K10编辑于 2022-09-20
  • 淘宝数据

    disable-blink-features=AutomationControlled') driver = webdriver.Edge(options = options) # TODO 关键词和最大页数 div.fm-btn > button").click() print("登录成功,等待主页面加载...") wait = WebDriverWait(driver, 30) # TODO 数据 # TODO 翻页 def index_page(page): print('正在第 ', page, ' 页') if page > 0: input = wait.until ))) input.clear() input.send_keys(page) submit.click() # TODO 调用数据函数 get_data() # TODO 主函数,调度翻页批量 def main(): for i in range(1, MAX_PAGE + 1): index_page

    88010编辑于 2024-10-31
  • 来自专栏数据结构笔记

    实战:简书之多线程(一)

    在上上篇我们编写了一个简单的程序框架来简书的文章信息,10分钟左右取了 1万 5千条数据。 2万 那么一亿五千万条数据需要 150000000 / 20000 = 10 * 7500 = 75000 min = 1250 h = 52 d w(゚Д゚)w 52天!!! ,如果按照前面的脚本来整整 52天,那时候黄花菜都凉了呀。 这些数据的时间跨度如此大,如果要做数据分析的进行对比的话就会产生较大的误差。 所以,我们必须得提高速度!!! 这时候就轮到今天得主角登场了, 噔 噔 噔 蹬------》多线程 一、多线程简介 简单来讲,多线程就相当于你原来开一个窗口,现在开了10个窗口来。 不计较数据的重复的话,现在的速度应该是之前的10倍,也就是说原来要52天才能完的数据现在只要5.2天了。

    1.1K40发布于 2018-09-28
  • 来自专栏Fdu弟中弟

    天气信息

    使用requests和BeautifulSoup天气信息。 这是从不倒翁问答系统的祖传代码里翻出来的,利用搜狗搜索获取天气信息,开箱即用。

    89620发布于 2021-02-24
  • 来自专栏python3

    表情包

    gLock.release() if img_url: filename = img_url.split("/")[-1]#将图片地址分割成列表,最后一项文件名 print img_url,"下载失败"#还时常出现10054错误,可能是服务器发现了爬虫强行关闭当前链接 def main(): for x in range(1,100):#

    2.1K30发布于 2020-01-17
  • 来自专栏花落的技术专栏

    APP数据

    准备 时间:2021/02/02 系统环境:Windows 10 所用工具:Jupyter Notebook\Python 3.0\Fiddler\雷神模拟器 涉及的库:requests

    1.4K00编辑于 2021-12-05
  • 来自专栏浊酒清味

    搞笑视频

    m = m+1 except: print("此URL为外站视频,不符合规则

    1.1K20发布于 2019-11-01
  • 来自专栏python-爬虫

    Flipcart 流程

    第一步:分类url from requests_html import HTMLSession session =HTMLSession() #https://www.flipkart.com/lc

    64920发布于 2020-06-19
  • 来自专栏全栈程序员必看

    Python网页_在pycharm里面如何网页

    使用Python简单数据 闲暇时间学习Python,不管以后能否使用,就算了解计算机语言知识。 一、导入网页所需的包。 if __name__ == '__main__': main() 三、接着在定义主函数main(),主函数里应包括 所需的网页地址 得到网页数据,进行解析舍 将得到的数据保存在excel 中 def main(): #指定所需网页路径 basePath = "https://www.duquanben.com/" #获取路径 dataList = getData (basePath) #保存数据 saveData(dataList) 四、需对网页进行数据的采集 因为使用的Pycharm软件来进行,首先需要进行下伪装,将浏览器的代理信息取出

    2.6K20编辑于 2022-11-04
  • 来自专栏算法与编程之美

    pythonmv

    引言 爬虫实践—某音乐网站的mv,通过对某音乐网站的视频的以进行实践。 本博客拟对爬虫的一个简单场景进行模拟,并对的内容以文件的形式表现出来。

    2K30编辑于 2022-05-23
  • 来自专栏python3

    Python小说

    #-*-coding:GBK-*- #author:zwg ''' 某小说网站的免费小说 ''' import urllib import urllib2 import re url='http:/

    2.3K20发布于 2020-01-07
  • 来自专栏userlyz学习记录

    scrapy全站

    笔记 -基于Spider的全站数据 -基于网站中某一模板下的全部页码对应的页面数据进行 -需求:校花网中的照片的名称 -实现方式: -将所有的url添加到start_urls (深度) -需求:boss直聘的岗位名称,岗位描述 图片 需求:站长素材的高清图片的https://sc.chinaz.com/tupian/ 笔记 ---- 基于scrapy 框架取字符串类型的数据和图片类型的数据有什么区别 ​ 1、字符串,只需要xpath解析且提交管道进行持久化存储 ​ 2、图片:xpath解析到图片src属性值。 ImagesPipeline: ​ 只需要将img的src属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取到图片的二进制类型的数据,且话可以帮我们进行持久化存储 需求:站长素材的图片 demo #5.18这个针对于个人信息,可以利用他的搜索进行查找到每一个人对应的数据,这个将大大降低我们搜索的时间和难度;针对于他的题库类型要使用全站的这种方式进行 class DemoproSpider

    1.1K10编辑于 2022-08-18
  • 来自专栏全栈程序员必看

    python论坛图片_python某网站妹子图集

    def huoquyuanma(url = ‘https://www.tujigu.com/’):

    2.2K30编辑于 2022-09-09
  • 来自专栏技术开源分享

    1、苏宁百万级商品 思路讲解 类别

    通过图可知,总共有N个类别,每个类别都是一个DIV区块,然后再继续分解DIV区块分析内容。我们要得到的是类别表,据图所示我们可以分析得出类别表的结构应当树形的。所以涉及的表应该是包含子节点和父节点的。初步设计图如下

    80730发布于 2018-10-31
  • 来自专栏python全栈教程专栏

    九行代码带你任何你想要的图片

    首先,我们直接用的是icrawler这个的模块,简直是太方便了,用不着再去分析网页,用不着再去写正则。。都不用,一个循环遍历就行,模块给我们封装好了。 列表的话,我们可以任意添加多少,添加你任何想要的图片。举个例子,我想要张杰,林俊杰,周杰伦他们的图片,那我们就在列表里面分别添加这三个人的,注意分开哈,看我代码,我是分开了的。 (偷偷说一下,想要美女帅哥图片,可以直接列表中装个’美女’,‘帅哥’,哈哈) 第二步:遍历这个列表,然后在下面顶一个我们要保存的路径,我是装在一个photo的文件夹,不用自己建立文件夹,就在代码里面把定义好自己的文件夹名字 最后一步就是根据关键字和图片数量进行开始。 这是不是很好学的一个爬虫技巧? from icrawler.builtin import BingImageCrawler # from icrawler.builtin import GoogleImageCrawler #需要的关键字

    99120发布于 2021-10-18
  • 来自专栏技术开源分享

    3.3、苏宁百万级商品 代码讲解 商品

    对上述内容我们又几个地方需要注意,我们依次说明 第一点 数量量大 类别大致有4000多个,每个类别页数各不相同(一页60个商品是固定的),这么多的商品数据,如果我们还是采用同步方法依次执行的话,效率势必大打折扣,所需花费的时间也很长 我们的是相同的商品数据,只是内容不同。所以很自然的我们想到了分表。我们既然分表了,那么势必涉及到以后的查询,查询我们以后使用的是Lucene,自己建立一个简答的搜索引擎。 我假设这个编码是一个自增的数字,那么我就可以使用百分余的方法确定这个商品应该放在哪个表中。这是什么意思呢。 自增数字的余意思就是。

    73530发布于 2018-10-31
领券