首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏算法channel

    4K美女壁纸

    4K美女壁纸 一、前言 拍了zhenguo的课程,今天继续学习课程同时,尝试使用BeautifulSoup4这个网页解析的方法图片,看完后心血来潮,想自己也试一下。 最先想到的是彼岸图网,这个网站上有很多4k壁纸,打开网页后,我选择了4k美女壁纸作为本次爬虫的目标,取到的图片截图如下: 二、过程 1.首先,我们拿到前三页的网页地址。 2.通过分析可以看出,当页面变化时,index后面会发生改变,但在第一页时并没有数字显示,所以做出以下操作,通过input获取我们想要的页数,使用if语句对index进行赋值,再传入要的网址中。 4.在网页源代码中分析得知,需要的内容在标签div class='slist'的标签中,每一个li标签下的a标签包含了要的每张图片的所有信息,所以使用find('div',class_='slist print('正在保存',picture_name+'.jpg')         time.sleep(1)     response.close() print('程序运行完毕') 四、结尾 以上是

    3.3K20编辑于 2022-06-13
  • 来自专栏终身学习流浪地

    BeautifulSoup4猫眼电影前一百

    最初学习小甲鱼的教学视频,后来在小甲鱼的论坛上发现了用bs4豆瓣前一百,当时怎么也看不懂。后来系统的学习了一下爬虫。 参考了崔大佬的爬虫之后,改编书上的例子(书上用正则法则),我这里用bs4,后文会附上正则法则解析网页。 系统流程: 1.观察页面构造--知道要提取多少页,url构造方式等 2.编写函数解析每一页--得到每一页需要的数据 3.数据清洗和保存--按一定格式存储 4.循环2-3所有的页面 用到的库: from 输入网址http://maoyan.com/board/4,然后用你们勤劳的手指,戳中F12。如下图所示。 不管图中有啥美女,我们继续我们伟大的爬虫事业。 当前大家都是互相相信的,至于我伪不伪造通行证,那必然的不然谁让你啊。 解析每一页: 当然是传入offset参数,然后用for循环调用函数,这样是不是我们也只用写一个解析一页的函数就好了。

    67420编辑于 2022-02-22
  • 来自专栏小明的博客

    壁纸

    本次爬虫主要的是4k壁纸网的美女壁纸,该网页的结构相对比较简单,这次爬虫的主要目的学会使用bs进行解析,另外是关于当的数据是非文本数据时数据的解析问题。 /pictures/' root_url = 'https://www.4kbizhi.com/meinv/' headers = { 'Connection': 'keep-alive', 获取html文件 """ response = requests.get(url, headers=headers, verify=True) print(f"开始 {url}") return response def parse_page(response): """ 提取当页中所有所需数据的存储位置以及下一网页 """ else: return img_url_dict,next_url def save(response, out_dir,img_name): """ 保存结果

    1.2K30编辑于 2022-09-06
  • 来自专栏userlyz学习记录

    肯德基

    今天晚上搞了一个作业,作业要求是肯德基的餐厅查询: 代码如下: # -*-coding=utf-8-*- # 时间:2021/3/31;20:13 # 编写人:刘钰琢 import requests

    61730编辑于 2022-08-18
  • 来自专栏机器学习原理

    爬虫篇(4)——qq音乐文件的

    前言:qq音乐文件的批量,涉及到的json对网站的解析,请求的有效伪装,字符串的操作等。 目的:想要的音乐资源,包括需要付费下载的音乐。 包括网站分析以及代码实现 网站分析 运用倒推的方法,从音乐文件的网址出发,找到对应文件的参数 1.音乐文件网址 http://dl.stream.qqmusic.qq.com/C400003KExF60zMMGK.m4a guid=9602668140&uin=0&fromtag=66 分析播放歌曲链接: 只有下列参数不同 1.文件名 C400003KExF60zMMGK.m4a 1480619034 disstid来源链接:入口链接 referer:https://y.qq.com/n/yqq/playsquare/1480619034.html 4. image.png 爬虫篇(3)——招聘网站招聘信息的 爬虫篇(2)——博客内容 爬虫篇(1)——从练习题开始

    2.3K70发布于 2018-04-28
  • 来自专栏浅枫沐雪

    bs4豆瓣top250数据

    python获取豆瓣top250电影数据 from urllib import request import re from bs4 import BeautifulSoup from distutils.filelist

    90441发布于 2020-03-10
  • 淘宝数据

    disable-blink-features=AutomationControlled') driver = webdriver.Edge(options = options) # TODO 关键词和最大页数 div.fm-btn > button").click() print("登录成功,等待主页面加载...") wait = WebDriverWait(driver, 30) # TODO 数据 # TODO 翻页 def index_page(page): print('正在第 ', page, ' 页') if page > 0: input = wait.until ))) input.clear() input.send_keys(page) submit.click() # TODO 调用数据函数 get_data() # TODO 主函数,调度翻页批量 def main(): for i in range(1, MAX_PAGE + 1): index_page

    88510编辑于 2024-10-31
  • 来自专栏睡不着所以学编程

    豆瓣电影

    嗯,今天还是挑战了电影,因为我发现从别的页面进去就不是Ajax的页面了,步骤和书单差不多hhh 由于我在一边写一遍测试,就不停的运行,后来发现运行以后没有任何结果,我就测试了一下,应该是我发请求太频繁 //div[@class='star']/span[4]/text()")[0] data.append(remark_number) # 获取电影短评 //div[@class='star']/span[4]/text()")[0] data.append(remark_number) # 获取电影短评 4.坚持不懈找能用的免费代理(白嫖的总是最香的) 5.思路最重要,每一步得到的是什么东西要搞清楚,适当写注释!!

    1K10编辑于 2022-09-20
  • 来自专栏数据结构笔记

    实战:简书之多线程(一)

    在上上篇我们编写了一个简单的程序框架来简书的文章信息,10分钟左右取了 1万 5千条数据。 2万 那么一亿五千万条数据需要 150000000 / 20000 = 10 * 7500 = 75000 min = 1250 h = 52 d w(゚Д゚)w 52天!!! ,如果按照前面的脚本来整整 52天,那时候黄花菜都凉了呀。 这些数据的时间跨度如此大,如果要做数据分析的进行对比的话就会产生较大的误差。 所以,我们必须得提高速度!!! 这时候就轮到今天得主角登场了, 噔 噔 噔 蹬------》多线程 一、多线程简介 简单来讲,多线程就相当于你原来开一个窗口,现在开了10个窗口来。 不计较数据的重复的话,现在的速度应该是之前的10倍,也就是说原来要52天才能完的数据现在只要5.2天了。

    1.1K40发布于 2018-09-28
  • 来自专栏浊酒清味

    搞笑视频

    开发者工具”获取网页的url,然后用requests.get函数获得json文件,再使用json.loads函数转换成Python对象: url = "https://www.zhihu.com/api/v4/ 对这个地址进行构造: videoUrl = "https://lens.zhihu.com/api/v4/videos/"+str(data_lens[j]) R = requests.get(videoUrl 完整版代码: from urllib import request from bs4 import BeautifulSoup import requests import re import json } for i in range(math.ceil(900/20)): try: url = "https://www.zhihu.com/api/v4/ m = m+1 except: print("此URL为外站视频,不符合规则

    1.1K20发布于 2019-11-01
  • 来自专栏python-爬虫

    Flipcart 流程

    第一步:分类url from requests_html import HTMLSession session =HTMLSession() #https://www.flipkart.com/lc res.html.xpath('//*[@id="container"]/div/div[3]/div[2]/div[1]/div[2]/div/div/div/div/div/a[1]/@href')[4:

    64920发布于 2020-06-19
  • 来自专栏Fdu弟中弟

    天气信息

    使用requests和BeautifulSoup天气信息。 这是从不倒翁问答系统的祖传代码里翻出来的,利用搜狗搜索获取天气信息,开箱即用。 from bs4 import BeautifulSoup import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0

    89620发布于 2021-02-24
  • 来自专栏花落的技术专栏

    APP数据

    准备 时间:2021/02/02 系统环境:Windows 10 所用工具:Jupyter Notebook\Python 3.0\Fiddler\雷神模拟器 涉及的库:requests

    1.4K00编辑于 2021-12-05
  • 来自专栏python3

    表情包

    *安装方法:pip install requests 2、将请求下来的数据解析出来,获取我们想要的数据,把不想要的数据抛弃掉 *Beautifulsoup:pip install bs4 *lxml:pip install lxml 3、将解析后的数据保存下来,如果是文字类型,可以保存到文件中或者数据库中或者缓存中,如果是文件类型,比如图片、视频,那么可以保存到硬盘中 4、无论你的爬虫是大还是小 #coding:utf-8 import requests import os from bs4 import BeautifulSoup import urllib import threading gLock.release() if img_url: filename = img_url.split("/")[-1]#将图片地址分割成列表,最后一项文件名 print img_url,"下载失败"#还时常出现10054错误,可能是服务器发现了爬虫强行关闭当前链接 def main(): for x in range(1,100):#

    2.1K30发布于 2020-01-17
  • 来自专栏全栈程序员必看

    Python网页_在pycharm里面如何网页

    使用Python简单数据 闲暇时间学习Python,不管以后能否使用,就算了解计算机语言知识。 一、导入网页所需的包。 from bs4 import BeautifulSoup #网页解析 import xlwt #excel import re #正则表达式 import urllib.request, if __name__ == '__main__': main() 三、接着在定义主函数main(),主函数里应包括 所需的网页地址 得到网页数据,进行解析舍 将得到的数据保存在excel (basePath) #保存数据 saveData(dataList) 四、需对网页进行数据的采集 因为使用的Pycharm软件来进行,首先需要进行下伪装,将浏览器的代理信息取出

    2.6K20编辑于 2022-11-04
  • 来自专栏算法与编程之美

    pythonmv

    引言 爬虫实践—某音乐网站的mv,通过对某音乐网站的视频的以进行实践。 本博客拟对爬虫的一个简单场景进行模拟,并对的内容以文件的形式表现出来。 第二步,在py文件中引入该库,写入目标网站的地址url及本机的cookie,user-agent 第三步,用requests库对目标网站进行访问,并将字节的方式写入一个mp4文件,并进行保存。 vodkgeyttp8.vod.126.net/cloudmusic/MCRgMDE0MCMxITIxJDA1Ig==/mv/394037/f77060af07a7d0ad7d3ce9972f99356c.mp4? wsSecret=c6af5b9bddc4dc566d29762c7715f87b&wsTime=1647611684" headers_ = { "cookie": "_iuqxldmzr qddaz=QD.151735248434161; WNMCID=oidncr.1644244734681.01.0; WEVNSM=1.0.0; MUSIC_U=7e79c92b49e7b3f23e31f4e132051116decd1f0847b6910d1b52b572e41ede74993166e004087dd3d78b6050a17a35e705925a4e6992f61dfe3f0151024f9e31

    2K30编辑于 2022-05-23
  • 来自专栏python3

    Python小说

    #-*-coding:GBK-*- #author:zwg ''' 某小说网站的免费小说 ''' import urllib import urllib2 import re url='http:/

    2.4K20发布于 2020-01-07
  • 来自专栏userlyz学习记录

    scrapy全站

    笔记 -基于Spider的全站数据 -基于网站中某一模板下的全部页码对应的页面数据进行 -需求:校花网中的照片的名称 -实现方式: -将所有的url添加到start_urls (深度) -需求:boss直聘的岗位名称,岗位描述 图片 需求:站长素材的高清图片的https://sc.chinaz.com/tupian/ 笔记 ---- 基于scrapy 框架取字符串类型的数据和图片类型的数据有什么区别 ​ 1、字符串,只需要xpath解析且提交管道进行持久化存储 ​ 2、图片:xpath解析到图片src属性值。 ImagesPipeline: ​ 只需要将img的src属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取到图片的二进制类型的数据,且话可以帮我们进行持久化存储 需求:站长素材的图片 demo #5.18这个针对于个人信息,可以利用他的搜索进行查找到每一个人对应的数据,这个将大大降低我们搜索的时间和难度;针对于他的题库类型要使用全站的这种方式进行 class DemoproSpider

    1.1K10编辑于 2022-08-18
  • 来自专栏用户5305560的专栏

    【爬虫】王者荣耀英雄高清4K图片

    skin_images/'+name+'.jpg',"wb") as laoxiao: laoxiao.write(pic) print("当前英雄"+name+" 皮肤图片成功

    66810发布于 2021-08-11
  • 来自专栏全栈程序员必看

    python论坛图片_python某网站妹子图集

    def huoquyuanma(url = ‘https://www.tujigu.com/’):

    2.2K30编辑于 2022-09-09
领券