首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏爬虫

    美国公司案例-parsel库教学篇(Xpath的详细使用)

    @TOC 前言 本文分享一个爬虫案例,通过使用parsel库中的xpath来美国排名前一百名的公司,来详细解释下Xpath的使用。 导航 小说案例-BeautifulSoup教学篇 二手房案例--parsel教学篇(CSS选择器) 美国公司案例-parsel库教学篇(Xpath的详细使用) 东方财富网-parsel 教学篇(正则表达式的详细使用+实例) QQ音乐的评论-JSON库的详细使用 Xpath的使用 Xpath的介绍 XPath 是一门在 XML /HTML文档中查找信息的语言。 元素下的所有元素 "//div@class='ancestor'/div2":选取class为ancestor的div元素下的第二个div元素 实战应用 下面通过一个实战应用来继续熟悉下Xpath的使用:通过美国排名前一百的公司 for num in range(1,101): new_num=3*num-2 name_company=name_detail[num-1] print(f"美国公司第{num

    38610编辑于 2025-01-16
  • 来自专栏叶子陪你玩编程

    python已登记公司基本信息

    第一次尝试 爬虫虽然知道,但是都一些非常简单的,给一个网址,访问这个链接拿到网页内容,回来做个简单的处理就可以了。 本地测试先首页试试,结果连首页都获取不了,换了个方法,又取到了,等一会又不行了,网上查了一下。 本地如果还是和之前一样,肯定还是失败,注册了一个账号试了一下,果然就可以了,需要登录后查看,这种利用cookies就可以搞定了。 接下来就可以直接本地去网页了。 ? 下面就用我经常使用的看球app直播吧来试一下。 ? ? 链接显示一个固定的加一个搜索内容,还是很友好的。 取其它公司只需要改一下就可以了,获取内容到这里就完成了,后面的需要继续等对方提了。 ? (全文完)

    2K60发布于 2020-05-25
  • 来自专栏Tommonkey

    爱企查某国企控股旗下公司思路

    接到的工作内容是对某国企及其旗下控股公司进行漏洞挖掘还只要高危的,头疼。爱妻查上一查它控股四千多个公司,直接上python它吧! 首先bp抓包,分析一下数据包,看回包发现返回的数据是Unicode编码,所以思路大概有了: 把数据都取下来 Unicode解码数据 正则表达式提取所需公司名 第一步:数据 import time input_data(date): with open("result.txt", mode="a+") as fd: fd.write(date + "\n") # first_step:相关公司旗下控股公司名称 headers=header) time.sleep(0.5) input_data(respond.text) print("

    1.5K20编辑于 2023-02-27
  • 来自专栏小明的博客

    壁纸

    本次爬虫主要的是4k壁纸网的美女壁纸,该网页的结构相对比较简单,这次爬虫的主要目的学会使用bs进行解析,另外是关于当的数据是非文本数据时数据的解析问题。 获取html文件 """ response = requests.get(url, headers=headers, verify=True) print(f"开始 {url}") return response def parse_page(response): """ 提取当页中所有所需数据的存储位置以及下一网页 """ else: return img_url_dict,next_url def save(response, out_dir,img_name): """ 保存结果

    1.2K30编辑于 2022-09-06
  • 来自专栏凹凸玩数据

    6271家死亡公司数据,看十年创业公司消亡史

    昨天在【凹凸数读】发了一篇关于创业公司的文章,原文链接如下: 《风口起落的背后,是6271家创业公司的消亡》 今天我来写一写它的python版本。 前段时间老罗和王校长都成为自己的创业公司成了失信人,小五打算上IT桔子看看他们的公司。 ? 小五利用python将其中的死亡公司数据取下来,借此来观察最近十年创业公司消亡史。 获取数据 F12,Network查看异步请求XHR,翻页。 ? close','live_time','total_money','cat_name','com_prov','closure_type']) for i in range(1,2): #设置 2010 年来,历年出生及死亡的公司数量趋势如下图。 2013、2014 年是公司诞生潮,三年后,正好对应了2016、2017的一波死亡潮。在2017 年,超过 2000 家公司倒闭。 ?

    88320发布于 2019-11-28
  • 来自专栏极客猴

    6271家死亡公司数据,看十年创业公司消亡史

    前段时间老罗和王校长都成为自己的创业公司成了失信人,小五打算上IT桔子看看他们的公司。 ? 小五利用python将其中的死亡公司数据取下来,借此来观察最近十年创业公司消亡史。 获取数据 F12,Network查看异步请求XHR,翻页。 ? close','live_time','total_money','cat_name','com_prov','closure_type']) for i in range(1,2): #设置 2010 年来,历年出生及死亡的公司数量趋势如下图。 2013、2014 年是公司诞生潮,三年后,正好对应了2016、2017的一波死亡潮。在2017 年,超过 2000 家公司倒闭。 ? 比较有意思的是,这个死亡公司数据库还加了一个#上香排行榜#,排行第一的果然是大名鼎鼎的“快播”。 ? 还真是有的公司死了,(在人心里)他还活着; 有的公司活着,(在人心里)他已经死去。

    80720发布于 2019-12-10
  • 来自专栏userlyz学习记录

    肯德基

    今天晚上搞了一个作业,作业要求是肯德基的餐厅查询: 代码如下: # -*-coding=utf-8-*- # 时间:2021/3/31;20:13 # 编写人:刘钰琢 import requests

    62030编辑于 2022-08-18
  • 来自专栏数据结构笔记

    实战:简书之多线程(一)

    在上上篇我们编写了一个简单的程序框架来简书的文章信息,10分钟左右取了 1万 5千条数据。 2万 那么一亿五千万条数据需要 150000000 / 20000 = 10 * 7500 = 75000 min = 1250 h = 52 d w(゚Д゚)w 52天!!! ,如果按照前面的脚本来整整 52天,那时候黄花菜都凉了呀。 这些数据的时间跨度如此大,如果要做数据分析的进行对比的话就会产生较大的误差。 所以,我们必须得提高速度!!! 这时候就轮到今天得主角登场了, 噔 噔 噔 蹬------》多线程 一、多线程简介 简单来讲,多线程就相当于你原来开一个窗口,现在开了10个窗口来。 不计较数据的重复的话,现在的速度应该是之前的10倍,也就是说原来要52天才能完的数据现在只要5.2天了。

    1.1K40发布于 2018-09-28
  • 淘宝数据

    disable-blink-features=AutomationControlled') driver = webdriver.Edge(options = options) # TODO 关键词和最大页数 div.fm-btn > button").click() print("登录成功,等待主页面加载...") wait = WebDriverWait(driver, 30) # TODO 数据 # TODO 翻页 def index_page(page): print('正在第 ', page, ' 页') if page > 0: input = wait.until ))) input.clear() input.send_keys(page) submit.click() # TODO 调用数据函数 get_data() # TODO 主函数,调度翻页批量 def main(): for i in range(1, MAX_PAGE + 1): index_page

    91210编辑于 2024-10-31
  • 来自专栏睡不着所以学编程

    豆瓣电影

    嗯,今天还是挑战了电影,因为我发现从别的页面进去就不是Ajax的页面了,步骤和书单差不多hhh 由于我在一边写一遍测试,就不停的运行,后来发现运行以后没有任何结果,我就测试了一下,应该是我发请求太频繁

    1K10编辑于 2022-09-20
  • 来自专栏python-爬虫

    Flipcart 流程

    第一步:分类url from requests_html import HTMLSession session =HTMLSession() #https://www.flipkart.com/lc

    65120发布于 2020-06-19
  • 来自专栏浊酒清味

    搞笑视频

    m = m+1 except: print("此URL为外站视频,不符合规则

    1.1K20发布于 2019-11-01
  • 来自专栏Fdu弟中弟

    天气信息

    使用requests和BeautifulSoup天气信息。 这是从不倒翁问答系统的祖传代码里翻出来的,利用搜狗搜索获取天气信息,开箱即用。

    90420发布于 2021-02-24
  • 来自专栏python3

    表情包

    gLock.release() if img_url: filename = img_url.split("/")[-1]#将图片地址分割成列表,最后一项文件名 print img_url,"下载失败"#还时常出现10054错误,可能是服务器发现了爬虫强行关闭当前链接 def main(): for x in range(1,100):#

    2.1K30发布于 2020-01-17
  • 来自专栏花落的技术专栏

    APP数据

    准备 时间:2021/02/02 系统环境:Windows 10 所用工具:Jupyter Notebook\Python 3.0\Fiddler\雷神模拟器 涉及的库:requests

    1.4K00编辑于 2021-12-05
  • 来自专栏GitHub专栏

    5 行 Python 代码 3000+ 上市公司的信息

    基本环境配置 版本:Python3 系统:Windows 相关模块:pandas、csv 目标网站 实现代码 import pandas as pd import csv for i in range(,): # 全部页 tb = pd.read_html('http://s.askci.com/stock/a/? ,安安静静地躺在 Excel 中: 有了上面的信心后,我开始继续完善代码,因为 5 行代码太单薄,功能也太简单,大致从以下几个方面进行了完善: 增加异常处理 由于上百页的网页,中途很可能由于各种问题导致失败 增加代码灵活性 初版代码由于固定了 URL 参数,所以只能固定的内容,但是人的想法是多变的,一会儿想这个一会儿可能又需要那个,所以可以通过修改 URL 请求参数,来增加代码灵活性,从而更灵活的数据 加快爬速度 初版代码使用了最简单的单进程方式,速度比较慢,考虑到网页数量比较大,所以修改为了多进程的方式。

    95520编辑于 2022-12-06
  • 来自专栏Python研究者

    5行Python代码3000+ 上市公司的信息

    基本环境配置 版本:Python3 系统:Windows 相关模块:pandas、csv 目标网站 实现代码 import pandas as pd import csv for i in range (1,178): # 全部页 tb = pd.read_html('http://s.askci.com/stock/a/? ,安安静静地躺在 Excel 中: 有了上面的信心后,我开始继续完善代码,因为 5 行代码太单薄,功能也太简单,大致从以下几个方面进行了完善: 增加异常处理 由于上百页的网页,中途很可能由于各种问题导致失败 增加代码灵活性 初版代码由于固定了 URL 参数,所以只能固定的内容,但是人的想法是多变的,一会儿想这个一会儿可能又需要那个,所以可以通过修改 URL 请求参数,来增加代码灵活性,从而更灵活的数据 加快爬速度 初版代码使用了最简单的单进程方式,速度比较慢,考虑到网页数量比较大,所以修改为了多进程的方式。

    90110编辑于 2022-10-27
  • 来自专栏全栈程序员必看

    Python网页_在pycharm里面如何网页

    使用Python简单数据 闲暇时间学习Python,不管以后能否使用,就算了解计算机语言知识。 一、导入网页所需的包。 if __name__ == '__main__': main() 三、接着在定义主函数main(),主函数里应包括 所需的网页地址 得到网页数据,进行解析舍 将得到的数据保存在excel 中 def main(): #指定所需网页路径 basePath = "https://www.duquanben.com/" #获取路径 dataList = getData (basePath) #保存数据 saveData(dataList) 四、需对网页进行数据的采集 因为使用的Pycharm软件来进行,首先需要进行下伪装,将浏览器的代理信息取出

    2.6K20编辑于 2022-11-04
  • 来自专栏python3

    Python小说

    #-*-coding:GBK-*- #author:zwg ''' 某小说网站的免费小说 ''' import urllib import urllib2 import re url='http:/

    2.4K20发布于 2020-01-07
  • 来自专栏算法与编程之美

    pythonmv

    引言 爬虫实践—某音乐网站的mv,通过对某音乐网站的视频的以进行实践。 本博客拟对爬虫的一个简单场景进行模拟,并对的内容以文件的形式表现出来。

    2K30编辑于 2022-05-23
领券