搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏爬虫
爬取美国公司案例-parsel库教学篇（Xpath的详细使用）
@TOC 前言本文分享一个爬虫案例，通过使用parsel库中的xpath来爬取美国排名前一百名的公司，来详细解释下Xpath的使用。导航爬取小说案例-BeautifulSoup教学篇爬取二手房案例--parsel教学篇（CSS选择器）爬取美国公司案例-parsel库教学篇（Xpath的详细使用）爬取东方财富网-parsel 教学篇（正则表达式的详细使用+实例）爬取QQ音乐的评论-JSON库的详细使用 Xpath的使用 Xpath的介绍 XPath 是一门在 XML /HTML文档中查找信息的语言。元素下的所有元素 "//div@class='ancestor'/div2":选取class为ancestor的div元素下的第二个div元素实战应用下面通过一个实战应用来继续熟悉下Xpath的使用：通过爬取美国排名前一百的公司 for num in range(1,101): new_num=3*num-2 name_company=name_detail[num-1] print(f"美国公司第{num
38610编辑于 2025-01-16
来自专栏叶子陪你玩编程
python爬取已登记公司基本信息
第一次尝试爬虫虽然知道，但是都爬取一些非常简单的，给一个网址，访问这个链接拿到网页内容，回来做个简单的处理就可以了。本地测试先爬取首页试试，结果连首页都获取不了，换了个方法，又爬取到了，等一会又不行了，网上查了一下。本地如果还是和之前一样爬取，肯定还是失败，注册了一个账号试了一下，果然就可以了，需要登录后查看，这种利用cookies就可以搞定了。接下来就可以直接本地去爬取网页了。 ? 下面就用我经常使用的看球app直播吧来试一下。 ? ? 链接显示一个固定的加一个搜索内容，还是很友好的。爬取其它公司只需要改一下就可以了，获取内容到这里就完成了，后面的需要继续等对方提了。 ? (全文完)
2K60发布于 2020-05-25
来自专栏程序员的知识天地
9个用来爬取网络站点的 Python 库
GitHub 7️⃣portia Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。官网 9️⃣RoboBrowser 一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。官网 Latest release:2019.1.11
94600发布于 2019-04-18
来自专栏Tommonkey
爱企查爬取某国企控股旗下公司思路
接到的工作内容是对某国企及其旗下控股公司进行漏洞挖掘还只要高危的，头疼。爱妻查上一查它控股四千多个公司，直接上python爬它吧！首先bp抓包，分析一下数据包，看回包发现返回的数据是Unicode编码，所以思路大概有了：把数据都爬取下来 Unicode解码数据正则表达式提取所需公司名第一步：爬取数据 import time +4IlzdZGWV51fl9B7gAktxPdg5qra2UZ9Y57+gJypVJXOtNgJRSL3JjP7XDgYo8bUtTEA6/4vTTYBJLA4CBJ7oXStz8=', 'X-Requested-With input_data(date): with open("result.txt", mode="a+") as fd: fd.write(date + "\n") # first_step:爬取相关公司旗下控股公司名称 headers=header) time.sleep(0.5) input_data(respond.text) print("爬取第
1.5K20编辑于 2023-02-27
来自专栏python全栈教程专栏
爬虫学习（9）：正则爬取jk妹子头像，不要滑走！
urllib.request.urlretrieve(a,'E://photo/'+str(int(time.time()))+'.jpg') print(a+'.jpg') time.sleep(2) 总结下问题：我通过正则爬取，以为这是静态的，实际上这是动态网页，所以这种方式并没有全部爬取下来，估计全部爬下来应该有几千张，准备换新的方法进行爬取。对python感兴趣的哥们，可以跟我一起交流，群970353786我也正在努力学习中，后续动态爬取我再想想吧…待更新如果你看不懂我这篇文章写的代码，先去看看我前面的爬虫文章吧，我是一点一点的学啥用啥爬取的好了，这下爬取够多了，不过还是只用了正则，后续我会更新xpath爬取，上代码！ requests.get(url, headers=headers).content def main(): for i in range(1, 17): print(f'正在爬取第
42840发布于 2021-10-18
来自专栏小明的博客
爬取壁纸
本次爬虫主要爬取的是4k壁纸网的美女壁纸，该网页的结构相对比较简单，这次爬虫的主要目的学会使用bs进行解析，另外是关于当爬取的数据是非文本数据时数据的解析问题。 sf_source=bing; city=xian; lastscanpage=0; g_sourcepage=esf_fy%5Exq_pc; unique_cookie=U_4qsim60u3xw9srizbptt3nh3q1yl5377g9v 获取html文件 """ response = requests.get(url, headers=headers, verify=True) print(f"开始爬取 {url}") return response def parse_page(response): """ 提取当页中所有所需数据的存储位置以及下一爬取网页 """ else: return img_url_dict,next_url def save(response, out_dir,img_name): """ 保存爬取结果
1.2K30编辑于 2022-09-06
来自专栏极客猴
爬取6271家死亡公司数据，看十年创业公司消亡史
前段时间老罗和王校长都成为自己的创业公司成了失信人，小五打算上IT桔子看看他们的公司。 ? 小五利用python将其中的死亡公司数据爬取下来，借此来观察最近十年创业公司消亡史。获取数据 F12，Network查看异步请求XHR，翻页。 ? close','live_time','total_money','cat_name','com_prov','closure_type']) for i in range(1,2): #设置爬取 2010 年来，历年出生及死亡的公司数量趋势如下图。 2013、2014 年是公司诞生潮，三年后，正好对应了2016、2017的一波死亡潮。在2017 年，超过 2000 家公司倒闭。 ? 比较有意思的是，这个死亡公司数据库还加了一个#上香排行榜#，排行第一的果然是大名鼎鼎的“快播”。 ? 还真是有的公司死了，（在人心里）他还活着；有的公司活着，（在人心里）他已经死去。
80720发布于 2019-12-10
来自专栏凹凸玩数据
爬取6271家死亡公司数据，看十年创业公司消亡史
昨天在【凹凸数读】发了一篇关于创业公司的文章，原文链接如下：《风口起落的背后，是6271家创业公司的消亡》今天我来写一写它的python版本。前段时间老罗和王校长都成为自己的创业公司成了失信人，小五打算上IT桔子看看他们的公司。 ? 小五利用python将其中的死亡公司数据爬取下来，借此来观察最近十年创业公司消亡史。获取数据 F12，Network查看异步请求XHR，翻页。 ? close','live_time','total_money','cat_name','com_prov','closure_type']) for i in range(1,2): #设置爬取 2010 年来，历年出生及死亡的公司数量趋势如下图。 2013、2014 年是公司诞生潮，三年后，正好对应了2016、2017的一波死亡潮。在2017 年，超过 2000 家公司倒闭。 ?
88320发布于 2019-11-28
来自专栏userlyz学习记录
肯德基爬取
今天晚上搞了一个作业，作业要求是爬取肯德基的餐厅查询：代码如下： # -*-coding=utf-8-*- # 时间:2021/3/31;20:13 # 编写人:刘钰琢 import requests
62030编辑于 2022-08-18
来自专栏数据结构笔记
实战：爬取简书之多线程爬取（一）
在上上篇我们编写了一个简单的程序框架来爬取简书的文章信息，10分钟左右爬取了 1万 5千条数据。 2万那么爬取一亿五千万条数据需要 150000000 / 20000 = 10 * 7500 = 75000 min = 1250 h = 52 d w(ﾟДﾟ)w 52天！！！，如果按照前面的脚本来爬要爬整整 52天，那时候黄花菜都凉了呀。这些数据的时间跨度如此大，如果要做数据分析的进行对比的话就会产生较大的误差。所以，我们必须得提高爬取速度！！！这时候就轮到今天得主角登场了，噔噔噔蹬------》多线程一、多线程简介简单来讲，多线程就相当于你原来开一个窗口爬取，现在开了10个窗口来爬取。不计较数据的重复的话，现在的速度应该是之前的10倍，也就是说原来要52天才能爬完的数据现在只要5.2天了。
1.1K40发布于 2018-09-28
爬取淘宝数据
disable-blink-features=AutomationControlled') driver = webdriver.Edge(options = options) # TODO 关键词和最大爬取页数 div.fm-btn > button").click() print("登录成功，等待主页面加载...") wait = WebDriverWait(driver, 30) # TODO 数据爬取 # TODO 翻页爬取 def index_page(page): print('正在爬取第 ', page, ' 页') if page > 0: input = wait.until ))) input.clear() input.send_keys(page) submit.click() # TODO 调用数据爬取函数 get_data() # TODO 主函数，调度翻页批量爬取 def main(): for i in range(1, MAX_PAGE + 1): index_page
91210编辑于 2024-10-31
来自专栏睡不着所以学编程
爬取豆瓣电影
嗯，今天还是挑战了爬取电影，因为我发现从别的页面进去就不是Ajax的页面了，步骤和书单差不多hhh 由于我在一边写一遍测试，就不停的运行，后来发现运行以后没有任何结果，我就测试了一下，应该是我发请求太频繁
1K10编辑于 2022-09-20
来自专栏python-爬虫
Flipcart 爬取流程
第一步:爬取分类url from requests_html import HTMLSession session =HTMLSession() #https://www.flipkart.com/lc
65120发布于 2020-06-19
来自专栏浊酒清味
爬取搞笑视频
m = m+1 except: print("此URL为外站视频,不符合爬取规则
1.1K20发布于 2019-11-01
来自专栏Fdu弟中弟
爬取天气信息
使用requests和BeautifulSoup爬取天气信息。这是从不倒翁问答系统的祖传代码里翻出来的，利用搜狗搜索获取天气信息，开箱即用。
90420发布于 2021-02-24
来自专栏python3
爬取表情包
gLock.release() if img_url: filename = img_url.split("/")[-1]#将图片地址分割成列表，取最后一项文件名 print img_url,"下载失败"#还时常出现10054错误，可能是服务器发现了爬虫强行关闭当前链接 def main(): for x in range(1,100):#爬取
2.1K30发布于 2020-01-17
来自专栏花落的技术专栏
APP数据爬取
准备爬取时间：2021/02/02 系统环境：Windows 10 所用工具：Jupyter Notebook\Python 3.0\Fiddler\雷神模拟器涉及的库：requests
1.4K00编辑于 2021-12-05
来自专栏GitHub专栏
5 行 Python 代码爬取 3000+ 上市公司的信息
基本环境配置版本：Python3 系统：Windows 相关模块：pandas、csv 爬取目标网站实现代码 import pandas as pd import csv for i in range(,): # 爬取全部页 tb = pd.read_html('http://s.askci.com/stock/a/? ，安安静静地躺在 Excel 中：有了上面的信心后，我开始继续完善代码，因为 5 行代码太单薄，功能也太简单，大致从以下几个方面进行了完善：增加异常处理由于爬取上百页的网页，中途很可能由于各种问题导致爬取失败增加代码灵活性初版代码由于固定了 URL 参数，所以只能爬取固定的内容，但是人的想法是多变的，一会儿想爬这个一会儿可能又需要那个，所以可以通过修改 URL 请求参数，来增加代码灵活性，从而爬取更灵活的数据加快爬取速度初版代码使用了最简单的单进程爬取方式，爬取速度比较慢，考虑到网页数量比较大，所以修改为了多进程的爬取方式。
95520编辑于 2022-12-06
来自专栏Python研究者
5行Python代码爬取3000+ 上市公司的信息
基本环境配置版本：Python3 系统：Windows 相关模块：pandas、csv 爬取目标网站实现代码 import pandas as pd import csv for i in range (1,178): # 爬取全部页 tb = pd.read_html('http://s.askci.com/stock/a/? ，安安静静地躺在 Excel 中：有了上面的信心后，我开始继续完善代码，因为 5 行代码太单薄，功能也太简单，大致从以下几个方面进行了完善：增加异常处理由于爬取上百页的网页，中途很可能由于各种问题导致爬取失败增加代码灵活性初版代码由于固定了 URL 参数，所以只能爬取固定的内容，但是人的想法是多变的，一会儿想爬这个一会儿可能又需要那个，所以可以通过修改 URL 请求参数，来增加代码灵活性，从而爬取更灵活的数据加快爬取速度初版代码使用了最简单的单进程爬取方式，爬取速度比较慢，考虑到网页数量比较大，所以修改为了多进程的爬取方式。
90110编辑于 2022-10-27
来自专栏全栈程序员必看
Python网页爬取_在pycharm里面如何爬取网页
使用Python爬取简单数据闲暇时间学习Python,不管以后能否使用，就算了解计算机语言知识。一、导入爬取网页所需的包。 if __name__ == '__main__': main() 三、接着在定义主函数main()，主函数里应包括所需爬取的网页地址得到网页数据，进行解析舍取将得到的数据保存在excel 中 def main(): #指定所需爬取网页路径 basePath = "https://www.duquanben.com/" #获取路径 dataList = getData (basePath) #保存数据 saveData(dataList) 四、需对爬取网页进行数据的采集因为使用的Pycharm软件来进行爬取，首先需要进行下伪装，将浏览器的代理信息取出
2.6K20编辑于 2022-11-04

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

爬取美国公司案例-parsel库教学篇（Xpath的详细使用）

python爬取已登记公司基本信息

9个用来爬取网络站点的 Python 库

爱企查爬取某国企控股旗下公司思路

爬虫学习（9）：正则爬取jk妹子头像，不要滑走！

爬取壁纸

爬取6271家死亡公司数据，看十年创业公司消亡史

爬取6271家死亡公司数据，看十年创业公司消亡史

肯德基爬取

实战：爬取简书之多线程爬取（一）

爬取淘宝数据

爬取豆瓣电影

Flipcart 爬取流程

爬取搞笑视频

爬取天气信息

爬取表情包

APP数据爬取

5 行 Python 代码爬取 3000+ 上市公司的信息

5行Python代码爬取3000+ 上市公司的信息

Python网页爬取_在pycharm里面如何爬取网页

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐