搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据科学（冷冻工厂）
Python网络数据抓取（4）：Beautiful Soup
Beautiful Soup 这个库通常被称为Beautiful Soup 4（BS4）。它主要用来从HTML或XML文件中抓取数据。此外，它也用于查询和修改HTML或XML文档中的数据。现在，让我们来了解如何使用Beautiful Soup 4。我们将采用上一节中使用的HTML数据作为示例。不过在此之前，我们需要先将这些数据导入到我们的文件中。 from bs4 import BeautifulSoup 从我们的目标页面中，我们将提取一些重要数据，例如名称、价格和产品评级。为了提取数据，我们需要一个解析树。 >>> 4.9 我们利用requests库发送GET请求，成功地从第一部分获取的杂乱HTML中提取出了所有必需的数据。那么，如果你需要将这些数据保存到CSV文件中，又该如何操作呢？
43110编辑于 2024-04-28
来自专栏全栈程序员必看
Python抓取数据_python抓取游戏数据
抓取策略确定目标：确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。分析目标：分析要抓取的url的格式，限定抓取范围。分析要抓取的数据的格式，本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式，在网页解析器部分，要指定网页编码，然后才能进行正确的解析。执行爬虫：进行数据抓取。分析目标 1、url格式进入百度百科python词条页面，页面中相关词条的链接比较统一，大都是/view/xxx.htm。 = 200: return None return response.read() html_parser.py # coding:utf-8 from bs4 docs.python.org/3/library/index.html Beautiful Soup 4.2.0 文档 https://www.crummy.com/software/BeautifulSoup/bs4/
2.8K30编辑于 2022-09-20
来自专栏若是烟花
数据抓取练习
代码放在Github上了。https://github.com/lpe234/meizi_spider
1.5K10发布于 2020-07-27
来自专栏Jaycekon
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要：这篇博文主要讲一下如何使用Phantomjs进行数据抓取，这里面抓的网站是太平洋电脑网估价的内容。主要是对电脑笔记本以及他们的属性进行抓取，然后在使用nodejs进行下载图片和插入数据库操作。 return cont; }); console.log(pageSize); loadController(status); }); 这部分代码是Phantomjs的入口，也是我们进行数据抓取的开始部分这里抓到的信息是所有页面的页数，用来作为循环判断的次数依据然后观察代码就可以发现从入口结束之后就跳转到了LoadContriller函数中去，然后再调用loadComputerList这个函数，然后就可以进行数据抓取了 x161×PCIE 2.0 x12×PCI 32/33|&|内存类型 DDR3|&|标配内存 2G|&|最大内存容量 32G|&|硬盘接口类型 SATAⅢ|&|标配硬盘 500G|&|最大硬盘容量 4TB
1.8K60发布于 2018-03-09
来自专栏小孟开发笔记
PHP登入网站抓取并且抓取数据
有时候需要登入网站，然后去抓取一些有用的信息，人工做的话，太累了。有的人可以很快的做到登入，但是需要在登入后再去访问其他页面始终都访问不了，因为他们没有带Cookie进去而被当做是两次会话。 index.php if(isset($_COOKIE[‘cname’]) && $_COOKIE[‘cname’]){ echo “
- 1
- 2
- 3
- 4< 文件 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, “http://localhost:8080/test/login.php”); //设定返回的数据是否自动显示 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // 我们在POST数据哦！
2.3K30编辑于 2023-02-20
来自专栏小徐学爬虫
BeautifulSoup数据抓取优化
优化 BeautifulSoup 数据抓取可以帮助提高数据抓取的效率和性能，优化的数据抓取方式更加友好，减少了对目标网站的访问压力，降低了被封禁或限制访问的风险。 1、问题背景我正在使用BeautifulSoup库来抓取一个网站上的数据。我使用如下代码来抓取数据：from bs4 import BeautifulSoupimport urllib2page = urllib2.urlopen("http , contact_person, address, phone_number, email))输出结果为：公司名称,联系人,地址,电话,邮箱公司名称2,联系人2,地址2,电话2,邮箱2...优化后的数据抓取代码通常能够更快速地获取所需数据数据抓取优化不仅能够提高程序的性能和效率，还能够降低资源消耗，改善用户体验，降低被封禁风险，提高可维护性和可扩展性，以及降低错误和异常情况的发生，从而为数据抓取任务带来更多的好处和优势。
49210编辑于 2024-04-08
来自专栏git
抓取淘宝美食数据
.搜索：美食，点击搜索 3.得到当前搜索结果商品的：price(价格)，location(销售地)，shop(商店名称)，image(图片)，title(商品名称)，product_link商品连接 4切换点击到最后一页停止 selenium.webdriver.common.by import By from selenium.webdriver.chrome.options import Options import re from bs4 div > div > ul > li.item.active"), str(page))) # 解析对应页面的数据 wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-itemlist .items .item"))) # 当前页面的数据 text # print(total) total_num = re.compile(r'\d+').search(total).group() # 写一个函数获取当前页（第一页的数据
1K40发布于 2019-07-19
来自专栏chenchenchen
Fiddler、Charles抓取数据
Fiddler抓取数据一、Fiddler简介现在的移动应用程序几乎都会和网络打交道，所以在分析一个 app 的时候，如果可以抓取出其发出的数据包，将对分析程序的流程和逻辑有极大的帮助。对于HTTP包来说，已经有很多种分析的方法了，但是现在越来越多的应用已经使用HTTPS协议来和服务器端交换数据了，这无疑给抓包分析增加了难度。如图四、分析几个微转发平台的数据 https://blog.csdn.net/two_water/article/details/71106893 ------------------------- 原因是去掉后过滤掉PC上抓到的包，只抓取移动终端上的信息。 ,效果图如下第一个请求详细信息：第二个请求如下比如我需要这三个参数去发送请求，就可以在这里看到，接着在下面api用这三个参数去发送请求若要抓取http请求，在Charles的菜单栏上选择
1.7K10编辑于 2022-11-29
来自专栏Jaycekon
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取（1.抓取数据） http://blog.csdn.net/jokerkon/article/details/50868880 ; } before(); }, 100); }); } 最后调用数据抓取的函数， var title = document.querySelector('.pro-info product/5149/514938/TS130-b_sn8.jpg：http://product.pconline.com.cn/pdlib/514943_bigpicture7748163.html 这部分数据就是其中一条我们抓取到的数据以上就是我们进行图片抓取的全部过程，原本还有一份代码是用来抓取大图的，但是由于与本文的内容相似度极高，所以这里我就不列出来了。读者可以参考这篇文章进行大图的抓取。以上就是抓取图片的全部内容，谢谢观看。
1.3K60发布于 2018-03-09
来自专栏用户7289880的专栏
python零基础网络爬虫：抓取4A级猎头公司数据
实战思路剖析： 1.获取网站源码 2.从源码解析所需要的数据 3.数据存储到excel 实战步骤讲解第一步：获取网站源码需要安装的库：pip install xlwt 第一步先导入urllib.request
',html) 复制代码第三步：数据存储到excel 根据内容，我觉得存储到excel表格里面会比较好，所以对每行也写了一定的注释，大家可以参考下！ colnum,heData[colnum],xlwt.easyxf('font:bold on')) index = 1 for j in range(0,len(items)):#计算数据有多少条 i in range(0,7): print(items[j][i]) ws.write(index,i,items[j][i])#行数列数数据 index+=1 wb.save(newTable)#保存复制代码结果如下：我们可以看到所有的数据都被抓下来，并且存储到名为test2019的文件夹了。
71930发布于 2020-05-18

来自专栏程序手艺人

- 抓取蓝牙广播包数据

实际项目中，需要抓取蓝牙广播包数据进行调试，除了专有的设备之外，也可以通过手机专用的蓝牙APP进行抓包测试，这里主要介绍 LightBlue 和 nRF Toolbox for BLE , 通过图中标注的就是广播包中数据，以十六进制显示，可通过工具转为字符查看 565251415858574e 对应的字符就是VRQAXXWN

3.2K10发布于 2019-02-20

来自专栏不止于python

数据抓取

抓取思路结果: 最终实现通过经纬度、商家、关键字等抓取数据 1. 使用charles进行抓包 2. Chrom调试 3. 找出商品请求api 4. 破解sign 和其它请求参数 5. 使用queue进行商店, 分类, 商品系统化抓取 7. 使用协程并发抓取 8. 数据清理, 存储到mongo 项目目录 . ├── conf │ ├── AuthConfig.py │ ├── __pycache__ │ │ └── AuthConfig.cpython

68130编辑于 2022-05-31

来自专栏IT开发技术与工作效率

VBA登录抓取网络数据

受限在网页上右击查看网页源代码，按Ctrl+F搜索form表单，找到post的网址（或者自身就是post的网址），然后找到账号和密码的name，用来做VBA里Send的Data，这样登录完就可以直接post数据获取网址获取网页数据了 application/x-www-form-urlencoded" Data = "username=账号&password=密码" http.send (Data) http.Open "post", "数据获取网址

3.9K40发布于 2018-06-20

来自专栏薛定喵君

使用puppeteer抓取网站数据

记一下使用puppeteer抓取开源中国上的推荐软件数据 1.安装 npm install puppeteer 2.引入 const puppeteer = require('puppeteer') ; 3.抓取代码 const sleep = time => new Promise(resolve => { setTimeout(resolve, time); }) const url page.waitForSelector('.osc-list'); // 结果 const result = await page.evaluate(() => { //获取的数据数组

2.8K30发布于 2019-11-06

来自专栏IT民工的代码世界

Selenium+PhantomJS抓取数据

Selenium在前面的一篇文章中说过是一种浏览器自动化测试的工具，可以利用浏览器的驱动去控制浏览器访问网站，从而模拟浏览行为抓取数据，这种方式可以抓到更多的数据，但是效率不是很高，而且浏览器的页面必须一直开着最近看到了一个无页面的浏览器PhantomJS，访问网站效率高，速度快，无页面全后台抓取数据，而且可以和 Selenium结合使用个性化定制网站的数据抓取，下面会详细讲一下Selenium与PhantomJS 在vs2013中是如何抓取数据的，以携程网的酒店数据为例。文件和PhantomJS资源，在我的资源中都已经上传了地址在这里~ http://download.csdn.net/detail/u013407099/9687589 然后引用Selenium中的4个 //滚动到底部 Actions action = new Actions(driver); for (int i = 0; i < 4;

63830编辑于 2023-07-19

来自专栏码客

Jsoup抓取网页数据

objectDoc = Jsoup.connect("http://www.example.com/otherPage") .cookie("SESSIONID", sessionId) .get(); 爬取数据

4.5K10发布于 2019-10-21

来自专栏爬虫逆向案例

Fiddler抓取视频数据

三、抓包打开app，然后观察fiddler中所有的包其中有个包，包类型为json（json就是网页返回的数据，具体百度），主机地址如图，包大小一般不小，这个就是视频包。接下来解决几个问题， 1、视频数量，每个包中只有这么几个视频，那如何抓取更多呢？这时候需要借助模拟器的模拟鼠标翻页，让模拟器一直翻页，这样就不断会出现json包了。 oSession.PathAndQuery.slice(-58,); //FiddlerObject.alert(sps) var filename = "C:/Users/HEXU/Desktop/数据爬取 , like Gecko) Chrome/72.0.3626.119 Safari/537.36'} videos_list = os.listdir('C:/Users/HEXU/Desktop/数据爬取 /爬取资料/VIDEO/{}.mp4'.format(count),'wb') as f: #以二进制方式写入路径，记住要先创建路径 f.write(videoMp4) #写入

2.8K30发布于 2021-11-22

来自专栏小徐学爬虫

高并发数据抓取实战：使用HTTP爬虫ip提升抓取速度

又到每天一期学习爬虫的时间了，作为一名专业的爬虫程序员，今天要跟你们分享一个超实用的技巧，就是利用HTTP爬虫ip来提升高并发数据抓取的速度。听起来有点高大上？首先，咱们得理解一下为什么HTTP爬虫ip可以加速数据抓取。抓取数据的时候，我们要频繁地发起很多HTTP请求，但网站会对单个IP的请求做限制，这样就影响了抓取的速度。而且，爬虫ip服务器一般都分布在不同地区，能够减少网络延迟，提高抓取速度。下面，我要教你们一些使用HTTP爬虫ip来加速抓取的技巧。首先，我们得选一个好的爬虫ip服务器。至此，我们就学会了使用HTTP爬虫ip来加速高并发数据抓取。通过选择好的爬虫ip服务器、随机选用和使用爬虫ip连接池等技巧，我们就能够实现更高效的数据抓取，获得更好的结果。希望这些技巧能够对你们有用，如果还有其他关于数据抓取的问题，随时提出来，我会尽力为大家解答。祝大家在抓取数据的过程中成功快捷！

45620编辑于 2023-08-15

来自专栏小徐学爬虫

企业数据抓取如何选择语言

数据处理方便：与数据科学栈 (NumPy, Pandas, SciPy) 无缝集成，方便后续处理。成本低：学习成本低：易于招聘或培养相关人才。开发成本低：丰富的库和框架极大缩短开发周期。适用场景：绝大多数中小型到大型爬虫项目，从简单页面抓取到复杂动态网站、反爬对抗、大规模分布式爬虫均可胜任。是快速原型开发、业务验证和大多数生产环境的理想选择。适用场景：需要处理大量并发连接（如API轮询、大量简单页面抓取）、团队熟悉JavaScript/TypeScript、前后端技术栈统一的项目。利用 puppeteer 做复杂动态渲染爬取也很方便。 4、Java - 稳健、成熟、企业级生态高效（执行效率高，生态成熟）：性能稳定可靠： JVM优化成熟，性能好。 4、后期数据处理需求：是否需要与特定的大数据平台(Python/Java有优势)或数据科学工具(Python独占鳌头)紧密集成？5长期维护和扩展性：项目是否会变得非常庞大复杂？

48010编辑于 2025-06-12

来自专栏JAVAandPython君

资源君带你抓取网站数据

它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。总的来说，就是可以帮我们解析HTML页面，并且可以抓取html里面的内容。 3.开始写代码我们的目标是抓取菜鸟笔记上的信息（文章标题和链接） ? 发现这两个正是我们所想要得到的数据，我们继续抓取 public static void main(String[] args) { try { Document document=Jsoup.connect ("http://www.runoob.com/w3cnote").get(); //底下一行代码是我们进一步抓取到具体的HTML模块，div表示

标签， //后面的这样我们就抓取到我们想要的内容了！

1.3K20发布于 2019-09-17

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python网络数据抓取（4）：Beautiful Soup

Python抓取数据_python抓取游戏数据

数据抓取练习

Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）

PHP登入网站抓取并且抓取数据

BeautifulSoup数据抓取优化

抓取淘宝美食数据

Fiddler、Charles抓取数据

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）

python零基础网络爬虫：抓取4A级猎头公司数据