首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习和数学

    基于bs4的拉勾网AI相关工作爬虫实现

    这篇文章主要是我如何抓取拉勾上面AI相关的职位数据,其实抓其他工作的数据原理也是一样的,只要会了这个,其他的都可以抓下来。 urlhelper方法是用来提取url的html内容,并在发生异常时,打一条warning的警告信息 import urllib.request from bs4 import BeautifulSoup import urllib.request from bs4 import BeautifulSoup import pandas as pd import requests from collections ,找到和自己最匹配的工作,大家也可以去试试,我是觉得挺有意思的,今天还写了一个抓取百度百科的爬虫,下次拿出来和大家分享。 最近写爬虫上瘾,越写感觉越有意思,爬虫就是这么神奇,你不会的时候,就觉得很牛逼,其实会了的话,也没啥了。 最后,最近都是爬虫的文章,感觉我的这个号越写越乱了,什么都有了,不知道大家看的是否happy?

    83150发布于 2018-04-11
  • 来自专栏python3

    Python 爬虫4

    driver.find_element_by_tag_name(“input”) 3. find_element_by_class_name(‘input-class’)     #根绝class定位 4. contiune并且type属性为button的input元素://input[@name='continue'][@type='button'] 查找页面上id为loginForm的form元素下第4个 input元素://form[@id='loginForm']/input[4] 控件操作: 输入框; element.clear()   #清空输入框数据 element.sendkeys(“username xxxxxxxxxx") randomSleep(2, 5) browser.find_element_by_id("password").send_keys("xxxxxxxxx") randomSleep(1, 4)

    1.2K30发布于 2020-01-10
  • 来自专栏AI进修生

    2024年AI+爬虫指南:使用JinaAI、FireCrawl、Crawl4AI(别用Beautiful Soup了)

    Aitrainee | 公众号:AI进修生 了解如何使用 Beautiful Soup、Jena AI 的 Reader API 和 Mendable 的 Firecrawl 从网页和 PDF 中抓取数据 将网站转变为大模型训练数据的神器:自动化爬虫工具FireCrawl,两周斩获4K Star! 同样,它也需要API密钥来提高速率限制。 这个工具同样支持处理PDF文件,但效果不如Jina AI的Reader API。 此外,还有两个值得一提的项目是Scrape Graph AI和Crawl4AI。 Scrape Graph AI结合了网页抓取和知识图谱,可以基于抓取的数据创建RAG应用。 当AI遇上爬虫:ScrapeGraphAI结合LLM实现前所未有的网页抓取效率,一言即搜! 这个项目有详细的GitHub文档,Crawl4AI则支持多种提取策略和运行JS脚本,不仅可以抓取数据,还能基于抓取的数据构建LLM应用。

    5.4K10编辑于 2024-12-02
  • 来自专栏python学习指南

    Python爬虫(十五)_案例:使用bs4爬虫

    本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南 案例:使用BeautifulSoup的爬虫 我们已腾讯社招页面来做演示:http://hr.tencent.com 使用BeautifulSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、时间、以及每个职位详情的点击链接存储出来。 #-*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib2 import urllib import json #使用json get_text() workLocation = site.select('td')[3].get_text() publishTime = site.select('td')[4]

    1.2K60发布于 2018-01-17
  • 来自专栏python全栈教程专栏

    爬虫学习(4):error异常处理

    首先要导入request模块,还有异常处理模块error.用try和except搭配,如果能正常访问呢,就正常执行,不能正常执行就打印出出错的原因(reason)和状态码(code)以及请求头(headers).关键字参数sep是实现分隔符,比如多个参数输出时想要输出中间的分隔字符,这里就是打印里的每一个都对应一个换行,看结果图就知道了。 上面我们用到HTTPError,他是URLError的子类,现在我把子类和父类加进来:

    45330发布于 2021-10-18
  • 来自专栏AllTests软件测试

    Crawl4AI - 开源的LLM友好型网络爬虫和抓取工具

    而网络爬虫作为获取海量数据的关键工具,正成为连接互联网资源与AI应用的桥梁。Crawl4AI正是一款专为AI时代设计的开源爬虫框架,它以高效、智能、灵活的特性,重新定义了数据采集的范式。 2、简介 Crawl4AI是GitHub上排名第一的热门存储库,由一个活跃的社区积极维护。它为大语言模型(LLMs)、人工智能代理和数据管道提供了专为人工智能优化的超快速网络爬虫。 官方网址: https://crawl4ai.com/ 3、快速上手 1、安装Crawl4AI pip install -U crawl4ai 如果遇到任何与浏览器相关的问题,你可以手动安装它们: python -m playwright install --with-deps chromium 2、使用Python运行简单的Web爬虫 import asyncio from crawl4ai import import asyncio from crawl4ai import AsyncWebCrawler, CrawlerRunConfig from crawl4ai.deep_crawling import

    3.7K10编辑于 2025-05-26
  • 来自专栏python3

    Python爬虫笔记4-Beautif

    pip3 install beautifulsoup4 测试 python终端里导入beautifulsoup,无报错信息即安装成功。 >>from bs4 import BeautifulSoup >> BeautifulSoup对象 BeautifulSoup将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象 ,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment BeautifulSoup 对象表示的是一个文档的内容。 获取Tags # 导入模块 from bs4 import BeautifulSoup html = """ <html><head><title>The Dormouse's story</title story

    The Dormouse's story 关于BeautifulSoup的使用就这样吧,常用个人就觉得用好find_all即可(=.=~) 参考链接 崔庆才 [Python3网络爬虫开发实战

    1K40发布于 2020-01-03
  • 来自专栏全栈程序员必看

    python爬虫4个实例

    文章目录 1、京东商品页面的爬取 2、亚马逊商品页面的爬取 可以先看 网络爬虫基础知识,然后结合下面的实例学习爬虫的常用方法。 限制网络爬虫的方法: 来源审查: 检查来访HTTP协议头的User – Agent域,只响应浏览器或友好爬虫的访问。 发布公告: Robots协议,告知所有爬虫网站的爬取策略,要求爬虫遵守。 :50,startTimer:function(){a.ts++;setInterval(function(){d.ue&&a.pec<a.ec&&d.uex("at");a.pec=a.ec},1E4) Process finished with exit code 0 可见,更改User-Agent属性之后的爬虫可以正常爬取信息。 尝试和修改后的爬虫程序如下: import requests url = "https://www.amazon.cn/dp/B07G7K1Z98/ref=sr_1_3?

    85820编辑于 2022-08-24
  • 来自专栏入门到放弃之路

    AI新闻爬虫:传统爬虫和XHR异步加密爬虫的碰撞

    前言AI的发展日新月异,及时掌握一些AI的消息和妹子聊天时也不至于词穷(不建议和妹子聊技术)。所以这里就以36氪和虎嗅网为例,来讲一下如何爬取AI新闻消息以及数据整合。 36氪和虎嗅网这两个网站新闻爬虫比较具有代表性,36氪是传统的html网页爬虫,虎嗅网是异步api加载加密的爬虫,这里就从简单的36氪讲起。 通过python的requests模块发起请求,最后解析目标数据实现36Kr AI快讯爬虫的代码开发。 如图,新闻数据通过接口请求返回json的方式渲染的,而非36Kr返回的HTML,所以虎嗅网AI新闻咨询爬虫就是一个比较常见的XHR动态加载的爬虫。 结语这就是我使用爬虫爬取AI新闻的过程,使用了两个爬虫中比较常见的典型案例。像这种类别信息的采集,还有更优的程序设计架构。

    1.5K50编辑于 2024-03-12
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列4-子节点​

    这个string就是上面div的子节点(string通常看成是一个tag的子节点) 4." contents 1.tag对象contents可以获取所有的子节点,返回的是list 2.len()函数统计子节点的个数 3.通过下标可以取出对应的子节点 # coding:utf-8 from bs4 六、参考代码: # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com

    2.1K70发布于 2018-04-08
  • 来自专栏iSharkFly

    AI Bot 爬虫新势力

    对使用CloudFlare的用户,可以通过控制台上的配置来查看自己的网址被AI扫描了多少次。针对模型的训练,AI也需要从互联网中不断的获取内容才能对自己进行训练。 针对上面的内容和数据来看,AI的爬取量比较大,可能会超过传统的搜索引擎。

    9610编辑于 2025-11-13
  • 来自专栏python3

    Python爬虫4-URLError与H

    GitHub代码练习地址:URLError:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac06_URLError.py            HTTPError:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac07_HTTPError.py 模块:urllib.error 一、URLError   产生的原因: 没网

    48720发布于 2020-01-17
  • 来自专栏python爬虫教程

    python爬虫之BeautifulSoup4使用

    钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。 上一章我们讲解针对结构化的html、xml数据,使用Xpath实现网页内容爬取。 and Tillie 钢铁学爬虫 \n ', Tillie, '\n 钢铁学爬虫 and 5 Tillie 6 钢铁学爬虫 10 Tillie 11 Tillie 12 钢铁学爬虫

    1.8K20编辑于 2022-09-19
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列1

    前言 以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。 一、安装 1.打开cmd用pip在线安装beautifulsoup4 >pip install beautifulsoup4 ? 2.用requests里的get方法打开博客首页,r.content返回整个html内容,返回类型为string 3.查找所有的class属性为dayTitle的Tag类 4.获取当前Tag的标签为 五、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com

    1.1K110发布于 2018-04-08
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列2

    前言 本篇详细介绍beautifulsoup4的功能,从最基础的开始讲起,让小伙伴们都能入门 一、读取HTML页面 1.先写一个简单的html页面,把以下内容copy出来,保存为html格式文件 4.prettify()这个方法是把文件解析成html格式,用html的标准格式输出(有缩进的) ? 三、对象的种类 1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag : 标签对象,如:<p class="title 2.那么获取其中的某一个属性,就跟操作字典一样,如:tag["href"] 3.由于class属性一般可以为多个,中间空格隔开,所以class属性获取的是一个list类型:[u'sister'] 4. 七、发福利 1.爬糗事百科首页的段子 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("

    79860发布于 2018-04-08
  • 来自专栏全栈程序员必看

    python爬虫-数据解析(bs4

    文章目录 python爬虫-数据解析(bs4) 基本知识概念 bs4实例 —— 爬取三国演义所有章节 效果图 练习2—爬取多情剑客无情剑小说所有章节 效果图 python爬虫-数据解析(bs4 ) 基本知识概念 数据解析原理: 标签定位 提取标签、标签属性中存储的数据值 bs4数据解析原理: 1.实例化一个BeautifulSoup对象,并且将页面原码数据加载到该对象中 2.通过调用BeautifulSoup 对象中相关的属性或方法进行标签定位和数据提取 环境安装: pip install bs4 pip install lxml 如何实例化BeautifulSoup对象: from bs4 import - text/get_ text() :可以获取某一个标签中所有的文本内容 - string:只可以获取该标签下面直系的文本内容 - 获取标签中属性值: - soup.a['href'] bs4实例 练习2—爬取多情剑客无情剑小说所有章节 https://www.gulongwang.com/duo/ from bs4 import BeautifulSoup import requests

    1.3K30发布于 2021-04-19
  • 来自专栏技术大杂烩

    爬虫】(三)lo4d.com

    前言 因为毕设是基于机器学习的,所以需要大量的样本来训练模型和检验成果,因此,通过爬虫,在合法合规的情况下,爬取自己所需要的资源,在此进行记录; 本次爬取的网站是 https://www.lo4d.com   分析 大致浏览之后,接下来就是进行分析以及分步操作了; 1、先请求一下网页,看看是否能请求成功; import requests url = "https://en.lo4d.com/windows 接下来随机点开一个文件的镜像网站看看能不能成功下载; import requests from lxml import etree url = "https://videopad-free.en.lo4d.com /get-file/videopad-free/507d856d49f52f00265b1037d4df1629/'} 6、最后一步,实现下载; def download(url): info 上篇精讲:【爬虫】(二)windows10download.com 我是 ,期待你的关注; 创作不易,请多多支持; 系列专栏: 爬虫专栏

    48630编辑于 2023-08-26
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列3

    find_all找出所有的标签 1.find_all(class_="lazy")获取所有的图片对象标签 2.从标签里面提出jpg的url地址和title # coding:utf-8 from bs4 os.getcwd()这个方法可以获取当前脚本的路径 3.用open打开写入本地电脑的文件路径,命名为:os.getcwd()+"\\jpg\\"+title+'.jpg'(命名重复的话,会被覆盖掉) 4. 四、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests import os r = requests.get("http:

    788100发布于 2018-04-08
  • 来自专栏翩翩白衣少年

    Crawl4AI:几行代码就可实现强大的网页爬虫

    这是一个专为 LLM 优化的开源网页爬虫工具,其便捷的使用方式与强大的功能,使得网页数据采集变得前所未有的轻松。 Crawl4AI 是一款基于 LLM(大型语言模型)的开源网页爬虫工具,它的设计初衷是为开发者提供一个简单易用、功能强大的数据抓取解决方案,特别是为了满足 AI 研究中的数据采集需求。 :80 unclecode/crawl4ai:latest 使用 Crawl4AI 的使用非常简单,仅需几行代码就能实现强大的功能。 总结 Crawl4AI 是一个功能强大且易用的网页爬虫工具,它为大型语言模型和 AI 应用量身打造,提供了丰富的功能和灵活的配置选项。 从结构化输出到多种提取策略,Crawl4AI 为开发者在数据抓取领域带来了极大的便利。 GitHub:https://github.com/unclecode/crawl4ai

    6.1K11编辑于 2024-09-29
  • AI帮你读懂整个互联网:Crawl4AI开源爬虫工具深度解析

    嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法 Crawl4AI 是2025年GitHub上最受瞩目的开源网络爬虫工具,专为AI时代设计。 它不仅能够像传统爬虫一样抓取网页内容,更能理解页面语义结构,自动生成适合大语言模型使用的训练数据格式。项目上线半年即获得4万+星标,被应用于1200+AI项目中。 from crawl4ai import WebCrawlercrawler = WebCrawler()result = crawler.run(url="https://example.com", 动态页面支持✅ 无头浏览器❌❌PDF解析✅ 原生支持❌❌语义分块✅ 自动❌❌反爬机制✅ 智能轮换手动配置无数据格式AI就绪原始HTML原始HTML学习曲线低中高项目总结Crawl4AI重新定义了网络爬虫的边界 Octoparse优势:零代码可视化采集局限:闭源商业软件项目地址https://github.com/unclecode/crawl4ai

    2.9K11编辑于 2025-04-25
领券