首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏离别歌 - 信息安全与代码审计

    攻击Scrapyd爬虫

    0x02 如何攻击scrapyd 一顿信息搜集后,目标整个工作流程就清晰了:用户输入的URL被交给部署在scrapyd上的爬虫进行爬取,爬虫调用了Chrome渲染页面,并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫 针对6800端口的攻击在本地可以复现了,但是目标网站的6800是开启在内网的,我们无法直接访问。 可以借助目标前端的那个SSRF吗? 另外,在MVVM架构日益流行的当下,爬虫也变得更加灵活,特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性,能让爬虫爬到的信息更加完善,但也让攻击者有更多攻击途径 对于此类动态爬虫攻击者可以对浏览器或js引擎本身进行攻击,或者如我这样利用JavaScript攻击内网里一些基础服务。 另外,经常会有人在运行爬虫的时候会设置--no-sandbox、--disable-web-security等危险选项,这也给攻击者提供了很多便利,我建议利用普通用户权限启动浏览器爬虫,以避免使用这些不安全的选项

    1.3K41发布于 2020-10-15
  • 来自专栏偶尔敲代码

    网站防御爬虫攻击的几种方式

    3、利用js加密网页内容 搜索引擎爬虫和采集器通杀,搞死人 适用网站:极度讨厌搜索引擎和采集器的网站 爬虫:你那么牛,成本不允许,我不爬了 4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在 适用网站:极度讨厌搜索引擎,且想阻止大部分爬虫的网站 爬虫:制作拟用户登录提交表单行为的模块。 爬虫:伪装HTTP_REFERER,不难。 而且这样对搜索引擎爬虫没影响。 适用网站:动态网站,并且不考虑用户体验 爬虫:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。 但是,这对搜索引擎爬虫没多大影响。

    1.3K50编辑于 2023-04-28
  • 来自专栏python3

    Python 爬虫4

    driver.find_element_by_tag_name(“input”) 3. find_element_by_class_name(‘input-class’)     #根绝class定位 4. contiune并且type属性为button的input元素://input[@name='continue'][@type='button'] 查找页面上id为loginForm的form元素下第4个 input元素://form[@id='loginForm']/input[4] 控件操作: 输入框; element.clear()   #清空输入框数据 element.sendkeys(“username xxxxxxxxxx") randomSleep(2, 5) browser.find_element_by_id("password").send_keys("xxxxxxxxx") randomSleep(1, 4)

    1.2K30发布于 2020-01-10
  • 来自专栏ZNing·腾创库

    爬虫和抗DDOS攻击技术实践

    导语 企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内 /xml;q=0.9,image/webp,*/*;q=0.8' -H 'Cache-Control: no-cache' -H 'Cookie: tvfe_boss_uuid=ad12b5df44c4af49 ; omuisid.sig=5wAr5khpxGvFDp3WpkJ6_QX9iE4' -H 'referer: https://media.om.qq.com/media/5054675/list' - 起到一定的防DDOS攻击的效果 通过上图我们可以看到,关键就是两次票据的签发与验证,一次由浏览器签发,一次由后台签发,但是验证真伪都是在服务端进行,这样做的最终效果就是,要对我们的界面进行抓取或攻击的人 ,必须按照我们设定的套路运转,就会增加他下载js并执行我们js的过程,如果有攻击方利用xss 获的肉机,对我们的域名发起攻击时,由于我们有两次票据验证,而去其中有一个票据的有效期时间很短,基本上不太可能对我们的服务器造成连续伤害了

    6.1K20发布于 2017-04-26
  • 来自专栏python学习指南

    Python爬虫(十五)_案例:使用bs4爬虫

    本章将从Python案例讲起:所使用bs4做一个简单的爬虫案例,更多内容请参考:Python学习指南 案例:使用BeautifulSoup的爬虫 我们已腾讯社招页面来做演示:http://hr.tencent.com 使用BeautifulSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、时间、以及每个职位详情的点击链接存储出来。 #-*- coding:utf-8 -*- from bs4 import BeautifulSoup import urllib2 import urllib import json #使用json get_text() workLocation = site.select('td')[3].get_text() publishTime = site.select('td')[4]

    1.3K60发布于 2018-01-17
  • 来自专栏python全栈教程专栏

    爬虫学习(4):error异常处理

    首先要导入request模块,还有异常处理模块error.用try和except搭配,如果能正常访问呢,就正常执行,不能正常执行就打印出出错的原因(reason)和状态码(code)以及请求头(headers).关键字参数sep是实现分隔符,比如多个参数输出时想要输出中间的分隔字符,这里就是打印里的每一个都对应一个换行,看结果图就知道了。 上面我们用到HTTPError,他是URLError的子类,现在我把子类和父类加进来:

    45930发布于 2021-10-18
  • 来自专栏全栈程序员必看

    python爬虫4个实例

    文章目录 1、京东商品页面的爬取 2、亚马逊商品页面的爬取 可以先看 网络爬虫基础知识,然后结合下面的实例学习爬虫的常用方法。 限制网络爬虫的方法: 来源审查: 检查来访HTTP协议头的User – Agent域,只响应浏览器或友好爬虫的访问。 发布公告: Robots协议,告知所有爬虫网站的爬取策略,要求爬虫遵守。 :50,startTimer:function(){a.ts++;setInterval(function(){d.ue&&a.pec<a.ec&&d.uex("at");a.pec=a.ec},1E4) Process finished with exit code 0 可见,更改User-Agent属性之后的爬虫可以正常爬取信息。 尝试和修改后的爬虫程序如下: import requests url = "https://www.amazon.cn/dp/B07G7K1Z98/ref=sr_1_3?

    86420编辑于 2022-08-24
  • 来自专栏python3

    Python爬虫笔记4-Beautif

    pip3 install beautifulsoup4 测试 python终端里导入beautifulsoup,无报错信息即安装成功。 >>from bs4 import BeautifulSoup >> BeautifulSoup对象 BeautifulSoup将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象 ,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment BeautifulSoup 对象表示的是一个文档的内容。 获取Tags # 导入模块 from bs4 import BeautifulSoup html = """ <html><head><title>The Dormouse's story</title story

    The Dormouse's story 关于BeautifulSoup的使用就这样吧,常用个人就觉得用好find_all即可(=.=~) 参考链接 崔庆才 [Python3网络爬虫开发实战

    1.1K40发布于 2020-01-03
  • 来自专栏信安之路

    如何攻击 LTE 4G 网络

    网络二层协议安全分析 我们在数据链路层(也就是网络协议的第二层)上对移动通信标准 LTE(Long-Term Evolution 也就是我们常说的 4G)的安全分析发现额三种新型攻击媒介,可以对这个协议进行不同方式攻击 另一方面,我们提出了一种叫做 aLTEr 的劫持密码的攻击,涉及的原理是因为 LTE 标准中的规范缺陷导致的,攻击者可以通过执行 DNS 欺骗来重定向网络连接。 ? 攻击的后果 1、攻击的难度如何? 理论上有可能,但是不要期望过高,因为这个攻击成本和难度很高,所以一般对一些敏感人物会更加感兴趣(例如政治家、记者等)。 4、这个攻击谁应该知道? 手机在访问一个网站的时候,实际访问的就是攻击者指定的恶意网站。DNS 欺骗是互联网上常见的攻击,在攻击者控制 DNS 服务器的下一跳即可发动攻击。 跟用户数据重定向攻击相比,攻击者只需要靠近受害者即可执行此类攻击。 最终结果 为了演示 aLTEr 攻击的可行性,我们在实验室环境中的商用网络和商用电话内实施了全面的端到端攻击

    2K11发布于 2018-08-08
  • 来自专栏全栈程序员必看

    看你的门-攻击服务器(4)-HTTP参数注入攻击

    1、HTTP参数注入攻击 參数,被用做后端HTTP请求中的參数,这个时候就有可能会导致HTTP參数注入。 当然,这个推断字符(check)是不会出如今这个P2P的转账系统的文档系统中; 2、一个典型的easy被HTTP參数注入攻击的源码 httpAddParam.jsp <%@ page language= from=andson&to=iris&money=10 显示: 你的地址:127.0.0.1 send money to :iris 可是check參数被攻击者发现了。 于是攻击者加上了check这个參数: http://127.0.0.1:8080/webStudy/httpAddParam.jsp? HTTP參数注入攻击完毕。 版权声明:本文博客原创文章,博客,未经同意,不得转载。

    1.2K40编辑于 2022-07-06
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列4-子节点​

    这个string就是上面div的子节点(string通常看成是一个tag的子节点) 4." contents 1.tag对象contents可以获取所有的子节点,返回的是list 2.len()函数统计子节点的个数 3.通过下标可以取出对应的子节点 # coding:utf-8 from bs4 六、参考代码: # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com

    2.1K70发布于 2018-04-08
  • 来自专栏python爬虫教程

    python爬虫之BeautifulSoup4使用

    钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。 上一章我们讲解针对结构化的html、xml数据,使用Xpath实现网页内容爬取。 and Tillie 钢铁学爬虫 \n ', Tillie, '\n 钢铁学爬虫 and 5 Tillie 6 钢铁学爬虫 10 Tillie 11 Tillie 12 钢铁学爬虫

    1.8K20编辑于 2022-09-19
  • 来自专栏python3

    Python爬虫4-URLError与H

    GitHub代码练习地址:URLError:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac06_URLError.py            HTTPError:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac07_HTTPError.py 模块:urllib.error 一、URLError   产生的原因: 没网

    48920发布于 2020-01-17
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列1

    前言 以博客园为例,爬取我的博客上首页的发布时间、标题、摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能。 一、安装 1.打开cmd用pip在线安装beautifulsoup4 >pip install beautifulsoup4 ? 2.用requests里的get方法打开博客首页,r.content返回整个html内容,返回类型为string 3.查找所有的class属性为dayTitle的Tag类 4.获取当前Tag的标签为 五、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("http://www.cnblogs.com

    1.1K110发布于 2018-04-08
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列2

    前言 本篇详细介绍beautifulsoup4的功能,从最基础的开始讲起,让小伙伴们都能入门 一、读取HTML页面 1.先写一个简单的html页面,把以下内容copy出来,保存为html格式文件 4.prettify()这个方法是把文件解析成html格式,用html的标准格式输出(有缩进的) ? 三、对象的种类 1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag : 标签对象,如:<p class="title 2.那么获取其中的某一个属性,就跟操作字典一样,如:tag["href"] 3.由于class属性一般可以为多个,中间空格隔开,所以class属性获取的是一个list类型:[u'sister'] 4. 七、发福利 1.爬糗事百科首页的段子 # coding:utf-8 from bs4 import BeautifulSoup import requests r = requests.get("

    80460发布于 2018-04-08
  • 来自专栏全栈程序员必看

    python爬虫-数据解析(bs4

    文章目录 python爬虫-数据解析(bs4) 基本知识概念 bs4实例 —— 爬取三国演义所有章节 效果图 练习2—爬取多情剑客无情剑小说所有章节 效果图 python爬虫-数据解析(bs4 ) 基本知识概念 数据解析原理: 标签定位 提取标签、标签属性中存储的数据值 bs4数据解析原理: 1.实例化一个BeautifulSoup对象,并且将页面原码数据加载到该对象中 2.通过调用BeautifulSoup 对象中相关的属性或方法进行标签定位和数据提取 环境安装: pip install bs4 pip install lxml 如何实例化BeautifulSoup对象: from bs4 import - text/get_ text() :可以获取某一个标签中所有的文本内容 - string:只可以获取该标签下面直系的文本内容 - 获取标签中属性值: - soup.a['href'] bs4实例 练习2—爬取多情剑客无情剑小说所有章节 https://www.gulongwang.com/duo/ from bs4 import BeautifulSoup import requests

    1.3K30发布于 2021-04-19
  • 来自专栏技术大杂烩

    爬虫】(三)lo4d.com

    前言 因为毕设是基于机器学习的,所以需要大量的样本来训练模型和检验成果,因此,通过爬虫,在合法合规的情况下,爬取自己所需要的资源,在此进行记录; 本次爬取的网站是 https://www.lo4d.com   分析 大致浏览之后,接下来就是进行分析以及分步操作了; 1、先请求一下网页,看看是否能请求成功; import requests url = "https://en.lo4d.com/windows 接下来随机点开一个文件的镜像网站看看能不能成功下载; import requests from lxml import etree url = "https://videopad-free.en.lo4d.com /get-file/videopad-free/507d856d49f52f00265b1037d4df1629/'} 6、最后一步,实现下载; def download(url): info 上篇精讲:【爬虫】(二)windows10download.com 我是 ,期待你的关注; 创作不易,请多多支持; 系列专栏: 爬虫专栏

    50030编辑于 2023-08-26
  • 来自专栏从零开始学自动化测试

    python爬虫beautifulsoup4系列3

    find_all找出所有的标签 1.find_all(class_="lazy")获取所有的图片对象标签 2.从标签里面提出jpg的url地址和title # coding:utf-8 from bs4 os.getcwd()这个方法可以获取当前脚本的路径 3.用open打开写入本地电脑的文件路径,命名为:os.getcwd()+"\\jpg\\"+title+'.jpg'(命名重复的话,会被覆盖掉) 4. 四、参考代码 # coding:utf-8 from bs4 import BeautifulSoup import requests import os r = requests.get("http:

    792100发布于 2018-04-08
  • 来自专栏机器学习与统计学

    4 幅思维导图:学会 Python 爬虫

    原创:ZOE酱 https://zhuanlan.zhihu.com/p/36204695 这次给大家带来的是4 幅思维导图,梳理了 Python 爬虫部分核心知识点:网络基础知识,Requests, BeautifulSoup,urllib 和 Scrapy 爬虫框架。 本文思维导图仅仅涉及了爬虫最核心基础的部分,但足够应对入门所需了~ 1 爬虫基础知识 ? 2 Requests 库 ? 3 BeautifulSoup & urllib ? 4 Scrapy 爬虫框架 ?

    79930发布于 2019-07-05
  • 来自专栏机器学习算法与Python学习

    Python:爬虫系列笔记(4) -- URL异常处理

    新创建资源的URI可在响应的实体中得到 处理方式:爬虫中不会遇到 202:请求被接受,但处理尚未完成 处理方式:阻塞等待 204:服务器端已经实现了请求,但是没有返回新的信 息。

    2.2K90发布于 2018-04-04
领券