首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏离别歌 - 信息安全与代码审计

    攻击Scrapyd爬虫

    0x02 如何攻击scrapyd 一顿信息搜集后,目标整个工作流程就清晰了:用户输入的URL被交给部署在scrapyd上的爬虫进行爬取,爬虫调用了Chrome渲染页面,并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫 针对6800端口的攻击在本地可以复现了,但是目标网站的6800是开启在内网的,我们无法直接访问。 可以借助目标前端的那个SSRF吗? 另外,在MVVM架构日益流行的当下,爬虫也变得更加灵活,特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性,能让爬虫爬到的信息更加完善,但也让攻击者有更多攻击途径 对于此类动态爬虫攻击者可以对浏览器或js引擎本身进行攻击,或者如我这样利用JavaScript攻击内网里一些基础服务。 另外,经常会有人在运行爬虫的时候会设置--no-sandbox、--disable-web-security等危险选项,这也给攻击者提供了很多便利,我建议利用普通用户权限启动浏览器爬虫,以避免使用这些不安全的选项

    1.3K41发布于 2020-10-15
  • 来自专栏偶尔敲代码

    网站防御爬虫攻击的几种方式

    适用网站:所有网站 爬虫:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。 5、用户登录才能访问网站内容 搜索引擎爬虫不会对每个这样类型的网站设计登录程序。 适用网站:极度讨厌搜索引擎,且想阻止大部分爬虫的网站 爬虫:制作拟用户登录提交表单行为的模块。 爬虫:伪装HTTP_REFERER,不难。 而且这样对搜索引擎爬虫没影响。 适用网站:动态网站,并且不考虑用户体验 爬虫:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。 但是,这对搜索引擎爬虫没多大影响。

    1.3K50编辑于 2023-04-28
  • 来自专栏分布式爬虫

    11、web爬虫讲解2—Scrapy框架爬虫—Scrapy使用

    设置爬虫获取到的信息容器类,必须继承scrapy.Item类 scrapy.Field()方法,定义变量用scrapy.Field()方法接收爬虫指定字段的信息 # -*- coding: utf-8 ,就相当于是容器文件 class AdcItem(scrapy.Item):    #设置爬虫获取到的信息容器类     # define the fields for your item here  like:     # name = scrapy.Field()     title = scrapy.Field()      #接收爬虫获取到的title信息     link = scrapy.Field ()       #接收爬虫获取到的连接信息     comment = scrapy.Field()    #接收爬虫获取到的商品评论数 第二步、编写pach.py爬虫文件 定义爬虫类,必须继承scrapy.Spider name设置爬虫名称 allowed_domains设置爬取域名 start_urls设置爬取网址 parse(response)爬虫回调函数,接收response,response里是获取到的html

    54700发布于 2019-07-06
  • 来自专栏python3

    Python3网络爬虫实战-11爬虫

    ScrapyRedis的安装 ScrapyRedis 是 Scrapy 分布式的扩展模块,有了它我们可以方便地实现 Scrapy 分布式爬虫的搭建,本节来介绍一下 ScrapyRedis 的安装方式。

    77900发布于 2020-01-03
  • 来自专栏python3

    Python爬虫11-XML与XPath

    GitHub代码练习地址:用lxml解析HTML,文件读取,etree和XPath的配合使用:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac17_xpath%26lxml.py XML - XML(EXtensibleMarkupLanguage) - 官方文档http://www.w3school.com.cn/xml/index.asp - 概念:父节点,子节点,先辈节点,兄弟节点,后代节点 XPath - XPat

    71130发布于 2020-01-16
  • 来自专栏ZNing·腾创库

    爬虫和抗DDOS攻击技术实践

    导语 企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内 ;q=0.4' -H 'Upgrade-Insecure-Requests: 1' -H 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11 ;q=0.4' -H 'upgrade-insecure-requests: 1' -H 'user-agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11 起到一定的防DDOS攻击的效果 通过上图我们可以看到,关键就是两次票据的签发与验证,一次由浏览器签发,一次由后台签发,但是验证真伪都是在服务端进行,这样做的最终效果就是,要对我们的界面进行抓取或攻击的人 ,必须按照我们设定的套路运转,就会增加他下载js并执行我们js的过程,如果有攻击方利用xss 获的肉机,对我们的域名发起攻击时,由于我们有两次票据验证,而去其中有一个票据的有效期时间很短,基本上不太可能对我们的服务器造成连续伤害了

    6.1K20发布于 2017-04-26
  • 来自专栏TeamsSix的网络空间安全专栏

    CS学习笔记 | 11、用户驱动溢出攻击

    0x02 浏览器转发 浏览器转发是指在已经攻击成功的目标中,利用目标的信息登录网站进行会话劫持,但是目前只支持目标正在使用IE浏览器的前提下。

    1.1K20发布于 2020-07-01
  • 来自专栏FreeBuf

    从5月11号网易被攻击谈起:新型DDoS攻击LFA

    5月11日晚上9时许,网易的大量用户发现访问网易新闻出现问题,相应的,有很多游戏用户报告说游戏掉线严重。一时间,有关“网易大楼着火”的谣传甚嚣。 图1 网易新闻客户端微博内容 这次攻击,相较于以往的DDoS攻击,官方描述比较特别:“骨干网络遭受攻击”。笔者敏锐地意识到这是最近学术界才提出的LFA攻击攻击范例比较少。 新型的DDoS攻击:Link Flooding Attack(链路洪泛攻击) LFA,可以认为是一种新型的DDoS攻击,全称Link Flooding Attack(链路洪泛攻击)。 根据LFA的一次攻击实例,笔者推测,攻击者可能攻击了网易机房的上层交换节点或其他类似机构(甚至可能是IXP,ISP之间的交换节点)。 总结起来,LFA的攻击具有如下特点: 1.低密度流量攻击,难以检测 2.攻击成本低 3.持续久,攻击者可以不停切换攻击link 短期内解决这个问题的关键是负载均衡、加大带宽、增加链路,深层次地看,我们应该重新考虑改进我们网络的基础架构了

    2.6K70发布于 2018-02-06
  • 来自专栏FreeBuf

    “海外双11”被勒索攻击盯上,Hive累计攻击1300家公司

    近日,Hive勒索软组织对外公布了在11月份对法国体育零售商Intersport的攻击中获得的客户数据。 据法国《世界报》报道,黑客攻击包括法国北部商店的Intersport员工的护照信息、工资单、其他商店的离职和在职员工名单以及社会保险号码。 La Voix Du Nord报道说,黑客攻击发生在 "黑色星期五 "销售期间,使员工无法进入收银系统,迫使商店进行人工操作。 美国联邦政府在11月底表示,Hive已经袭击了全球1300多家公司,收取了约1亿美元的赎金。该组织使用各种方法来获得访问权,利用缺乏多因素认证的目标,访问远程桌面协议、VPN或其他远程网络连接协议。 此次攻击正是通过这些途径导致该零售商员工数据泄露。Intersport是一家瑞士公司在全球有5800家分店,其中780家位于法国。目前该公司对此事还没有做出任何回应。

    79020编辑于 2023-03-29
  • 来自专栏tendcode

    11当晚写的天猫爬虫爬虫神器 scrapy 大法好!!!

    爬虫思路 前几天我刚写了一个文章是关于安装 scrapy 的,正好装好了,于是就选择了强大的 scrapy 爬虫框架作为爬虫的工具。 确定方向 首先,在写爬虫之前,需求先确定一下爬虫的方向,也就是回答几个问题: 需要爬取什么信息? 信息的来源是哪里? 有没有其他来源?有的话,选择最简单的那个。 怎么爬?信息怎么存储? ,而经过对比发现手机天猫提取信息的接口比较方便,所以选择手机天猫的接口 使用爬虫框架 scrapy,信息存放到表格中,使用 CSV 的表格即可 接口分析 写爬虫其实本质就是请求接口,所以爬虫的第一步就是找到接口并分析接口的构成 ,可以根据需要定义一些参数 spiders 目录是用来放爬虫文件的 tm_spiders.py 是自己创建的爬虫文件 scrapy.cfg 是项目的配置文件 爬虫代码展示 其实整个的爬虫爬取信息的过程都在自己定义的爬虫文件中 # -*- coding:utf-8 -*- # date:2018-11-12 import os class FileTree(object): def __init__(self, words

    4.3K20编辑于 2022-09-26
  • 来自专栏全栈程序员必看

    漏洞挖掘——实验11 侧信道攻击+TCPIP实验

    解答 Lab 侧信道攻击 + TCP/IP实验 一、侧信道攻击 这次测信道攻击的漏洞的主要原因是:1、密码是逐个字符判断的。 文章演示了很多攻击方式利用此漏洞,包括:窃取Cookie、渗透路由器、读取本地文件等。 ,其最大特点是这种类型的攻击不依赖于起初发送到服务端的恶意数据。 这与我们上一题中的几种攻击方法显然是矛盾的,但这也是这种方法发特别之处。 这种不依赖于服务端嵌入数据的xss攻击,具有很重要的现实意义,它可以绕过很多现有的检测和防护技术。

    1K30编辑于 2022-09-14
  • 来自专栏初见Linux

    爬虫小白:11.scrapy框架(六) _媒体管道

    : # name = scrapy.Field() image_urls = scrapy.Field() #只要使用媒体管道,这个字段是固定设置的 ​ 2、spider.py文件:编写爬虫文件

    1.1K20发布于 2020-08-05
  • 来自专栏码农帮派

    Python基础学习_11_网页爬虫学习总结

    一.关于爬虫的一些零散知识 1.Robots协议 大多数网站的主页下会有robots.txt文件,标识了爬虫爬取该网站信息时,哪些资源是有限制的,可以使用Python的标准库robotparser (2-1)ID遍历爬虫 很多网站由于数据挺多,会采用page切换的方式展现数据,类似于: http://www......../page=1 http://www........ (2-2)链接爬虫 “百度百科”中爬取词条的时候,在每个词条网页中会包含相关的词条,我们可以使用爬虫对当前网页中其他词条信息进行抓取,这样就可以爬取得到大量的词条信息,但是我们会发现,爬取到的词条的url (2-4)下载限速 有些网站访问对访问速度进行了限制,为了不让爬虫被禁止,需要对爬虫下载网页的速度进行一定的限制: ?

    63430发布于 2020-04-01
  • 来自专栏武军超python专栏

    11月9日python分布式爬虫

    另外,如果需要继承,也可以定义为类方法,实例对象和类对象都可以调用 使用分布式必须要安装: pip install scrapy-redis 分布式: 分布式爬虫的难点在于多台机器之间怎么互相通信而防止爬取重复的 生成爬虫可以不加模板,不加模板的话就不会出现rules,需要自己写 起始url不写在项目中,写在redis数据库中 索引页要follow,国家内容不follow,但是有callback from scrapy_redis.spiders import RedisCrawlSpider 引入需要的模块,爬虫模块继承的类需要改成RedisCrawlSpider 如果出现填一个url才能爬取一个url 如果不指定的话默认就是相对路径的当前的目录下: 如果使用/来表示路径可以直接写绝对路径,如果使用\则需要在绝对路径的前面加r来表示不转义,以原字符解释, 路径的 最后一定要加/表示最后那个文件下: with open('G:/第四阶段/11 utf8') as f:     f.write((item['aname']+','+item['atype'] + '\n'))     f.close() with open(r'G:\第四阶段\11

    47420发布于 2019-02-25
  • 网络协议与攻击模拟-11-DHCP协议原理

    DHCP 协议 1、掌握 DHCP 的工作原理 2、会在 Windows server 上去部署 DHCP 服务 3、抓流量 .正常 ·收到攻击后 一、 DHCP 1、 DHCP 基本概念 ·

    21210编辑于 2025-08-19
  • 来自专栏FreeBuf

    滥用SaaS平台的网络钓鱼攻击暴涨11

    Bleeping Computer网站8月23日消息,根据Palo Alto Networks Unit 42的一份调查报告,研究人员发现,攻击者滥用合法软件即服务 (SaaS) 平台创建钓鱼网站的行为正在激增 此外,由于 SaaS 平台简化了创建新站点的过程,攻击者可以轻松切换到不同的主题、扩大或多样化其运营。 【按类别分类的 SaaS 平台滥用增长情况】 Unit 42 报告解释说,多数情况下,攻击者直接在被滥用的服务上托管他们的凭证窃取页面,而在一些特定情况下,托管在被滥用服务上的登录页面本身并不包含凭证窃取表单 ,相反,攻击者通过一个重定向步骤将受害者带到另一个站点。 如果最终的凭证窃取页面被删除,攻击者可以简单地更改链接并指向新的凭证窃取页面,保证钓鱼行为的持续性。

    56220编辑于 2023-03-30
  • 来自专栏python全栈教程专栏

    爬虫学习(11):爬取虎牙美女直播高清照片

    response.content) print("下载成功" + name) time.sleep(2) 我最近才学到xpath吧,所以就用的xpath,前面我已经用过正则做过类似的爬取了,其实发现爬虫真的不难

    86620发布于 2021-10-18
  • 来自专栏量子位

    攻击面管理 | 5月11日TF102

    5月11日,欢迎报名! 为工程师提供顶级交流平台 CCF TF第102期 时间 2023年5月11日 19:00-21:00 主题 攻击面管理 欢迎扫码了解详情报名现场参会 报名链接:https://conf.ccf.org.cn 当下,网络攻击已从单一漏洞逐渐演变成基于组织机构数字暴露面的口令攻击、电子凭证攻击、供应链攻击、社工库攻击等为一体的综合型攻击工程。 因此本次分享将分别对供应链攻击常用攻击手法、社工利用攻击常见攻击手法、移动应用利用攻击常见手法、数据泄露利用攻击常见手法进行逐一分析。 :CCF个人会员权益 申请公司会员,可享受更多免费名额、品牌宣传及其他权益,详情点击查看:CCF公司会员权益或咨询电话0512-65900856转27 长按识别或扫码入会 参会方式 2023年5月11

    42110编辑于 2023-05-12
  • 来自专栏我是专栏

    11来临,DDoS攻击应急预案必备技能

    不过请放心,宇众网络科技根据多年的安全防护经验,给大家献上DDoS攻击应急预案必备技能,让你轻松应对双11。 一般情况下,本地的抗DDoS攻击设备完全可以实现DDoS攻击的清洗,能自己搞定绝不麻烦别人。当受到DDoS攻击的流量超过了链路带宽的时候,这个时候就需要启动运营商的DDoS攻击清洗了。 因为安保过程中会有不少DDoS攻击是“混合”攻击(掺杂着各种不同的攻击类型),比如说:以大流量反射做背景,期间混入一些CC和连接耗尽,以及慢速攻击。 那么这个时候很有可能需要运营商清洗(针对流量型的攻击)先把大部分的流量清洗掉,把链路带宽清出来,这个时候剩下的一部分里面很有可能还有不少是攻击流量(类似慢速攻击、CC攻击等),那么就需要本地进一步的清洗了 对于此类攻击,其实严格意义来说并不能算DDoS攻击,只能算是能达到DoS效果的攻击,仅做补充场景。

    2.4K10发布于 2019-11-04
  • 来自专栏武军超python专栏

    11月7日python爬虫框架Scrapy基础知识

    在F12的Network中抓包,使用json字符串 运行爬虫需要安装win23 :  pip install pypiwin32 爬虫名文件中的回调函数可以自定义 items文件中可以自定义items 创建爬虫项目和创建爬虫的命令如下: 以下命令中的<>在实际使用的时候不要带上 1.Scrapy创建爬虫项目的命令是: scrapy startproject <projectname> 2. Scrapy创建爬虫的命令是,在项目名称下执行:(最后那个是内置的crawl模板) scrapy genspider <爬虫名称> <目标域名> --template=crawl 3. 爬虫项目的运行命令是: win需要下载pywin32  pip install pypiwin32 scrapy crawl <爬虫名称> 创建完爬虫项目后会自动生成一个spider的文件夹,这个文件夹是用于存放爬虫爬虫项目可以记录停止节点,方便下次继续爬取,方法是在开始运行项目的后边加一个属性JOBDIR scrapy crawl <爬虫名称>  -s LOG_LEVEL=INFO -s JOBDIR=craws

    52120发布于 2019-02-25
领券