首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏离别歌 - 信息安全与代码审计

    攻击Scrapyd爬虫

    0x02 如何攻击scrapyd 一顿信息搜集后,目标整个工作流程就清晰了:用户输入的URL被交给部署在scrapyd上的爬虫进行爬取,爬虫调用了Chrome渲染页面,并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫 针对6800端口的攻击在本地可以复现了,但是目标网站的6800是开启在内网的,我们无法直接访问。 可以借助目标前端的那个SSRF吗? 另外,在MVVM架构日益流行的当下,爬虫也变得更加灵活,特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性,能让爬虫爬到的信息更加完善,但也让攻击者有更多攻击途径 对于此类动态爬虫攻击者可以对浏览器或js引擎本身进行攻击,或者如我这样利用JavaScript攻击内网里一些基础服务。 另外,经常会有人在运行爬虫的时候会设置--no-sandbox、--disable-web-security等危险选项,这也给攻击者提供了很多便利,我建议利用普通用户权限启动浏览器爬虫,以避免使用这些不安全的选项

    1.3K41发布于 2020-10-15
  • 来自专栏Deep learning进阶路

    8-2 图的存储结构

    8-2 图的存储结构 1.邻接矩阵(顺序存储结构) 图结构的元素之间虽然具有“多对多”的关系,但是同样可以采用顺序存储,即使用数组有效地存储图。

    78430发布于 2019-07-02
  • 来自专栏偶尔敲代码

    网站防御爬虫攻击的几种方式

    适用网站:所有网站 爬虫:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。 5、用户登录才能访问网站内容 搜索引擎爬虫不会对每个这样类型的网站设计登录程序。 适用网站:极度讨厌搜索引擎,且想阻止大部分爬虫的网站 爬虫:制作拟用户登录提交表单行为的模块。 爬虫:伪装HTTP_REFERER,不难。 而且这样对搜索引擎爬虫没影响。 适用网站:动态网站,并且不考虑用户体验 爬虫:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。 但是,这对搜索引擎爬虫没多大影响。

    1.3K50编辑于 2023-04-28
  • 来自专栏mysql

    hhdb数据库介绍(8-2)

    单机部署属于管理平台中的功能,在使用前需要先安装好管理平台。安装步骤说明请参照集群部署功能管理平台部署说明。

    32410编辑于 2025-03-10
  • 来自专栏ZNing·腾创库

    爬虫和抗DDOS攻击技术实践

    导语 企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内 ,以便推广,那既然我们要做SEO优化为什么还要 “反爬虫” ? ,因为一般网页爬虫都不具备 js 之行能力,这样就增加了它抓取的成本。 起到一定的防DDOS攻击的效果 通过上图我们可以看到,关键就是两次票据的签发与验证,一次由浏览器签发,一次由后台签发,但是验证真伪都是在服务端进行,这样做的最终效果就是,要对我们的界面进行抓取或攻击的人 ,必须按照我们设定的套路运转,就会增加他下载js并执行我们js的过程,如果有攻击方利用xss 获的肉机,对我们的域名发起攻击时,由于我们有两次票据验证,而去其中有一个票据的有效期时间很短,基本上不太可能对我们的服务器造成连续伤害了

    6.1K20发布于 2017-04-26
  • 来自专栏华章科技

    终于有人把Scrapy爬虫框架讲明白了

    框架内组件及作用 Scrapy框架内包含的组件如下: 爬虫中间件(Spider Middleware):位于Scrapy引擎和爬虫之间的框架,主要用于处理爬虫的响应输入和请求输出。 爬虫爬虫主要是干活的,用于从特定网页中提取自己需要的信息,即所谓的项目(又称实体)。也可以从中提取URL,让Scrapy继续爬取下一个页面。 项目管道:负责处理爬虫从网页中爬取的项目,主要的功能就是持久化项目、验证项目的有效性、清除不需要的信息。当页面被爬虫解析后,将被送到项目管道,并经过几个特定的次序来处理其数据。 2. 数据流向 Scrapy数据流是由执行流程的核心引擎来控制的,流程如图8-2所示。 ? ▲图8-2 框架组件数据流 引擎打开网站,找到处理该网站的爬虫并向该爬虫请求第一个要爬取的URL。 引擎从下载器中接收到响应并通过爬虫中间件发送给爬虫处理。 爬虫处理响应,并返回爬取到的项目及新的请求给引擎。 引擎将爬虫爬取到的项目传给项目管道,将爬虫返回的请求传给调度器。

    2.1K30发布于 2021-04-20
  • 来自专栏区块链入门

    攻击】日蚀攻击,女巫攻击,重放攻击,DDOS攻击的定义?

    <3>【重放攻击(Replay Attacks)】 又称重播攻击、回放攻击,是指攻击者发送一个目的主机已接收过的包,来达到欺骗系统的目的,主要用于身份认证过程,破坏认证的正确性。 在日蚀攻击中,攻击者不像在女巫攻击(Sybil attack)中那样攻击整个网络,而是专注于隔离和瞄准某个特定节点。这种攻击通常会导致受害者节点接收到被操纵的、伪造的区块链视图。 分布式拒绝服务攻击方式在进行攻击的时候,可以对源IP地址进行伪造,这样就使得这种攻击在发生的时候隐蔽性是非常好的,同时要对攻击进行检测也是非常困难的,因此这种攻击方式也成为了非常难以防范的攻击攻击方式: 1、SYN Flood攻击 SYN Flood攻击是当前网络上最为常见的DDoS攻击,它利用了TCP协议实现上的一个缺陷。 这种攻击的特点是可以绕过普通的防火墙防护,可通过Proxy代理实施攻击,缺点是攻击静态页面的网站效果不佳,会暴露攻击者的lP地址。

    5K30发布于 2020-09-25
  • 来自专栏ops技术分享

    攻击科普:ARP攻击

    一.介绍 ARP攻击的局限性 ARP攻击仅能在以太网(局域网如:机房、内网、公司网络等)进行。 无法对外网(互联网、非本区域内的局域网)进行攻击。 ARP攻击就是通过伪造IP地址和MAC地址实现ARP欺骗,能够在网络中产生大量的ARP通信量使网络阻塞,攻击者只要持续不断的发出伪造的ARP响应包就能更改目标主机ARP缓存中的IP-MAC条目,造成网络中断或中间人攻击 ,将本应该发往电脑B的数据发送给了攻击者。 同样的,攻击者向电脑B也发送一个伪造的ARP响应,告诉电脑B:电脑A的IP地址192.168.0.1对应的MAC地址是00-aa-00-62-c6-03,电脑B也会将数据发送给攻击者。 至此攻击者就控制了电脑A和电脑B之间的流量,他可以选择被动地监测流量,获取密码和其他涉密信息,也可以伪造数据,改变电脑A和电脑B之间的通信内容。

    2.9K30发布于 2021-05-26
  • 来自专栏互联网数据官iCDO

    手把手教你用Excel分析网站流量(实例讲解)

    d3:7-26对应8-2,7-29对应8-5,分别出现的谷值峰值原因在SEO日记录表中无记录,暂时无法给出猜测,只能查看具体数据。 ? 对比7-26和8-2的流量,我们发现,是因为8-2当天整站的流量全部降低,并非单一页面引起。 ? 那为什么8-2当天会出现整张流量下降的情况呢? 当我带着这个诡异的现象再次询问网站负责人时,他想了一会儿说:“哎呀,不好意思,我忘记告诉你了,8-2号台风“妮妲”来了,公司放假一天。”哈哈,抓到一个忘记记网站日志的。 老用户流量变化如图:8-2号当天流量断崖下跌,确实是老用户引起的整站流量降低。企业员工的访问量占了自然流量的一大部分啊。 ? 综上所述,提出的猜测我们都已经验证。 但是话说回来,总会有你通过Excel猜不到,分析不出的问题,比如模拟人行为的爬虫,设置不同UA,不定时抓取等等。遇到暂时不能解决的问题,存在“难题库”,总有个契机会让你灵光乍现,解决它们的。

    2.4K160发布于 2018-03-05
  • 来自专栏Python 爬虫

    【K哥爬虫普法】北京某公司惨遭黑客攻击13000000余次,连夜报警……

    我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术 该公司称自家 App 的短信验证码接口遭受了1300 余万次恶意攻击,而且被成功匹配了30 余万个注册账号 。 -使用Python就可以轻松写出撞库攻击脚本,实现自动批量验证账户,技术门槛不高。 -撞库攻击只依赖已泄露的账号,不需要自行获取,所以攻击的成本很低。 (图片来源:NordPass) K言K语 最后再说点儿题外话,很多人对爬虫有误解,特别是一些对行业一知半解的人,认为爬虫就是一种黑客技术,但K哥必须再次为咱们爬虫工程师正名,爬虫er≠黑客。 爬虫技术的诞生是为了高效的获取一些公开的信息,提高工作效率,而不是去入侵,攻击人家的服务器。 只不过掌握了爬虫技术的人,确实离黑灰产很近,但技术无罪,有罪的是人,一念天堂一念地狱。

    47610编辑于 2023-12-18
  • 来自专栏FreeBuf

    MOTS攻击之TCP攻击

    概述 继续进行MOTS类型攻击方式的进展。 这里再次强调一下,MOTS 是指 Man-On-The-Side,是一种在旁路监听模式下的攻击方式;和 MITM 不同,MITM 是指 Man-In-The-Middle,是中间人攻击。 这种类型的攻击比中间人攻击相对隐秘,其正常情况下只是监听,需要攻击时才进行攻击,并且攻击时只需要发送少量报文,不会出现大流量。所以具有隐蔽、难以发现、攻击效果明显等特点。 ? 不了解的可以点击文末的阅读原文查看下面两篇文章: 《MOTS攻击技术分析》 《MOTS攻击之UDP攻击》 学习过TCP/IP的同学都应该了解,传输层有两种协协议:TCP和UDP,这两种协议本身的特点决定了其应用场景的不同 针对TCP的攻击这里主要介绍两种方式:DOS和劫持,其他类型的攻击,大家可以完善、补充。 2.

    1.9K50发布于 2018-02-28
  • 来自专栏全栈程序员必看

    CSRFXSRF攻击和XSS攻击

    XSS攻击发生的条件是可以执行javascript脚本,一般在站点中总会有发表文章、留言等信息的表单,这种表单一般是写入到数据库中,然后在某个页面进行展示。 我们可以在这些表单中直接编写javascript代码(<script>alert("哈哈哈哈,你被攻击了!");</script>)进行测试,看是否可以执行。 如果在信息展示页面js代码可以执行,XSS攻击就成功了。 CSRF攻击能够成功,是因为黑客可以完全伪造用户的请求,该请求中所有的用户验证信息都是存在于cookie中,因此黑客可以在不知道这些验证信息的情况下直接利用用户自己的cookie 来通过安全验证。 可以在 HTTP 请求中以参数的形式加入一个随机产生的 token,并在服务器端建立一个拦截器来验证这个 token,如果请求中没有token或者 token 内容不正确,则认为可能是 CSRF 攻击而拒绝该请求

    1.1K20编辑于 2022-07-21
  • 来自专栏python学习教程

    python爬虫学习:爬虫与反爬虫

    二.爬虫分类 网络爬虫按照实现的技术和结构一般分为通用网络爬虫、聚焦网络爬虫。从特性上也有增量式网络爬虫和深层网络爬虫等类别,在实际的网络爬虫中,通常是这几类爬虫的组合体。 通用网络爬虫 通用网络爬虫(General Purpose Web Crawler)。通用网络爬虫又叫作全网爬虫,顾名思义,通用网络爬虫爬取的目标资源在全互联网中。 聚焦网络爬虫 聚焦网络爬虫(Focused Crawler)也叫主题网络爬虫,顾名思义,聚焦网络爬虫是按照预先定义好的主题有选择地进行网页爬取的一种爬虫,聚焦网络爬虫不像通用网络爬虫一样将目标资源定位在全互联网中 一般反爬虫策略多数用在比较低级的爬虫上,这类爬虫多为简单粗暴的不顾服务器压力不停访问,再一种为失控的或被人遗忘的爬虫,这类爬虫一般需要在第一时间封锁掉。 越是高级的爬虫,越难被封锁,相应高级爬虫的开发成本也越高。 在对高级爬虫进行封锁时,如果成本高到一定程度,并且爬虫不会给自己带来大的性能压力和数据威胁时,这时就无需继续提升成本和爬虫对抗了。

    4.8K62发布于 2019-07-10
  • 来自专栏全栈程序员必看

    VB程序设计教程(第四版)龚沛曾-实验8-2

    实验8-2 将斐波那契数列的前10项写入文件Fb .dat,然后从该文件将数据读取出来并计算合计和平均数,最后送入列表框。 要求:文件数据格式如2.8.2所示,列表框中项目格式如图2.8.3所示。

    42110编辑于 2022-11-08
  • 来自专栏全栈程序员必看

    VB程序设计教程(第四版)龚沛曾 实验8-2

    VB程序设计教程(第四版)龚沛曾 实验8-2 将斐波那契数列的前10项写入文件Fb .dat,然后从该文件将数据读取出来并计算合计和平均数,最后送入列表框。

    40210编辑于 2022-11-08
  • 来自专栏全栈程序员必看

    DOS攻击工具(dos攻击教程)

    DoS(Denial Of Service)攻击是指故意的攻击网络协议实现的缺陷或直接通过野蛮手段残忍地耗尽被攻击对象的资源, 目的是让目标计算机或网络无法提供正常的服务或资源访问,使目标系统服务系统停止响应甚至崩溃 然而随着网络上免费的可用DDoS工具增多,DoS攻击也日益增长,下面介绍几款Hacker常用的DoS攻击工具。 一般来说,该工具有三种攻击模式, 第一个被称为测试模式,是非常基本的; 第二个是正常的DOS攻击模式; 最后一个是带有HTTP / TCP / UDP / ICMP消息的DOS攻击模式。 这些是DDOSIM的主要特点: 模拟几个僵尸攻击 随机的IP地址 TCP-connection-based攻击 应用程序层DDOS攻击 HTTP DDos等有效的请求 与无效请求HTTP DDoS(类似于直流 您可以使用这个工具来检查您的web服务器能否够捍卫得住别人的DOS攻击。 当然,不仅对防御,它也可以用来执行DOS攻击哦。

    7.1K31编辑于 2022-08-02
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 8-2 scikit-learn中的多项式回归与pipeline

    本系列是《玩转机器学习教程》一个整理的视频笔记。在上一小节介绍了多项式回归的基本思想,本小节主要介绍sklearn是如何对多项式进行封装的,之后介绍一种类似Linux中"|"管道的Pipeline类。

    1.9K10发布于 2019-12-16
  • 来自专栏短信接收服务

    爬虫系列:爬虫介绍

    而数据采集采集就需要使用到网络爬虫(Web crawler),网络爬虫也会被称为:网络铲(Web scraper,可类比于考古用的洛阳铲)、网络蜘蛛(Web spider),其行为一般是先“爬”到对应的网页上 网络搜索引擎和其他一些网站使用网络爬虫或蜘蛛软件来更新他们的网络内容或其他网站的网络内容索引。网络爬虫复制页面以供搜索引擎处理,搜索引擎对下载的页面进行索引,以便用户可以更有效地搜索。 对于一些涉及查看当下热门话题的爬虫项目,还需要使用自然语言处理。 在网络爬虫抓取数据的时候,目标网站可能设置了验证码、网络爬虫陷阱,同时相同的 User-Agent 也会被视为非正常用户,这些都需要避开。 以上都是网络爬虫需要的技能,我会在接下来的章节中,详细介绍爬虫的每一个技术,使大家学会使用网络爬虫获取自己需要的数据。

    1.4K12发布于 2021-10-12
  • 来自专栏服务器安全

    DDOS攻击攻击种类和原理

    DoS攻击、DDoS攻击和DRDoS攻击相信大家已经早有耳闻了吧! 不过这3种攻击方法最厉害的还是DDoS,那个DRDoS攻击虽然是新近出的一种攻击方法,但它只是DDoS攻击的变形,它的唯一不同就是不用占领大量的“肉鸡”。 SYN攻击是当前网络上最为常见DDos攻击,也是最为经典的拒绝服务攻击,它利用了TCP协议实现上的一个缺陷,通过向网络服务所在端口发送大量的伪造源地址的攻击报文,就可能造成目标服务器中的半开连接队列被占满 还是刚才的那个例子,你的机器每秒能发送10个攻击数据包,而被攻击的机器每秒能够接受100的数据包,这样你的攻击肯定不会起作用,而你再用10台或更多的机器来对被攻击目标的机器进行攻击的话,那结果就可想而知了 同Smurf攻击一样,黑客所发送的请求包的源IP地址是被攻击主机的地址,这样受欺骗的主机就都会把回应发到被攻击主机处,造成被攻击主机忙于处理这些回应而瘫痪。 DDoS究竟如何攻击?

    5.2K00发布于 2018-09-07
  • 网络攻击原理与攻击方法

    网络攻击原理 网络攻击攻击者发起,使用一定的攻击工具,通过某种访问方式,达到一定的攻击效果,实现某种攻击意图。其基本原理包括: 利用漏洞:网络攻击往往依赖于目标系统、软件或网络通信中存在的漏洞。 攻击者会利用这些漏洞来执行恶意操作,如数据窃取、系统资源滥用或恶意代码的传播。 社会工程学:社会工程学是攻击者利用人类心理和行为模式来获取信息或操控行为的技巧。 网络攻击方法 以下是一些常见的网络攻击方法及其详细描述: 恶意软件攻击: 病毒:具有自我复制功能的恶意软件,可以通过感染其他文件或系统来扩散。 钓鱼攻击: 基本原理:攻击者伪装成合法实体或组织,引诱用户提供个人敏感信息,如账号密码、信用卡信息等。这种攻击形式广泛存在于日常的数字生活中,通常通过电子邮件、社交媒体信息或虚假网站等渠道展开。 跨站脚本攻击(XSS): 基本原理:攻击者利用Web程序对用户输入检查不足的漏洞,将可执行恶意脚本注入网站或Web应用。

    38010编辑于 2026-02-03
领券