首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏离别歌 - 信息安全与代码审计

    攻击Scrapyd爬虫

    0x02 如何攻击scrapyd 一顿信息搜集后,目标整个工作流程就清晰了:用户输入的URL被交给部署在scrapyd上的爬虫进行爬取,爬虫调用了Chrome渲染页面,并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫 针对6800端口的攻击在本地可以复现了,但是目标网站的6800是开启在内网的,我们无法直接访问。 可以借助目标前端的那个SSRF吗? 另外,在MVVM架构日益流行的当下,爬虫也变得更加灵活,特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性,能让爬虫爬到的信息更加完善,但也让攻击者有更多攻击途径 对于此类动态爬虫攻击者可以对浏览器或js引擎本身进行攻击,或者如我这样利用JavaScript攻击内网里一些基础服务。 另外,经常会有人在运行爬虫的时候会设置--no-sandbox、--disable-web-security等危险选项,这也给攻击者提供了很多便利,我建议利用普通用户权限启动浏览器爬虫,以避免使用这些不安全的选项

    1.3K41发布于 2020-10-15
  • 来自专栏企鹅号快讯

    6爬虫利器,轻松搞定爬虫

    今天小编就来推荐6个牛逼的爬虫利器,助你轻松搞定爬虫。 在分析爬虫的请求时,有时候仅仅依靠浏览器来跟踪请求力量太显单薄了,特别是针对移动设备的爬虫束手无策,Fiddler 简直就是移动设备上爬虫的克星,手机上如何HTTP请求都可以被Fiddler监控,有了它 比如自动打开百度: 5、Tesseract Tesseract 是一个文字识别工具,在一些复杂的爬虫情景下,服务器的反爬虫需要用户输入验证码才能进行下一步操作,而 Tesseract 可以自动识别出验证码 GtiHub地址: https://github.com/tesseract-ocr/tesseract 6、Scrapy 写爬虫用Requests只能是搞搞小项目,适合刚入门的小白学习或者是简单的业务场景 ,如果是做大规模爬虫,Scrapy 的效率、性能都是工业级别的,你无需自己造轮子。

    1.2K60发布于 2018-01-11
  • 来自专栏编程

    6爬虫利器,轻松搞定爬虫

    今天小编就来推荐10个牛逼的爬虫利器,助你轻松搞定爬虫。 在分析爬虫的请求时,有时候仅仅依靠浏览器来跟踪请求力量太显单薄了,特别是针对移动设备的爬虫束手无策,Fiddler 简直就是移动设备上爬虫的克星,手机上如何HTTP请求都可以被Fiddler监控,有了它 比如自动打开百度: 5、Tesseract Tesseract 是一个文字识别工具,在一些复杂的爬虫情景下,服务器的反爬虫需要用户输入验证码才能进行下一步操作,而 Tesseract 可以自动识别出验证码 GtiHub地址:https://github.com/tesseract-ocr/tesseract 6、Scrapy 写爬虫用Requests只能是搞搞小项目,适合刚入门的小白学习或者是简单的业务场景 分布式爬虫就用Scrapy。 Python网络爬虫与数据挖掘

    1.4K80发布于 2018-01-30
  • 来自专栏偶尔敲代码

    网站防御爬虫攻击的几种方式

    适用网站:极度讨厌搜索引擎,且想阻止大部分爬虫的网站 爬虫:制作拟用户登录提交表单行为的模块。 6、利用脚本语言做分页(隐藏分页) 搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。 爬虫:伪装HTTP_REFERER,不难。 而且这样对搜索引擎爬虫没影响。 适用网站:动态网站,并且不考虑用户体验 爬虫:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。 但是,这对搜索引擎爬虫没多大影响。

    1.3K50编辑于 2023-04-28
  • 来自专栏ZNing·腾创库

    爬虫和抗DDOS攻击技术实践

    导语 企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内 ,以便推广,那既然我们要做SEO优化为什么还要 “反爬虫” ? .eyJkYXRhIjpbXSwiZWkiOjUsInN0IjoiMTQ5MTg5OTczNjQ3NyIsImlhdCI6MTQ5MTg5OTc0M30.fTAsbJZNOTsHk0QoLfZIA-AXhO6ezaCOiCTj8lYCqO4 起到一定的防DDOS攻击的效果 通过上图我们可以看到,关键就是两次票据的签发与验证,一次由浏览器签发,一次由后台签发,但是验证真伪都是在服务端进行,这样做的最终效果就是,要对我们的界面进行抓取或攻击的人 ,必须按照我们设定的套路运转,就会增加他下载js并执行我们js的过程,如果有攻击方利用xss 获的肉机,对我们的域名发起攻击时,由于我们有两次票据验证,而去其中有一个票据的有效期时间很短,基本上不太可能对我们的服务器造成连续伤害了

    6.1K20发布于 2017-04-26
  • 来自专栏python全栈教程专栏

    爬虫学习(6):requets使用(1)

    用这里的cookie来获取网页: import requests headers={ 'Cookie':'_zap=f4cf1039-988d-4506-86b0-4a66e741c6b1 capsion_ticket|44:N2ExMGExOTQ3YWIwNGE1YzliMTc1Mzk0ZmEwMjAyYTE=|5aecaa59c17c237af06b47a7b1402eb5b996139c8a6e1d15490899fab3c17108 "; KLBRSID=031b5396d5ab406499e2ac6fe1bb1a43|1611673848|1611672766; z_c0="2|1:0|10:1611673849|4:z_c0|92 :Mi4xUkFJd0lnQUFBQUFBWU54b1VZY1pFaVlBQUFCZ0FsVk4tWDc5WUFCQmZYWFB4ZkM5Z3l6ZlRNSENUUHVhR0lmYy1B|6d89241fc554ad378bce7f27715f2a4cc63cf87028c2da1e4104423b99ee14ee "; unlock_ticket="APBUrbfKXhImAAAAYAJVTQE4EGCaxoSZiXGfIktWFZReL6J3wOaKOQ=="', 'User-Agent':'Mozilla

    45920发布于 2021-10-18
  • 来自专栏米扑专栏

    Python 学习入门(6)—— 网页爬虫

    urllib.request.urlopen(url).read() print(data) getdata() 1)、url为网址,需要加'http://' 2)、content为网页的html源码 问题: 1.1、网站禁止爬虫 , headers=headers) content = urllib2.urlopen(req).read() print content 更复杂的情况(需要登录,多线程抓取)可参考:python爬虫抓站的一些技巧总结 参考推荐: Python抓取网页&批量下载文件方法 [Python]网络爬虫(一)(系列教程) 开源python网络爬虫框架Scrapy Python之HTML的解析(网页抓取一) Python 写爬虫——抓取网页并解析HTML 详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)

    2.4K20发布于 2019-02-19
  • 来自专栏TeamsSix的网络空间安全专栏

    Python Scrapy 爬虫框架 | 6、继续爬虫、终止和重启任务

    有时候我们不想只爬一个页面的,比如之前我只爬了主页,但是现在想把其他页面的也爬下来,这就是本文的任务。

    1.1K20发布于 2019-12-31
  • 来自专栏程序员的知识天地

    大规模异步新闻爬虫6】:用asyncio实现异步爬虫

    到了这里,可能有小猿要问,为什么不用多线程、多进程实现爬虫呢? 没错,多线程和多进程也可以提高前面那个同步爬虫的抓取效率,但是异步IO提高的更多,也更适合爬虫这个场景。 有了异步下载器,我们的异步爬虫就可以写起来啦~ 2. 异步新闻爬虫 跟同步爬虫一样,我们还是把整个爬虫定义为一个类,它的主要成员有: self.urlpool 网址池 self.loop 异步的事件循环 self.seesion aiohttp.ClientSession 爬虫类的相关方法,参加下面的完整实现代码: #! 如何控制hub的刷新频率,及时发现最新新闻 这是我们写新闻爬虫要考虑的一个很重要的问题,我们实现的新闻爬虫中并没有实现这个机制,小猿们来思考一下,并对手实现实现。

    1.6K30发布于 2019-05-15
  • 来自专栏嘘、小点声

    python网络爬虫6)爬取数据静态

    爬取静态数据并存储json import requests import chardet from bs4 import BeautifulSoup import json user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0' headers={'User-Agent':user_

    56220发布于 2019-07-31
  • 来自专栏PHP在线

    6个常见的 PHP 安全性攻击

      了解常见的PHP应用程序安全威胁,可以确保你的PHP应用程序不受攻击。因此,本文将列出 6个常见的 PHP 安全性攻击,欢迎大家来阅读和学习。    1、SQL注入   SQL注入是一种恶意攻击,用户利用在表单字段输入SQL语句的方式来影响正常的SQL执行。 $district; echo '
    '; } $stmt->close(); }   2、XSS攻击   XSS(跨站点脚本攻击)是一种攻击,由用户输入一些数据到你的网站 烦人的弹窗   刷新或重定向   损坏网页或表单   窃取cookie   AJAX(XMLHttpRequest)   防止XSS攻击   为了防止XSS攻击,使用PHP的htmlentities 6、代码注入   代码注入是利用计算机漏洞通过处理无效数据造成的。问题出在,当你不小心执行任意代码,通常通过文件包含。写得很糟糕的代码可以允许一个远程文件包含并执行。

    2.3K50发布于 2018-03-08
  • 来自专栏沈唁志

    6个常见的 PHP 安全性攻击

    了解常见的 PHP 应用程序安全威胁,可以确保你的 PHP 应用程序不受攻击。因此,本文将列出 6 个常见的 PHP 安全性攻击,欢迎大家来阅读和学习。 $district; echo '
    '; } $stmt->close(); } 2、XSS 攻击  XSS(跨站点脚本攻击)是一种攻击,由用户输入一些数据到你的网站,其中包括客户端脚本 烦人的弹窗 刷新或重定向 损坏网页或表单 窃取 cookie AJAX(XMLHttpRequest) 防止 XSS 攻击  为了防止 XSS 攻击,使用 PHP 的 htmlentities()函数过滤再输出到浏览器 6、代码注入  代码注入是利用计算机漏洞通过处理无效数据造成的。问题出在,当你不小心执行任意代码,通常通过文件包含。写得很糟糕的代码可以允许一个远程文件包含并执行。 原创文章采用CC BY-NC-SA 4.0协议进行许可,转载请注明:转载自:6个常见的 PHP 安全性攻击

    1.7K10发布于 2018-05-24
  • 来自专栏若是烟花

    python爬虫----(6. scrapy框架,抓取亚马逊数据)

    利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦。耽误了好久,还是豆瓣好呀,URL那么的规范。唉,亚马逊URL乱七八糟的.... 可能对url理解还不够.

    2.1K10发布于 2020-07-27
  • 来自专栏FreeBuf

    浅谈拒绝服务攻击的原理与防御(6):拒绝服务攻击的防御

    特征匹配:在攻击发生时统计攻击报文的特征,例如源IP、ID、TTL、flag标志位、seq等字段,然后丢弃与攻击报文有相同特征的报文,但是对于完全随机的攻击报文则无法防御。 CC攻击的防御 防御cc攻击的重点在于反欺骗,在海量的连接中需要分辨出攻击流量与正常流量 ,如何分辨出攻击流量与正常流量正是防 CC攻击的难点。 Botnet攻击:目前没有可行的办法针对这种攻击,因为攻击方都是大量的真是存在的主机,只是受到黑客的控制同时访问服务器,不过这种botnet攻击如果受控主机数量不太大那么攻击效果也不会太明显。 反射型攻击的防御 反射性攻击或者说所有的以大流量为手段的攻击方式在用户端基本都是无法防御的,因为这些攻击报文到达用户的设备的时候,攻击的目的已经达到了,阻塞和丢包是在运营商路由器接口处就发生了,抵御这种攻击最简单的方法就是拔掉网线 ,攻击者如果采用固定模式、固定带宽攻击,在分析到这类攻击后可实施阻断; 动态指纹识别:根据检查和生产攻击指纹,匹配后期攻击数据; 最后的流量限速:丢车保帅的策略,经过前期过滤发现流量都为正常访问,但是仍然超出应用所能承受范围

    2.8K50发布于 2018-02-24
  • 来自专栏机器学习算法与Python学习

    Python:爬虫系列笔记(6) -- 正则化表达(推荐)

    6.lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。 6.span([group]): 返回(start(group), end(group))。 7.expand(template): 将匹配到的分组代入template中然后返回。 # m.start(2): 6# m.end(2): 11# m.span(2): (6, 11)# m.expand(r'\2 \1\3'): world hello! \d+')for m in re.finditer(pattern,'one1two2three3four4'): print m.group(), ### 输出 #### 1 2 3 4 (6) 转载:静觅 » Python爬虫入门七之正则表达式

    1.4K80发布于 2018-04-04
  • 来自专栏网络安全防护

    IPv6时代如何防御DDoS攻击

    从去年年底,国家也在大力推进IPv6协议,但随着IPv6时代的到来,IPv6网络下的攻击也开始出现。 就在今年年初,Neustar宣称受到了IPv6DDoS攻击,这是首个对外公开的IPv6 DDoS攻击事件。 IPv6协议的某一些新特性有可能被不法分子利用发起DDoS攻击: 1、IPv6新增NS/NA/RS/RA,可能会被用于DoS或DDoS攻击; 2、IPv6的NextHeader新特性可能被黑客用于发起 ,同时子网下可能存在非常多可使用的IP地址,攻击者可以便利的发起随机源DDoS攻击; 4、IPv6采用端到端的分片重组机制,如果服务器存在漏洞,可能会被精心伪造的分片包DoS攻击。 ,用来发起ddos攻击

    2.1K11发布于 2018-12-21
  • 来自专栏渗透测试专栏

    渗透测试XSS漏洞原理与验证(6)——Cookie攻击

    Cookie攻击常见的Cookie攻击方式实现基于HTTP Cookie攻击的前提是目标系统在Cookie中保存了用户ID、凭证状态等其它可以用来进行攻击的信息。 常见的基于Cookie的攻击方式有三种:直接访问Cookie文件查找想要的机密信息;在客户端和服务端进行Cookie信息传递的时候进行窃取,从而冒充合法用户操作;攻击者修改Cookie信息,所以在服务端接收到客户端获取的 Cookie信息的时候就会对攻击者伪造过的Cookie信息操作。 \n");将$cookie变量的内容写入文件指针$log处fclose($log);关闭已经打开的$log指针XSS钓鱼攻击网络钓鱼(Phishing)是一种利用欺骗性的电子邮件和伪造的Web站点进行网络诈骗 ,意图引诱受害者给出敏感信息(如用户名、口令、身份证号等信息)的攻击手段主要通过对受害者心理弱点、好奇心、信任度等心理陷阱来实现诈骗。

    1K00编辑于 2024-11-08
  • 来自专栏来自GitOPEN的技术文摘

    《手把手带你学爬虫──初级篇》第6课 强大的爬虫框架Scrapy

    本教程所有源码下载链接:https://share.weiyun.com/5xmFeUO 密码:fzwh6g 强大的爬虫框架Scrapy 简介与安装 Scrapy是一个Python爬虫应用框架,爬取和处理结构性数据非常方便 demo执行爬虫。 、信息,操作爬虫等。 在网络爬虫中通常会把爬虫获取的HTML数据转换成XML结构,然后通过XPath解析,获取我们想要的结果。 = False; 在settings.py中,配置User-Agent: USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6)

    1.5K62发布于 2019-01-29
  • 来自专栏分布式爬虫

    6、web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求

    利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码 read()读出html源码内容 decode("utf-8")将字节转化成字符串 #! csrf-param" content="_csrf"> <meta name="csrf-token" content="X1pZZnpKWnQAIGkLFisPFT4jLlJNIWMHHWM<em>6</em>HBBnbiwPbz4 request.urlretrieve('http://edu.51cto.com/course/8360.html', file_path) #下载这个文件保存到指定路径 urlcleanup()清除<em>爬虫</em>产生的内存

    89380发布于 2019-07-04
  • 来自专栏技术探究

    爬虫系列(6)数据提取--正则表达式。

    在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!

    1.5K30发布于 2019-07-10
领券