首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏离别歌 - 信息安全与代码审计

    攻击Scrapyd爬虫

    0x02 如何攻击scrapyd 一顿信息搜集后,目标整个工作流程就清晰了:用户输入的URL被交给部署在scrapyd上的爬虫进行爬取,爬虫调用了Chrome渲染页面,并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫 针对6800端口的攻击在本地可以复现了,但是目标网站的6800是开启在内网的,我们无法直接访问。 可以借助目标前端的那个SSRF吗? 另外,在MVVM架构日益流行的当下,爬虫也变得更加灵活,特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性,能让爬虫爬到的信息更加完善,但也让攻击者有更多攻击途径 对于此类动态爬虫攻击者可以对浏览器或js引擎本身进行攻击,或者如我这样利用JavaScript攻击内网里一些基础服务。 另外,经常会有人在运行爬虫的时候会设置--no-sandbox、--disable-web-security等危险选项,这也给攻击者提供了很多便利,我建议利用普通用户权限启动浏览器爬虫,以避免使用这些不安全的选项

    1.3K41发布于 2020-10-15
  • 来自专栏偶尔敲代码

    网站防御爬虫攻击的几种方式

    适用网站:极度讨厌搜索引擎,且想阻止大部分爬虫的网站 爬虫:制作拟用户登录提交表单行为的模块。 爬虫:伪装HTTP_REFERER,不难。 8、全flash、图片或者pdf来呈现网站内容 对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道 适用网站:媒体设计类并且不在意搜索引擎收录的网站 爬虫:不爬了,走人 9、网站随机采用不同模版 而且这样对搜索引擎爬虫没影响。 适用网站:动态网站,并且不考虑用户体验 爬虫:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。 但是,这对搜索引擎爬虫没多大影响。

    1.3K50编辑于 2023-04-28
  • 来自专栏程序员的知识天地

    Python爬虫入门,8个常用爬虫技巧盘点

    python入门时 用得最多的还是各类爬虫脚本, 写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本 写过自动收邮件的脚本、写过简单的验证码识别的脚本。 这些脚本有一个共性,都是和web相关的, 总要用到获取链接的一些方法,故累积了不少爬虫抓站的经验, 在此总结一下,那么以后做东西也就不用重复劳动了。 4.伪装成浏览器访问 某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。 这时候我们需要伪装成浏览器, 这可以通过修改http包中的header来实现: ? 8、多线程并发抓取 单线程太慢的话,就需要多线程了, 这里给个简单的线程池模板 这个程序只是简单地打印了1-10, 但是可以看出是并发的。 虽然说Python的多线程很鸡肋 但是对于爬虫这种网络频繁型, 还是能一定程度提高效率的。 ? 9.

    67110发布于 2018-12-13
  • 来自专栏机器学习算法与Python学习

    Python 爬虫8 个常用的爬虫技巧总结!

    文 / j_hao104 用python也差不多一年多了,python应用最多的场景还是web快速开发、爬虫、自动化运维:写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,这里总结一下,以后也能省些事情。 ,于是对爬虫一律拒绝请求。 StringIO.StringIO(compresseddata) gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read() 8、 虽然说python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。

    1.5K20发布于 2019-07-04
  • 来自专栏ZNing·腾创库

    爬虫和抗DDOS攻击技术实践

    导语 企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内 ,以便推广,那既然我们要做SEO优化为什么还要 “反爬虫” ? eyJkYXRhIjpbXSwiZWkiOjUsInN0IjoiMTQ5MTg5OTczNjQ3NyIsImlhdCI6MTQ5MTg5OTc0M30.fTAsbJZNOTsHk0QoLfZIA-AXhO6ezaCOiCTj8lYCqO4 起到一定的防DDOS攻击的效果 通过上图我们可以看到,关键就是两次票据的签发与验证,一次由浏览器签发,一次由后台签发,但是验证真伪都是在服务端进行,这样做的最终效果就是,要对我们的界面进行抓取或攻击的人 ,必须按照我们设定的套路运转,就会增加他下载js并执行我们js的过程,如果有攻击方利用xss 获的肉机,对我们的域名发起攻击时,由于我们有两次票据验证,而去其中有一个票据的有效期时间很短,基本上不太可能对我们的服务器造成连续伤害了

    6.1K20发布于 2017-04-26
  • 来自专栏zaking's

    黑客玩具入门——8、其他攻击手段

    1、拒绝服务攻击 使用某些手段故意占用某一系统对外服务的有限资源,从而导致其无法正常工作的行为就是拒绝服务攻击。实际上拒绝服务攻击并不是一个攻击方式,它是一类具有相似特征的攻击方式的集合。 拒绝服务攻击有以下分类: 1. 2.网络层的拒绝服务攻击 TCP和UDP就位于这一层,而基于TCP的拒绝服务攻击,就是大家常说的拒绝服务攻击。大部分的服务器都是提供HTTP服务的服务器,HTTP协议就是TCP提供的支持。 攻击 大家常说的DDOS攻击,翻译过来就是分布式拒绝服务攻击,也就是很多的机器同时对目标发起拒绝服务攻击,这就是为什么DDOS往往和肉鸡这个词一起出现的原因。 2、用Kali Linux 蜜罐引诱可能的攻击者进入陷阱 什么是蜜罐?许多安全专家都喜欢的一个东西就是蜜罐。简单地说,蜜罐是模拟特定网络攻击目标的系统。

    54711编辑于 2023-12-02
  • 来自专栏测试开发技术

    Python爬虫必备的8大技巧,收藏!

    想要快速学习爬虫,最值得学习的语言一定是Python,Python应用场景比较多,比如:Web快速开发、爬虫、自动化运维等等,可以做简单网站、自动发帖脚本、收发邮件脚本、简单验证码识别脚本。 爬虫在开发过程中也有很多复用的过程,今天就总结一下必备的8大技巧,以后也能省时省力,高效完成任务。 ,于是对爬虫一律拒绝请求。 StringIO.StringIO(compresseddata) gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read() 8、 虽然说Python的多线程很鸡肋,但是对于爬虫这种网络频繁型,还是能一定程度提高效率的。

    35310编辑于 2024-11-06
  • 来自专栏运维经验分享

    Scrapy爬虫8)scrapy-splash的入门

    scrapy_splash.SplashAwareDupeFilter' HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage' 1 2 3 4 5 6 7 8 创建爬虫文件phoneSpider.py, 代码如下: # -*- coding: utf-8 -*- from scrapy import Spider, Request from scrapy_splash ').extract() print('='*40) print(''.join(info)) print('='*40) 1 2 3 4 5 6 7 8 运行爬虫,scrapy crawl phone, 结果如下: ?   

    2K30发布于 2019-03-11
  • 来自专栏若城技术专栏

    爬虫入门指南(8): 编写天气数据爬虫程序,实现可视化分析

    本文介绍了如何使用Python编写一个简单的天气数据爬虫程序,通过爬取指定网站上的天气数据,并使用Matplotlib库对数据进行可视化分析。 首先,我们使用requests库向指定的URL发送GET请求,并指定编码为utf-8。然后,我们使用BeautifulSoup库解析网页内容,并通过CSS选择器获取温度数据。 shtml' # 天气预报页面的URL response = requests.get(url) # 发送GET请求,获取网页内容 response.encoding = 'utf-8' 将编码设置为utf-8,以确保正确解析中文。 使用BeautifulSoup(response.text, 'html.parser')解析网页内容。 运行效果 完结 历时一个星期 终于将爬虫这点东西搞完了, 可能会有写欠缺,但是也还好, 希望可以帮助各位辛勤劳作的朋友

    1K10编辑于 2024-02-29
  • 来自专栏机器学习算法与Python学习

    Python:爬虫系列笔记(8) -- 爬去MM图片

    转载于:静觅 » Python爬虫实战四之抓取淘宝MM照片 链接:http://cuiqingcai.com/1001.html 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 我们首先抓取本页面的MM详情页面地址,姓名,年龄等等的信息打印出来,直接贴代码如下 123456789101112131415161718192 __author__ = 'CQC'# -*- coding:utf-8 ".txt" f = open(fileName,"w+") print u"正在偷偷保存她的个人信息为",fileName f.write(content.encode('utf-8' else: # 如果目录存在则不创建,并提示目录已存在 return False 3.代码完善 主要的知识点已经在前面都涉及到了,如果大家前面的章节都已经看了,完成这个爬虫不在话下 spider.savePagesInfo(2,10) 1 tool.py 123456789101112131415161718192 __author__ = 'CQC'#-*- coding:utf-8

    1.1K60发布于 2018-04-04
  • 来自专栏嘘、小点声

    python网络爬虫8)多媒体文件抽取

    回调函数中,count表示已下载的数据块,size数据块大小,total表示总大小。

    57520发布于 2019-07-31
  • 来自专栏OneMoreThink的专栏

    应急靶场(8):【玄机】常见攻击事件分析--钓鱼邮件

    靶场地址:https://xj.edisec.net/challenges/52 靶场背景:小张的公司最近遭到了钓鱼邮件攻击,多名员工的终端被控制做为跳板攻击了内网系统。

    90520编辑于 2024-10-15
  • 来自专栏网络安全攻防

    K8s Dashboard Config利用攻击

    describe secret -n kubernetes-dashboard default-token-6lf6k Step 7:修改config.conf添加下面的token部分 Step 8

    54120编辑于 2023-05-12
  • 来自专栏分布式爬虫

    8、web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用

    /usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import random #引入随机模块文件 请求时自动使用代理IP #请求 url = "https://www.baidu.com/" data = urllib.request.urlopen(url).read().decode("utf-8" /usr/bin/env python -- coding: utf-8 -- import urllib from urllib import request import random #引入随机模块文件 /usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json def random import re import urllib.erro def hq_html(hq_url): """ hq_html()封装的爬虫函数,自动启用了用户代理和ip代理

    1.1K50发布于 2019-07-05
  • 来自专栏技术经验分享

    WordPress网站防止他人恶意攻击8种方法

    本站开放注册是想让更多的同道中人一起学习进步分享所得的目的,单近日(2019.06.07-10)本站遭到不明人士恶意注册,很是气人,所以本篇文章分享的是网站如何防止他人恶意攻击。 在网上全百科搜集了以下8中比较实用的方法,有些适用于所有网站。 第一种 直接关闭注册功能。也可以在注册页面上加入验证码等功能,防止机器恶意注册。 第二种 一个纯代码实现的方法。

    1.9K20发布于 2019-06-13
  • 来自专栏渗透测试专栏

    渗透测试XSS漏洞原理与验证(8)——XSS攻击防御

    XSS FilterXSS Filter的作用是通过正则的方式对用户(客户端)请求的参数做脚本的过滤,从而达到防范XSS攻击的效果。 XSS Filter作为防御跨站攻击的主要手段之一,已经广泛应用在各类Web系统之中包括现今的许多应用软件,例如Chrome浏览器,通过加入XSSFilter功能可以有效防范所有非持久型的XSS攻击攻击 HTML编码在防止XSS攻击上起到很大的作用,它主要是用对应的HTML标记换为实体,这样做可确保浏览器显示实体,但不运行他们,将其当作HTML文档的内容而非结构加以处理。 结合使用输入过滤和输出编码能够提供两层防御,即使攻击者发现其中一种过滤存在缺陷,另一种过滤仍然能够在很大程度上阻止其实施攻击。 Web安全编码规范在输出数据前对潜在威胁的字符进行编码、转义,是防御XSS攻击的有效措施。这些输出一般是动态内容。

    1.3K00编辑于 2024-11-09
  • 来自专栏区块链入门

    攻击】日蚀攻击,女巫攻击,重放攻击,DDOS攻击的定义?

    <3>【重放攻击(Replay Attacks)】 又称重播攻击、回放攻击,是指攻击者发送一个目的主机已接收过的包,来达到欺骗系统的目的,主要用于身份认证过程,破坏认证的正确性。 在日蚀攻击中,攻击者不像在女巫攻击(Sybil attack)中那样攻击整个网络,而是专注于隔离和瞄准某个特定节点。这种攻击通常会导致受害者节点接收到被操纵的、伪造的区块链视图。 分布式拒绝服务攻击方式在进行攻击的时候,可以对源IP地址进行伪造,这样就使得这种攻击在发生的时候隐蔽性是非常好的,同时要对攻击进行检测也是非常困难的,因此这种攻击方式也成为了非常难以防范的攻击攻击方式: 1、SYN Flood攻击 SYN Flood攻击是当前网络上最为常见的DDoS攻击,它利用了TCP协议实现上的一个缺陷。 这种攻击的特点是可以绕过普通的防火墙防护,可通过Proxy代理实施攻击,缺点是攻击静态页面的网站效果不佳,会暴露攻击者的lP地址。

    5K30发布于 2020-09-25
  • 来自专栏Crossin的编程教室

    这个男人让你的爬虫开发效率提升8

    “提升8倍”虽是我胡诌的数据,开发效率的提升却是杠杠滴。 我们先来看看它官网上的说法: ? 对于 Requests,要做的仅仅是两件事: 告诉你有这样一个工具,用来开发爬虫很轻松 告诉你它的官方文档很好,你去读就可以了 到此为止,本篇的目的已经达到。 有时我们做爬虫时,需要保持 cookie 一致,比如登录后才可访问的页面。 其他更多详细内容不多说了,中文官网地址 cn.python-requests.org,顺着看一遍,写一遍,你就掌握这个爬虫神器了。

    57930发布于 2018-07-24
  • 来自专栏python3

    Python3网络爬虫实战-8、APP爬

    MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,只不过它是一个控制台的形式操作。 同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理。另一个是 MitmWeb,它是一个 Web 程序,通过它我们可以清楚地观察到 MitmProxy 捕获的请求。 本节我们来了解一下 MitmProxy、MitmDump、MitmWeb 的安装方式。

    99220发布于 2020-01-03
  • 来自专栏python-爬虫

    爬虫爬取m3u8视频文件

    一.m3u8视频格式 一般m3u8文件和 视频流ts文件放在同一目录 而m3u8文件格式存放的一般都是ts 文件的一个列表 二.根据m3u8视频存放以及写法的规律 思路 我们一般网站上能找到的m3u8的 url 将m3u8格式的文件下载下来 然后打开m3u8找到里面所有的ts的路径可以用正则匹配 然后m3u8的url进行替换比如https:www.xxx/xxx/xxx.m3u8改成https:www.xxx /xxx/xxx.ts 为什么这样改因为一般不出意外的话m3u8和ts 是放在同一目录

    2K21发布于 2020-06-19
领券