搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏离别歌 - 信息安全与代码审计
攻击Scrapyd爬虫
0x02 如何攻击scrapyd 一顿信息搜集后，目标整个工作流程就清晰了：用户输入的URL被交给部署在scrapyd上的爬虫进行爬取，爬虫调用了Chrome渲染页面，并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫针对6800端口的攻击在本地可以复现了，但是目标网站的6800是开启在内网的，我们无法直接访问。可以借助目标前端的那个SSRF吗？另外，在MVVM架构日益流行的当下，爬虫也变得更加灵活，特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性，能让爬虫爬到的信息更加完善，但也让攻击者有更多攻击途径对于此类动态爬虫，攻击者可以对浏览器或js引擎本身进行攻击，或者如我这样利用JavaScript攻击内网里一些基础服务。另外，经常会有人在运行爬虫的时候会设置--no-sandbox、--disable-web-security等危险选项，这也给攻击者提供了很多便利，我建议利用普通用户权限启动浏览器爬虫，以避免使用这些不安全的选项
1.3K41发布于 2020-10-15
来自专栏偶尔敲代码
网站防御爬虫攻击的几种方式
适用网站：极度讨厌搜索引擎，且想阻止大部分爬虫的网站爬虫：制作拟用户登录提交表单行为的模块。爬虫：伪装HTTP_REFERER，不难。 8、全flash、图片或者pdf来呈现网站内容对搜索引擎爬虫和采集器支持性不好，这个很多懂点seo的人都知道适用网站：媒体设计类并且不在意搜索引擎收录的网站爬虫：不爬了，走人 9、网站随机采用不同模版而且这样对搜索引擎爬虫没影响。适用网站：动态网站，并且不考虑用户体验爬虫：一个网站模版不可能多于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。但是，这对搜索引擎爬虫没多大影响。
1.3K50编辑于 2023-04-28
来自专栏程序员的知识天地
Python爬虫入门，8个常用爬虫技巧盘点
python入门时用得最多的还是各类爬虫脚本，写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本写过自动收邮件的脚本、写过简单的验证码识别的脚本。这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，故累积了不少爬虫抓站的经验，在此总结一下，那么以后做东西也就不用重复劳动了。 4.伪装成浏览器访问某些网站反感爬虫的到访，于是对爬虫一律拒绝请求。这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现： ? 8、多线程并发抓取单线程太慢的话，就需要多线程了，这里给个简单的线程池模板这个程序只是简单地打印了1-10，但是可以看出是并发的。虽然说Python的多线程很鸡肋但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。 ? 9.
67110发布于 2018-12-13
来自专栏机器学习算法与Python学习
Python 爬虫：8 个常用的爬虫技巧总结！
文 / j_hao104 用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。，于是对爬虫一律拒绝请求。 StringIO.StringIO(compresseddata) gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read() 8、虽然说python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。
1.5K20发布于 2019-07-04
来自专栏ZNing·腾创库
反爬虫和抗DDOS攻击技术实践
导语企鹅媒体平台媒体名片页反爬虫技术实践，分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内，以便推广，那既然我们要做SEO优化为什么还要 “反爬虫” ？ eyJkYXRhIjpbXSwiZWkiOjUsInN0IjoiMTQ5MTg5OTczNjQ3NyIsImlhdCI6MTQ5MTg5OTc0M30.fTAsbJZNOTsHk0QoLfZIA-AXhO6ezaCOiCTj8lYCqO4 起到一定的防DDOS攻击的效果通过上图我们可以看到，关键就是两次票据的签发与验证，一次由浏览器签发，一次由后台签发，但是验证真伪都是在服务端进行，这样做的最终效果就是，要对我们的界面进行抓取或攻击的人，必须按照我们设定的套路运转，就会增加他下载js并执行我们js的过程，如果有攻击方利用xss 获的肉机，对我们的域名发起攻击时，由于我们有两次票据验证，而去其中有一个票据的有效期时间很短，基本上不太可能对我们的服务器造成连续伤害了
6.1K20发布于 2017-04-26
来自专栏zaking's
黑客玩具入门——8、其他攻击手段
1、拒绝服务攻击使用某些手段故意占用某一系统对外服务的有限资源，从而导致其无法正常工作的行为就是拒绝服务攻击。实际上拒绝服务攻击并不是一个攻击方式，它是一类具有相似特征的攻击方式的集合。拒绝服务攻击有以下分类： 1. 2.网络层的拒绝服务攻击 TCP和UDP就位于这一层，而基于TCP的拒绝服务攻击，就是大家常说的拒绝服务攻击。大部分的服务器都是提供HTTP服务的服务器，HTTP协议就是TCP提供的支持。攻击大家常说的DDOS攻击，翻译过来就是分布式拒绝服务攻击，也就是很多的机器同时对目标发起拒绝服务攻击，这就是为什么DDOS往往和肉鸡这个词一起出现的原因。 2、用Kali Linux 蜜罐引诱可能的攻击者进入陷阱什么是蜜罐？许多安全专家都喜欢的一个东西就是蜜罐。简单地说，蜜罐是模拟特定网络攻击目标的系统。
54711编辑于 2023-12-02
来自专栏测试开发技术
Python爬虫必备的8大技巧，收藏！
想要快速学习爬虫，最值得学习的语言一定是Python，Python应用场景比较多，比如：Web快速开发、爬虫、自动化运维等等，可以做简单网站、自动发帖脚本、收发邮件脚本、简单验证码识别脚本。爬虫在开发过程中也有很多复用的过程，今天就总结一下必备的8大技巧，以后也能省时省力，高效完成任务。，于是对爬虫一律拒绝请求。 StringIO.StringIO(compresseddata) gzipper = gzip.GzipFile(fileobj=compressedstream) print gzipper.read() 8、虽然说Python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。
35310编辑于 2024-11-06
来自专栏运维经验分享
Scrapy爬虫（8）scrapy-splash的入门
scrapy_splash.SplashAwareDupeFilter' HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage' 1 2 3 4 5 6 7 8 创建爬虫文件phoneSpider.py, 代码如下： # -*- coding: utf-8 -*- from scrapy import Spider, Request from scrapy_splash ').extract() print('='*40) print(''.join(info)) print('='*40) 1 2 3 4 5 6 7 8 运行爬虫，scrapy crawl phone, 结果如下： ?
2K30发布于 2019-03-11
来自专栏若城技术专栏
爬虫入门指南(8): 编写天气数据爬虫程序，实现可视化分析
本文介绍了如何使用Python编写一个简单的天气数据爬虫程序，通过爬取指定网站上的天气数据，并使用Matplotlib库对数据进行可视化分析。首先，我们使用requests库向指定的URL发送GET请求，并指定编码为utf-8。然后，我们使用BeautifulSoup库解析网页内容，并通过CSS选择器获取温度数据。 shtml' # 天气预报页面的URL response = requests.get(url) # 发送GET请求，获取网页内容 response.encoding = 'utf-8' 将编码设置为utf-8，以确保正确解析中文。使用BeautifulSoup(response.text, 'html.parser')解析网页内容。运行效果完结历时一个星期终于将爬虫这点东西搞完了, 可能会有写欠缺,但是也还好, 希望可以帮助各位辛勤劳作的朋友
1K10编辑于 2024-02-29
来自专栏机器学习算法与Python学习
Python：爬虫系列笔记(8) -- 爬去MM图片
转载于：静觅 » Python爬虫实战四之抓取淘宝MM照片链接：http://cuiqingcai.com/1001.html 1.抓取淘宝MM的姓名，头像，年龄 2.抓取每一个MM的资料简介以及写真图片我们首先抓取本页面的MM详情页面地址，姓名，年龄等等的信息打印出来，直接贴代码如下 123456789101112131415161718192 __author__ = 'CQC'# -*- coding:utf-8 ".txt" f = open(fileName,"w+") print u"正在偷偷保存她的个人信息为",fileName f.write(content.encode('utf-8' else: # 如果目录存在则不创建，并提示目录已存在 return False 3.代码完善主要的知识点已经在前面都涉及到了，如果大家前面的章节都已经看了，完成这个爬虫不在话下 spider.savePagesInfo(2,10) 1 tool.py 123456789101112131415161718192 __author__ = 'CQC'#-*- coding:utf-8
1.1K60发布于 2018-04-04
来自专栏嘘、小点声
python网络爬虫（8）多媒体文件抽取
回调函数中，count表示已下载的数据块，size数据块大小，total表示总大小。
57520发布于 2019-07-31
来自专栏OneMoreThink的专栏
应急靶场(8)：【玄机】常见攻击事件分析--钓鱼邮件
靶场地址：https://xj.edisec.net/challenges/52 靶场背景：小张的公司最近遭到了钓鱼邮件攻击，多名员工的终端被控制做为跳板攻击了内网系统。
90520编辑于 2024-10-15
来自专栏网络安全攻防
K8s Dashboard Config利用攻击面
describe secret -n kubernetes-dashboard default-token-6lf6k Step 7：修改config.conf添加下面的token部分 Step 8：
54120编辑于 2023-05-12
来自专栏分布式爬虫
8、web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用
/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import random #引入随机模块文件请求时自动使用代理IP #请求 url = "https://www.baidu.com/" data = urllib.request.urlopen(url).read().decode("utf-8" /usr/bin/env python -- coding: utf-8 -- import urllib from urllib import request import random #引入随机模块文件 /usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json def random import re import urllib.erro def hq_html(hq_url): """ hq_html()封装的爬虫函数，自动启用了用户代理和ip代理
1.1K50发布于 2019-07-05
来自专栏技术经验分享
WordPress网站防止他人恶意攻击的8种方法
本站开放注册是想让更多的同道中人一起学习进步分享所得的目的，单近日（2019.06.07-10）本站遭到不明人士恶意注册，很是气人，所以本篇文章分享的是网站如何防止他人恶意攻击。在网上全百科搜集了以下8中比较实用的方法，有些适用于所有网站。第一种直接关闭注册功能。也可以在注册页面上加入验证码等功能，防止机器恶意注册。第二种一个纯代码实现的方法。
1.9K20发布于 2019-06-13
来自专栏渗透测试专栏
渗透测试XSS漏洞原理与验证(8)——XSS攻击防御
XSS FilterXSS Filter的作用是通过正则的方式对用户(客户端)请求的参数做脚本的过滤，从而达到防范XSS攻击的效果。 XSS Filter作为防御跨站攻击的主要手段之一，已经广泛应用在各类Web系统之中包括现今的许多应用软件，例如Chrome浏览器，通过加入XSSFilter功能可以有效防范所有非持久型的XSS攻击攻击 HTML编码在防止XSS攻击上起到很大的作用，它主要是用对应的HTML标记换为实体，这样做可确保浏览器显示实体，但不运行他们，将其当作HTML文档的内容而非结构加以处理。结合使用输入过滤和输出编码能够提供两层防御，即使攻击者发现其中一种过滤存在缺陷，另一种过滤仍然能够在很大程度上阻止其实施攻击。 Web安全编码规范在输出数据前对潜在威胁的字符进行编码、转义，是防御XSS攻击的有效措施。这些输出一般是动态内容。
1.3K00编辑于 2024-11-09
来自专栏区块链入门
【攻击】日蚀攻击，女巫攻击，重放攻击，DDOS攻击的定义？
<3>【重放攻击(Replay Attacks)】又称重播攻击、回放攻击，是指攻击者发送一个目的主机已接收过的包，来达到欺骗系统的目的，主要用于身份认证过程，破坏认证的正确性。在日蚀攻击中，攻击者不像在女巫攻击（Sybil attack）中那样攻击整个网络，而是专注于隔离和瞄准某个特定节点。这种攻击通常会导致受害者节点接收到被操纵的、伪造的区块链视图。分布式拒绝服务攻击方式在进行攻击的时候，可以对源IP地址进行伪造，这样就使得这种攻击在发生的时候隐蔽性是非常好的，同时要对攻击进行检测也是非常困难的，因此这种攻击方式也成为了非常难以防范的攻击。攻击方式： 1、SYN Flood攻击 SYN Flood攻击是当前网络上最为常见的DDoS攻击，它利用了TCP协议实现上的一个缺陷。这种攻击的特点是可以绕过普通的防火墙防护，可通过Proxy代理实施攻击，缺点是攻击静态页面的网站效果不佳，会暴露攻击者的lP地址。
5K30发布于 2020-09-25
来自专栏Crossin的编程教室
这个男人让你的爬虫开发效率提升8倍
“提升8倍”虽是我胡诌的数据，开发效率的提升却是杠杠滴。我们先来看看它官网上的说法： ? 对于 Requests，要做的仅仅是两件事：告诉你有这样一个工具，用来开发爬虫很轻松告诉你它的官方文档很好，你去读就可以了到此为止，本篇的目的已经达到。有时我们做爬虫时，需要保持 cookie 一致，比如登录后才可访问的页面。其他更多详细内容不多说了，中文官网地址 cn.python-requests.org，顺着看一遍，写一遍，你就掌握这个爬虫神器了。
57930发布于 2018-07-24
来自专栏python3
Python3网络爬虫实战-8、APP爬
MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序，类似 Fiddler、Charles 的功能，只不过它是一个控制台的形式操作。同时 MitmProxy 还有两个关联组件，一个是 MitmDump，它是 MitmProxy 的命令行接口，利用它我们可以对接 Python 脚本，用 Python 实现监听后的处理。另一个是 MitmWeb，它是一个 Web 程序，通过它我们可以清楚地观察到 MitmProxy 捕获的请求。本节我们来了解一下 MitmProxy、MitmDump、MitmWeb 的安装方式。
99220发布于 2020-01-03
来自专栏python-爬虫
爬虫爬取m3u8视频文件
一.m3u8视频格式一般m3u8文件和视频流ts文件放在同一目录而m3u8文件格式存放的一般都是ts 文件的一个列表二.根据m3u8视频存放以及写法的规律思路我们一般网站上能找到的m3u8的 url 将m3u8格式的文件下载下来然后打开m3u8找到里面所有的ts的路径可以用正则匹配然后m3u8的url进行替换比如https:www.xxx/xxx/xxx.m3u8改成https:www.xxx /xxx/xxx.ts 为什么这样改因为一般不出意外的话m3u8和ts 是放在同一目录
2K21发布于 2020-06-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

攻击Scrapyd爬虫

网站防御爬虫攻击的几种方式

Python爬虫入门，8个常用爬虫技巧盘点

Python 爬虫：8 个常用的爬虫技巧总结！

反爬虫和抗DDOS攻击技术实践

黑客玩具入门——8、其他攻击手段

Python爬虫必备的8大技巧，收藏！

Scrapy爬虫（8）scrapy-splash的入门

爬虫入门指南(8): 编写天气数据爬虫程序，实现可视化分析

Python：爬虫系列笔记(8) -- 爬去MM图片

python网络爬虫（8）多媒体文件抽取

应急靶场(8)：【玄机】常见攻击事件分析--钓鱼邮件

K8s Dashboard Config利用攻击面

8、web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用

WordPress网站防止他人恶意攻击的8种方法

渗透测试XSS漏洞原理与验证(8)——XSS攻击防御

【攻击】日蚀攻击，女巫攻击，重放攻击，DDOS攻击的定义？

这个男人让你的爬虫开发效率提升8倍

Python3网络爬虫实战-8、APP爬

爬虫爬取m3u8视频文件

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐