搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏离别歌 - 信息安全与代码审计
攻击Scrapyd爬虫
在1.5.2后，scrapy官方修复了这个问题，详见https://docs.scrapy.org/en/latest/news.html#scrapy-1-5-2-2019-01-22。 0x02 如何攻击scrapyd 一顿信息搜集后，目标整个工作流程就清晰了：用户输入的URL被交给部署在scrapyd上的爬虫进行爬取，爬虫调用了Chrome渲染页面，并将结果中的链接返回给用户。 0x03 利用CSRF漏洞攻击浏览器爬虫针对6800端口的攻击在本地可以复现了，但是目标网站的6800是开启在内网的，我们无法直接访问。可以借助目标前端的那个SSRF吗？另外，在MVVM架构日益流行的当下，爬虫也变得更加灵活，特别是借助Chrome Headless或splash的爬虫能够动态执行JavaScript这个特性，能让爬虫爬到的信息更加完善，但也让攻击者有更多攻击途径对于此类动态爬虫，攻击者可以对浏览器或js引擎本身进行攻击，或者如我这样利用JavaScript攻击内网里一些基础服务。
1.3K41发布于 2020-10-15
来自专栏正则
python 爬虫2
一、认识爬虫 1.1、什么是爬虫？爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包) 网页解析器一、爬虫准备 2.1.1、爬虫类型小爬：各种库来爬中爬：框架大爬：搜索引擎 2.1.2、目的解决数据来源的问题做行业分析完成自动化操作做搜索引擎 2.1.3、目标类型新闻/博客/微博图片，新闻，评论电影视频视频，评论音乐音频，评论三、开始爬虫本章为爬虫入门，所以我们只需要安装几个Python库即可，如下： requests | pip 」最细致的讲解Python爬虫之Python爬虫入门（一）先到这里
1.1K40发布于 2021-09-07
来自专栏偶尔敲代码
网站防御爬虫攻击的几种方式
弊端：一刀切，这同样会阻止搜索引擎对网站的收录适用网站：不太依靠搜索引擎的网站爬虫：减少单位时间的访问次数，减低采集效率 2、屏蔽ip 通过后台计数器，记录来访者ip和访问频率，人为分析来访记录，屏蔽可疑适用网站：极度讨厌搜索引擎，且想阻止大部分爬虫的网站爬虫：制作拟用户登录提交表单行为的模块。爬虫：伪装HTTP_REFERER，不难。而且这样对搜索引擎爬虫没影响。适用网站：动态网站，并且不考虑用户体验爬虫：一个网站模版不可能多于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。但是，这对搜索引擎爬虫没多大影响。
1.3K50编辑于 2023-04-28
来自专栏ZNing·腾创库
反爬虫和抗DDOS攻击技术实践
导语企鹅媒体平台媒体名片页反爬虫技术实践，分布式网页爬虫技术、利用人工智能进行人机识别、图像识别码、频率访问控制、利用无头浏览器PhantomJS、Selenium 进行网页抓取等相关技术不在本文讨论范围内，以便推广，那既然我们要做SEO优化为什么还要 “反爬虫” ？ tvfe_boss_uuid=ad12b5df44c4af49; pgv_info=ssid=s9710442890; pgv_pvid=7925047056; omuisid=eyJ1aWQiOiI5ZGVjMjRiN2UxM2FiNGUyZWJjNWRhMGU1N2EyYTRkZSJ9 起到一定的防DDOS攻击的效果通过上图我们可以看到，关键就是两次票据的签发与验证，一次由浏览器签发，一次由后台签发，但是验证真伪都是在服务端进行，这样做的最终效果就是，要对我们的界面进行抓取或攻击的人，必须按照我们设定的套路运转，就会增加他下载js并执行我们js的过程，如果有攻击方利用xss 获的肉机，对我们的域名发起攻击时，由于我们有两次票据验证，而去其中有一个票据的有效期时间很短，基本上不太可能对我们的服务器造成连续伤害了
6.1K20发布于 2017-04-26
来自专栏数据科学与人工智能
【Python环境】Python爬虫入门（2）：爬虫基础了解
1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？ 2.浏览网页的过程在用户浏览网页的过程中，我们可能会看到许多好看的图片，比如 http://image.baidu.com/ ，我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过因此，用户看到的网页实质是由 HTML 代码构成的，爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。 4. 好的开发工具是前进的推进器，希望大家可以找到适合自己的IDE 下一节，我们就正式步入 Python 爬虫学习的殿堂了，小伙伴准备好了嘛？
1K90发布于 2018-02-27
来自专栏python3
Python 爬虫（2）
: 'value2'}) print(r.text) 结果： { "cookies": { "key1": "value1", "key2": "value2" } } Urllib 模块在python2和python3上有差异在python2上，urllib和urllib2各有各的功能，虽然urllib2是urllib的包装、升级版，但是urllib2还是不能完全替代 urllib2和urllib的区别（1）urllib2可以接收一个request对象，并以此可以来设置一个url的headers，但是urllib只可以接收一个url，这就意味着你不能通过urllib （2）ullib模板可以提供运行urlencode的方法，该方法用于GET查询字符串的生成，urllib2不具备这样的功能，而且urllib.quote等一系列qoute和unquote功能没有被加入urllib2 这就是为什么有时候urllib和urllib2一起使用的原因。
55810发布于 2020-01-07
来自专栏黑白天安全团队
sql注入攻击sqlmap-2
sql注入攻击sqlmap-2 cn0sec 2020-02-28 access注入 sqlmap.py -u "url" ==检测 sqlmap.py -u "url" --tables –level 参数且数值>=2的时候也会检查cookie的参数，当>=3的时候将检查User-agent和Referer。（注意：2是两秒的意思，也就是说2秒访问一次）第二种方法：sqlmap.py -u url --safe-freq 3 （注意：3是3次的意思）可以组合使用 sqlmap.py -u url -- delay 2 --safe-freq 3 利用文件来注入 GET /? 主要两个脚本： space2hash.py ，对于MYSQL数据库 4.0, 5.0注入 space2morehash.py ，对于MYSQL数据库 >= 5.1.13 和 MySQL 5.1.41 注入
1.1K20发布于 2020-03-10
来自专栏分布式爬虫
11、web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
表达式过滤出来的结果进行正则匹配，用正则取最终内容最后.re('正则') xpath('//div[@class="showlist"]/li//img')[0].re('alt="(\w+)') 2、设置爬虫获取到的信息容器类，必须继承scrapy.Item类 scrapy.Field()方法，定义变量用scrapy.Field()方法接收爬虫指定字段的信息 # -*- coding: utf-8 ，就相当于是容器文件 class AdcItem(scrapy.Item): #设置爬虫获取到的信息容器类 # define the fields for your item here () #接收爬虫获取到的连接信息 comment = scrapy.Field() #接收爬虫获取到的商品评论数第二步、编写pach.py爬虫文件定义爬虫类，必须继承scrapy.Spider name设置爬虫名称 allowed_domains设置爬取域名 start_urls设置爬取网址 parse(response)爬虫回调函数，接收response，response里是获取到的html
54700发布于 2019-07-06
来自专栏玄魂工作室
Python爬虫之urllib模块2
-------------------------------------------------------------------------------------------------------------------------------- 本文来自网友投稿作者：PG,一个待毕业待就业的二流大学生。 ---------------------------------------------------------------------------------------------
59950发布于 2018-04-12
来自专栏python全栈教程专栏
爬虫学习（2）：request库使用
urlopen打开request 最后一步就是打印，加上一个编码方式utf-8 其实这就是request一个最基本完整的构建我主要要讲到request库下的Request类使用，没有它真没法继续爬虫了 8')) 反正就是简单的爬取了网页源码下来了一步步讲：（1）url='https://zhuanlan.zhihu.com/p/146913886’第二行代码呢，就是简单的放个网址（2）
70320发布于 2021-10-18
来自专栏python3
python2爬虫编码问题
import sys reload(sys) sys.setdefaultencoding('utf-8') # 输出的内容是utf-8格式
72320发布于 2020-01-15
来自专栏若是烟花
python爬虫----（2. scrapy框架）
scrapy.cfg: 项目配置文件 items.py: 需要提取的数据结构定义文件 pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等 settings.py: 爬虫配置文件 queuelib, cssselect， libxslt pip install w3lib pip install twisted pip install lxml apt-get install libxml2- new-blog目配置文件 # items.py: 需要提取的数据结构定义文件 # pipelines.py:管道定义，用来对items里面提取的数据做进一步处理，如保存等 # settings.py: 爬虫配置文件 # spiders: 放置spider的目录（2）定义要抓取的数据结构 items.py from scrapy.item import Item, Field # 定义我们要抓取的数据 Python/Resources/' ] def parse(self, response): filename = response.url.split('/')[-2]
57920发布于 2020-07-27
来自专栏兵马俑的CSDN
python爬虫学习（2）——requests模块
二、如何使用：（requests模块的编码流程） 1.指定URL； 2.发起请求； 3.获取响应数据； 4.持久化存储；三、使用步骤（爬取搜狗首页的页面数据） 1.引入库（环境安装） pip install requests 2.完整代码 #! import requests if __name__ == '__main__': #step1: 指定url url = 'http://www.sogou.com/' #step2:
45210编辑于 2024-05-28
来自专栏FunTester
selenium2java爬虫示例
本人在使用图灵机器人的过程中，需要丰富一下机器人知识库里面的笑话、段子等内容，就得去网上爬一些内容下来，经过尝试终于成功了，效果一般般，主要原因是添加的知识条目审核不通过，还有就是爬虫次数限制，暂时放弃了，以后打算用接口做爬虫，selenium爬起来很容易出错，浏览器加载太慢了，一旦次数太多很耗时。 //*[@id='detail-list']/li[1]/div/div[2]/a/div/h1/p"); Set<String> handles = driver.getWindowHandles (i); String joke = library.getTextByXpath("html/body/div[3]/div[1]/div/ul/li[1]/div/div[2]
46130发布于 2020-04-03
来自专栏肖洒的博客
爬虫入门（四）：urllib2
主要使用python自带的urllib2进行爬虫实验。写在前面的蠢事：本来新建了一个urllib2.py便于好认识这是urllib2的实验，结果始终编译不通过，错误错误。 Step2：然后使用Pattern实例处理文本并获得匹配结果（一个Match实例）。 Step3：最后使用Match实例获得信息，进行其他的操作。 #! #如果match2匹配成功 if match2: # 使用Match获得分组信息 print match2.group() else: print 'match2匹配失败！' 糗事百科的网络爬虫 import urllib2 import urllib import re import thread import time #-- #----------- 程序的入口处 ----------- print u""" --------------------------------------- 程序：糗百爬虫
54130发布于 2018-08-07
来自专栏全栈程序员必看
javaweb-爬虫-2-63
已有的Pipeline 6.3.3.案例自定义Pipeline导入数据 1.大纲 1.WebMagic介绍 2.WebMagic功能 3.爬虫分类 4.案例开发分析 5.案例实现项目地址：https ://github.com/Jonekaka/javaweb-crawler-1-62 2.WebMagic介绍爬虫框架WebMagic，其底层为HttpClient和Jsoup WebMagic项目代码分为核心和扩展两部分原理： 1.给定一个数组A，全部置位0 2.找到一个集合B,将B中的每一个元素通过k个函数都映射为k个值,k1，k2…kk 3.将A中对应与k1,k2的坐标对应值都置位1 这样B中的元素，都被A数组的对于有n个元素的集合S={S1,S2…Sn},通过k个映射函数{f1,f2,…fk}，将集合S中的每个元素Sj(1<=j<=n)映射为K个值{g1,g 2…gk}，然后再将位数组array中相对应的array 如果要查找某个元素item是否在S中，则通过映射函数{f1,f2,…fk}得到k个值{g1,g2…gk}，然后再判断array[g1],array[g2]…array[gk]是否都为1，若全为1，则item
1.3K30发布于 2021-05-19
来自专栏程序员小王
【Python爬虫】Urllib的使用（2）
写在前面这是第二篇介绍爬虫基础知识的文章，之前的文章【Python爬虫】初识爬虫（1）主要是让大家了解爬虫和爬虫需要的基础知识，今天主要给大家介绍Urllib的使用。 Urllib是Python自带的标准库，无需安装，直接可以用，且提供了以下功能：网页请求响应获取代理和cookie设置异常处理 URL解析爬虫所需要的功能，基本上在Urllib中都能找到我的爬虫环境是基于py3.x，这里在啰嗦一下py2.x和py3.x环境下 Urllib的区别。 py2.x环境下有 Urllib Urlli2 urllib与urllib2都是Python内置的，要实现Http请求，以urllib2为主,urllib为辅. ，这个时候我们可以使用IP池增强我们爬虫的健壮性。
86950发布于 2019-07-02
来自专栏Python攻城狮
Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作
目录： Python网络爬虫（一）- 入门基础 Python网络爬虫（二）- urllib爬虫案例 Python网络爬虫（三）- 爬虫进阶 Python网络爬虫（四）- XPath Python网络爬虫（五）- Requests和Beautiful Soup Python网络爬虫（六）- Scrapy框架 Python网络爬虫（七）- 深度爬虫CrawlSpider Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序 1.爬虫进阶cookielib Python入门网络爬虫之精华版：详细讲解了Python学习网络爬虫。可以设置代理IP来进行爬虫，具体见代码操作（四）当你获取一个URL你使用一个opener。在 Python网络爬虫（二）- urllib爬虫案例中，我们都是使用的默认的opener，也就是urlopen。
95240发布于 2018-08-23
来自专栏CSDN博客
Python2实现简单的爬虫
当做一个分类任务时，需要大量的图像数据，这个图像数据如果要人工一个个下载的，这很明显不合理的，这是就要用到爬虫程序。使用爬虫程序帮我们下载所需要的图像。那么我们就开始学习爬虫吧。爬虫的框架整体框架下图是爬虫的整体框架，其中包括调度端、URL管理器、网页下载器、网页解析器、价值数据，它们的作用如下：调度端：主要是调用URL管理器、网页下载器、网页解析器，也设置爬虫的入口； *图像来自慕课网课程下图是爬虫的一个顺序图，从顺序图中可以看出调度器通过训练调用URL管理器、网页下载器、网页解析器来不断获取网络数据。 ? *图像来自慕课网课程网页下载器的代码片段： # coding=utf-8 import urllib2 url = "https://www.baidu.com" response = urllib2 url = "https://www.baidu.com" request = urllib2.Request(url) # 模仿火狐浏览器 request.add_header("user-agent
88010发布于 2020-05-06
来自专栏嘘、小点声
python网络爬虫（2）回顾Python编程
args=(q,)) w1.start() w2.start() r1.start() w1.join() w2.join() r1.terminate( ,'u3'])) p2=Process(target=receive_proc,args=(p[1],)) p1.start() p2.start() p1.join( ,'u3'],)) w2=threading.Thread(target=run_proc,name='T2',args=(['u4','u5','u6'],)) w1.start() w2.start() w1.join() w2.join() print('end') pass 使用threading.Thread继承创建线程类：代码源：https ,'url_3']) t2 = myThread(name='Thread_2',urls=['url_4','url_5','url_6']) t1.start() t2.start() t1.join
78820发布于 2019-07-31

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

攻击Scrapyd爬虫

python 爬虫2

网站防御爬虫攻击的几种方式

反爬虫和抗DDOS攻击技术实践

【Python环境】Python爬虫入门（2）：爬虫基础了解

Python 爬虫（2）

sql注入攻击sqlmap-2

11、web爬虫讲解2—Scrapy框架爬虫—Scrapy使用

Python爬虫之urllib模块2

爬虫学习（2）：request库使用

python2爬虫编码问题

python爬虫----（2. scrapy框架）

python爬虫学习（2）——requests模块

selenium2java爬虫示例

爬虫入门（四）：urllib2

javaweb-爬虫-2-63

【Python爬虫】Urllib的使用（2）

Python网络爬虫（三）- 爬虫进阶1.爬虫进阶cookielib2.具体代码操作

Python2实现简单的爬虫

python网络爬虫（2）回顾Python编程

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐