【问题描述】客户反馈两个地域的cvm互通,压测内网带宽上不去 image.png 【原因分析】 1、看客户机型机型代号:IT5.16XLARGE256实例配置是CPU&MEM:64核+256G的网卡队列数 https://fasterdata.es.net/performance-testing/network-troubleshooting-tools/iperf/ image.png 3、多线程压测建议使用 performance-testing/network-troubleshooting-tools/throughput-tool-comparision/ image.png 【解决方案】建议使用多线程来进行传输,提升并发速度,带宽压测参考官方文档
前言 工作中我们需要压测的接口大部分都是需要先登陆后,带着token的接口(或者带着cookies),我们可以先登陆获取token再关联到下个接口。 比如我现在要压测一个修改用户的个人信息接口,每个用户只能修改自己的个人信息。 场景案例 我现在有一个登陆接口A,登陆成功后返回一个token值。 我们只需要拿到token直接去压测B接口就行了。 测试token准备 B接口有两个参数是一一对应的,一个是token,一个是对应的name,比如压测的时候准备100个用户,我这里以10个用户为例 先注册批量的用户用于压测,我这里注册的用户是test1, 运行结果 接下来就可以设置线程组愉快的压测了 ? 比如我设置2个线程,4次循环,这样会请求8次,每次都从测试文件里面循环取值 ? 2
本文压测主要用到iperf3命令,查看网络情况使用sar命令。iperf3压测需要用到2台机器,1台server,1台client。iperf3Iperf3是一个广泛使用的网络性能测量和调整工具。 txkB/s :发送带宽tcp压测server端:[root@test ~]# iperf3 -s -i 1---------------------------------------------- udp压测需要指定带宽,因为UDP默认为1 Mbit/sec,TCP无限制。 ,使用上面的方法可能压测不到上限,可以使用for循环开多个端口压测。 server端时带宽较高压测不到上限,也可以在server端多开一些监听端口,用多台client同时压测server。
压测工具部署:Elasticsearch压测工具esrally部署指南 - 云+社区 本文另有延伸:大数据生态关于压力测试的内容 - 云+社区 背景 在大数据时代的今天,业务量越来越大,每天动辄都会产生上百 track: 即赛道的意思,这里指压测用到的样本数据和压测策略,使用 esrally list tracks 列出。 ,可以通过 esrally list pipeline 查看,其中有一个 benchmark-only 的流程,就是将 es 的管理交给用户来操作,rally 只用来做压测,如果你想针对已有的 es 进行压测 ,则使用该模式; track-params:对默认的压测参数进行覆盖; user-tag:本次压测的 tag 标记; client-options:指定一些客户端连接选项,比如用户名和密码。 压测标准 在压测的过程中,需要了解到各个指标的含义。但是网络上没有完整的文档,所以这里做一个详细的总结。
一、压力测试平台-----优测 优测官网 二、10000vum免费试用 1.单接口压测 创建单接口任务: 执行任务及查看报告: 导出报告: pdf格式报告: 2.全链路压测 创建全链路计划 : 执行全链路计划:每次会消耗vum 执行进度: 压测报告: 定时任务: 全链路pdf压测报告: 三、资源监控:grafana **免费的测试报告中,缺少了cpu和内存等资源的占用情况。 所以我这里想到的是grafana,利用grafana动态实时的资源可视化,结合优测,应该效果非常棒.** 四、总结 问题: 本来想结合业务登录接口去坐个压测,结果发现,优测不支持application
【问题表现】 项目某接口压测过程中,QPS曲线被一刀切下来后运行平稳,典型的限频问题。 91.png 【问题分析和排查思路】 分析问题之前,先上官网的压测链路: 压测机(运行Jmeter脚本)--> WAF --> CLB --> Node集群(Web) 通过链路排查,定位是WAF的问题。 95.png 【总结】 首先要确定压测链路是什么。 一步一步缩小压测环节,快速定位问题。 然后根据波形图进行合理猜测。
【问题表现】 项目的登录接口在压测过程中从1000并发提高3000并发,QPS没有任何变化。 因为经常会被业务方挑战是压测机的问题,所以就想先加一个集群来压测,以确认是压测机的问题,还是压测链路的问题,亦或是业务方的问题。 压测结果:两个集群,各1500并发,QPS值总共6k 19.png 20.png 2. 从上面的现象可以分析出,压测链路具备6WQPS的并发能力,一定是压测机某方面的资源受到限制。 21.png 3.受到该同学的启发,我去看了下压测机的压测机的外网出带宽,果然都被打满(上限是50M) 22.png 【总结】 在压测的过程中,我们不仅要关注服务端的负载能力,也要需要关注压测机的负载能力 ,尤其是是CPU,内存和带宽三个指标。
指定并发连接数 50 5 -n 指定请求数 10000 6 -d 以字节的形式指定 SET/GET 值的数据大小 2 7 -k 1=keep alive 0=reconnect 1 8 网络带宽和延迟通常是最大短板。建议在基准测试之前使用 ping 来检查服务端到客户端的延迟。根据带宽,可以计算出最大吞吐量。 比如将 4 KB 的字符串塞入 Redis,吞吐量是 100000 q/s,那么实际需要 3.2 Gbits/s 的带宽,所以需要 10 GBits/s 网络连接, 1 Gbits/s 是不够的。 在很多线上服务中,Redis 吞吐会先被网络带宽限制住,而不是 CPU。 在小对象存取时候,内存速度和带宽看上去不是很重要,但是对大对象(> 10 KB), 它就变得重要起来。不过通常情况下面,倒不至于为了优化 Redis 而购买更高性能的内存模块。
在 MongoDB 上线之前,我们可能想知道它的极限是怎样的,这时,我们可以借助工具对 MongoDB 进行压测,这一节内容就来聊聊通过 YCSB 对 MongoDB 进行压测。 readproportion=1 updateproportion=0 scanproportion=0 insertproportion=0 requestdistribution=zipfian 关于 YCSB 的压测文件的每个参数的解释如下 5 运行压测 加载压测数据: ./bin/ycsb load mongodb -P workloads/workloada 进行压测: . 99thPercentileLatency(us), 1317.0 [UPDATE], Return=OK, 24798 通过 “[OVERALL], Throughput(ops/sec)”,可看出我们压测的实例 当然,压测过程也需要关注 CPU、内存等,看是否已经到极限了。
本章内容根据《分布式服务架构》整理 1.业务模型分析 2.压测执行 3.压测工具 4.小结 业务模型分析 对业务模型进行分析,选择日常请求量大且路径覆盖范围广的典型交易,建立测试业务模型,确定各接口请求量的对比 加压方式 1.瞬间加压:通过测试工具模拟大量并发请求 2.逐渐加压:一定周期内为抛物线的趋势 3.梯度加压:逐渐增加用户并发量 4.确定延时方式 压测执行 观察系统的资源占用情况 /系统层面:CPU, 内存,磁盘I/O,网络带宽,线程数,打开的文件句柄,线程切换,和打开的Socket数量 /接口的吞吐量,响应时间,超时情况等 /数据库的慢 SQL,SQL行读,锁等待,死锁,缓冲区命中,索引命中等 /消息队列的吞吐变化,响应时间,超时情况 /压测过程中记录压测记录 /分析是否满足既定压测目标 /指出系统存在的瓶颈点 压测工具:ab,jmeter,mysqlslap.sysbench,dd,LoadRunner windows,4CPU,8G内存 java -agentlib:hprof=cpu=times;interval=20;depth=3 com.kk.netty.HprofSample demo
压测信息: envoy版本: 1.23.2-dev istio版本:1.15.2 envoy只打开了access log,没有配置任何VS和DR,去掉了jeager和stat-filter插件, pod层面做的压测,资源为 1c2g的sidecar配比,业务容器是1c2g,响应比较快,request的大小是多少,response就返回多少。 网络是k8s的内网,延迟很低,不超过1ms。 压测准备: 构建 test1---->test2的链路,在test1的pod里面进行压测,访问的接口是test1的,这里的接口内部实现了调用test2的逻辑,也就是说:流量是下面这个样子 --流量--》 p/10353628.html 2.压测工具使用的是hey,压测命令的例子如下: # . Status code distribution: [200] 20000 responses 参考: https://www.cnblogs.com/wintersun/p/12492096.html 压测结果
socket 4 -c 指定并发连接数 50 5 -n 指定请求数 10000 6 -d 以字节的形式指定 SET/GET 值的数据大小 2 7 -k 1=keep alive 0=reconnect 1 8 网络带宽和延迟通常是最大短板。建议在基准测试之前使用 ping 来检查服务端到客户端的延迟。根据带宽,可以计算出最大吞吐量。 比如将 4 KB 的字符串塞入 Redis,吞吐量是 100000 q/s,那么实际需要 3.2 Gbits/s 的带宽,所以需要 10 GBits/s 网络连接, 1 Gbits/s 是不够的。 在很多线上服务中,Redis 吞吐会先被网络带宽限制住,而不是 CPU。 为了达到高吞吐量突破 TCP/IP 限制,最后采用 10 Gbits/s 的网卡, 或者多个 1 Gbits/s 网卡。 在小对象存取时候,内存速度和带宽看上去不是很重要,但是对大对象(> 10 KB), 它就变得重要起来。不过通常情况下面,倒不至于为了优化 Redis 而购买更高性能的内存模块。
背景 在业务新上线,或者业务做活动,压测成为必不可少的一步。 但是很多开发对如何做好服务压测并没有特别系统的了解,这篇文章的目的是为了解释清楚单机服务压测的目的、做法、误区,帮助大家更好地达成压测的目的 压测的目的是什么? 我们并不总是对自己的服务这么自信,压测能够帮我们了解清楚在高压情况下的表现,发现隐藏的问题。 后续的内容我们将按照三个目标逐一讲述,压测中可能存在的误区 性能瓶颈分析 在分析服务性能瓶颈的时候,一般使用perf工具来生成服务在压测时的火焰图 y 轴表示调用栈,每一层都是一个函数。 流量预估:通过历史数据(或者结合业务和时间)预估业务流量会有多大的系统调用量 容量评估:根据预估结果,计算服务需要分配多少机器 场景压测:针对重点业务场景,进行全局性的压测,根据压测结果再次调整。
一、背景 通过压测发现系统瓶颈,评估系统 QPS、吞吐量上限 二、工具选择 ab、wrk、Jmeter ab [root@VM-190-129-centos ~]# ab --help Usage: ab 以上两个特性 wrk 可以支持,而 Jmeter 需安装 GUI,没有 CLI 方便没有详细去了解,选择用 wrk 进行压测。 c1 -d1s -s post.lua --latency http://127.0.0.1:8080/index.php 使用 lua 脚本,实现 POST 请求动态参数组装 post.lua --压测命令
用微软的ctsTraffic压测云服务器内网带宽,算速率时,注意有个*8/1024/1024/1000的算法(我自己多次试验,发现并非*8/1024/1024/1024,而是*8/1024/1024/1000 ctstraffic.exe -help:advanced查看参数介绍,用上适合自己的参数,比如我自己就喜欢加时间参数 -TimeLimit:30000(单位是毫秒) 微软文档里最后一步算传输速率,单位换算乘以8再连续 consoleverbosity:1 -TimeLimit:30000 客户端: ctstraffic.exe -target:172.21.112.5 -consoleverbosity:1 -connections:8 -iterations:10 算速率的时候,把客户端数据掐头去尾算均值 如上图,掐头去尾均值*8/1024/1024/1000 我测试的机型内网带宽上限是12Gbps,基本符合预期 如果算峰值的话,上图中的 1657680691就是峰值,1657680691*8/1024/1024/1000≈12.65Gbps,基本也跟任务管理器性能页签的数据吻合。
后台开发经常需要对服务进行压力测试,下面介绍常用的压测工具。 webbench webbench 是常用的网站压力测试工具,webbench用C语言编写,代码仅有区区几百行。 最后两行是压测结构, 有测试的请求速度,成功的请求量、失败的请求量。 实现原理 通过调用fork()创建子进程,模拟多个客户端。
在日常售后工作中,常常需要对一些网站进行简单的压测,以判断网站的可用性。 经常遇到用户来反馈CDN下载异常,其实有很大的一种可能就是用户在更新之前没有进行预热,所有用户在通过CDN访问时,由于CDN没有预热,就会从源站拉取资源,但是源站的带宽以及性能无法支撑多个CDN节点拉取源站资源时 此时通过压测源站就能够发现源站性能异常。 本文提供两种简单的网站压测脚本,能够快速的针对源站进行HTTP或HTTPS请求的压测。 simple_stresstesting.sh运行指南 image.png 运行该脚本后面跟多个变量,第一个变量需要输入压测请求的次数,后面的变量需要填写网站的url以及proxy等代理请求。 image.png 压测结束后会展示返回的状态码等统计信息。
;二 UT压测golang-sdk、java-sdk都提供了很好的工具三 组件压测1 压测工具http: abgrpc: ghz go get github.com/bojand/ghz2 压测环境对象 =x核xG,外部依赖带宽,网卡...3 设计压测casescases并发数DurationReqRPS平均耗时P99吞吐实际并发CPU(4u)xxx100605816809694.5910.0338.069694.5997.237506760% 4 记录压测数据5 分析压测结论通过go-pprof,jstat等工具分析压测时,接口质量,优化代码go tool pprof http://xxxgo tool pprof -http=:8080 pprof.xxxgo ,系统可观测性,监控打点)1 压测链路确定,指定输入+输出2 系统环境准备链路上组件资源+依赖3 设计压测用例复杂度+压力大小(请求数、请求大小)4 记录压测数据5 分析压测结论比如关注就是系统的qps 、带宽用例组件1组件2组件3QPS入带宽xxx4C16G*24C8G*24C8G*22.5k/s160MB/s6 总结性能基线7 根据性能基线估算成本五 压测持续化压测流程工具化,压测报告自动化,压测用例集成到
【前文从理论角度对比了lock锁(Monitor)与读写锁(ReadWriteLockSlim)的差异和使用场景,尝试用Jmeter对lock、ReadWriteLockSlim压测】 启动Jmeter 请求次数= 线程数 * 循环次数 Duration:整个压测的时长 添加采样器 此次我们主要测试 [多读少写]的场景,故我们添加http请求采样器。 Listener>[****], 这里添加几个有效常见的侦听器:View Results Tree、Summary Report、Aggregate Report、Aggregate Graph 压测过程 在一个线程组内的线程是依次执行的,我们建立两个线程组分别测试 (读写比1:1) 压测时长:4分钟 每秒尝试启动300线程不断循环 http://localhost:5000/rwlock? 这个压测中没有争用,_dict.TryGetValue 是o(1)的复杂度,速度很块,多个线程在某时刻命中这个方法的概率极小,整个api代码块耗时几纳秒,压测结果12ms,绝大部分都是在网络上, 貌似要写代码测试了
name=value的参数对,此参数可以重复 -H 对请求附加额外的头信息,此参数的典型形式是一个有效的头信息行,其中包含了以冒号分隔的字段和值的对(如"Accept-Encoding: zip/zop;8bit