搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Cloud Native - 产品级敏捷
海量数据, 为何总是海量垃圾 ?!
2017.9.10, 深圳, Ken Fang 雷军说：我拥有海量的数据, 却不知道怎么用？每年, 花在存储海量数据的费用, 也是海量；足以使企业破产⋯ 为何会如此？当我们将所谓 “海量数据分析” 的神秘面纱给揭开时, 打破 “海量数据分析” 的神话, 就会很容易的明白, 真正的问题到底出在哪？为何谷歌能做到的, 我们却做不到？大家都明白的 Common Sense: 做海量数据分析, 要先能建立数据模型；有了数据模型, 我们才能从 “海量” 数据中, 去提炼出 “有用” 的数据。海量数据分析最关键、最重要的ㄧ步：将海量数据 “转换” 为有用的数据。而数据模型建立的前提是： @ 要能先分析出, 产生数据背后的 “用户的目的” 。例如：用户是基于什么样的社会事件？天灾？这样的数据, 再如何的 “海量”, 也根本没法经由 “数据分析师”, 使用任何的数据分析工具, 建立出任何有效的数据模型；海量数据将永远没办法转换为有用的数据。为什么谷歌能做得到？
1.4K50发布于 2018-01-05
腾讯自动驾驶DMS：构建多模态数据检索与Tbps级海量吞吐的闭环基础设施
突破自动驾驶海量数据闭环瓶颈当前自动驾驶完整的数据驱动闭环链路涉及数据采集商、软硬件供应商、车厂及算法公司等多个领域。海量数据处理的“高本低效”：传统软件开发与人工标注模式无法承载大数据时代的需求，人工数据标注成本高昂。释放计算与存储效能的大规模数据指标基于腾讯云原生架构与智能分层存储机制，平台在降低运维成本（Ops Cost）与提升系统吞吐量方面实现了以下量化业务指标（数据源自《腾讯自动驾驶DMS方案介绍》）：降低提升 10 倍元数据操作性能：应用分布式元数据管理技术，极大优化海量数据并发处理下的系统响应效率。提供 Tbps 级海量吞吐：采用海量强一致缓存技术及AZ加速器，保障高负载多路数据并发计算的稳定性。
18010编辑于 2026-04-12
来自专栏互扯程序
Kafka 高性能吞吐揭秘
这次本文围绕Kafka优异的吞吐性能，逐个介绍一下其设计与实现当中所使用的各项“黑科技”。
98841发布于 2019-05-24
来自专栏流媒体
Json海量数据解析Json海量数据解析
Json海量数据解析前言在android开发中，app和服务器进行数据传输时大多数会用到json。
8.4K20发布于 2018-08-23
来自专栏花落的技术专栏
TPS、RT、吞吐量详解
五、吞吐量系统的吞吐量（承压能力）与request对CPU的消耗、外部接口、IO等等紧密关联。单个request 对CPU消耗越高，外部系统接口、IO速度越慢，系统吞吐能力越低，反之越高。系统吞吐量几个重要参数：QPS（TPS）、并发数、响应时间。
3.1K00编辑于 2021-12-16
来自专栏运维开发王义杰
性能测试：吞吐量
我们需要先明确一下"吞吐量"（Throughput）的定义。在 JMeter 中，吞吐量是指单位时间内服务器处理的请求数量。具体来说，如果你的测试在10秒内完成了100个请求，那么吞吐量就是10 req/sec。然而，我们在测试计划中配置的线程数（也就是"进程数"）并不直接等于吞吐量。影响服务器吞吐量的因素有以下几点：服务器的处理能力：如果服务器无法快速处理请求，那么即使有很多线程同时发送请求，吞吐量也不会增加。换句话说，如果服务器需要花费很长时间来处理每个请求，那么在单位时间内完成的请求数量就会降低，这会导致吞吐量低于线程数。网络延迟：如果我们的测试机器和服务器之间的网络延迟较高，那么这也可能影响吞吐量。例如，如果JMeter无法快速地启动线程，或者无法快速地处理服务器的响应，那么这都可能影响吞吐量。
2.5K20编辑于 2023-08-16
来自专栏虚拟化笔记
ovs vxlan 时延和吞吐
把网络比作一条水管，虹吸原理把水从一个池塘A抽到另一个池塘B，当然是水管越粗越好，水管粗细就是不同能力的网卡，一秒钟能从水管流出多少水就是吞吐，假如从水管入口滴一滴墨水，那墨水从入口到出口的时间就是单向时延，水管壁粗糙弯曲不直，水流就慢，时延就大，水在水管里流得越快单位时间从水管口流出来的水就越多，时延影响吞吐。 ovs实现vxlan性能存在瓶颈，单cpu的ksoftirq很容易就100%了，吞吐上不去。
2.4K11发布于 2021-02-24
来自专栏我的技术专刊
消息队列吞吐量调整
关于吞吐量的一些思考写入消息队列吞吐量取决于以下两个方面 * 网络带宽 * 消息队列（比如Kafka）写入速度最佳吞吐量是让其中之一打满，而一般情况下内网带宽都会非常高，不太可能被打满，所以自然就是讲消息队列的写入速度打满这就就有两个点需要平衡 * 批量写入的消息量大小或者字节数多少 * 延迟多久写入 go-zero 的 PeriodicalExecutor 和 ChunkExecutor 就是为了这种情况设计的从消息队列里消费消息的吞吐量取决于以下两个方面启动 queue，有了这些我们就可以通过控制 producer/consumer 的数量来达到吞吐量的调优了 func (q *Queue) Start() { q.startProducers
74000编辑于 2021-12-16
来自专栏全栈程序员必看
jvm 吞吐量_jvm oom
公式吞吐量 = 运行代码时间 / (运行代码时间 + 垃圾收集时间) 示例虚拟机总共运行了100分钟 1）运行代码：99分钟 2）垃圾收集：1分钟吞吐量 = 99/100 = 99% 参数 -XX:GCRatio 设置吞吐量的大小 -XX:MaxGCPauseMillis 控制最大的垃圾收集停顿时间分析互联网交互式项目：需要在停顿时间范围内（100~200ms），保证最大吞吐量（96%以上）传统项目：需要在保证最大吞吐量范围内，尽可能的降低停顿时间吞吐量越大，代表着垃圾收集时间越短，那么用户代码可以充分利用CPU资源，尽快完成程序的运算任务版权声明：本文内容由互联网用户自发贡献
57120编辑于 2022-11-10
来自专栏流柯技术学院
性能测试之吞吐量
你可能从来不关心一个系统的吞吐量，但吞吐量对一个系统来说却非常重要。吞吐量　　指在一次性能测试过程中网络上传输的数据量的总和。　　对于交互式应用来说，吞吐量指标反映的是服务器承受的压力，在容量规划的测试中，吞吐量是一个重点关注的指标，因为它能够说明系统级别的负载能力，另外，在性能调优过程中，吞吐量指标也有重要的价值。这就是吞吐率。吞吐率　　单位时间内网络上传输的数据量，也可以指单位时间内处理客户请求数量。吞吐量指标的作用：　　再次将话题回归到吞吐量上，在我们的性能测试中查看吞吐量对我们的测试有什么意义呢。　　1. 发现的80%系统的性能瓶颈都由吞吐量制约； 2. 并发用户数和吞吐量瓶颈之间存在一定的关联； 3. 采用吞吐量测试可以更快速定位问题。
2.8K40发布于 2018-08-30
来自专栏颇忒脱的技术博客
并行、延迟与吞吐量
“性能”这个词过于含糊，更准确的说应该是：延迟（latency）和吞吐量（throughput）。本文举几个简单的例子来解释在固定线程池大小的情况下，不同的并行程度与延迟和吞吐量的关系。吞吐量对比吞吐量的计算公式：吞吐量 = task数量 / 最慢的task所花费的时间。下面是吞吐量对比图： ? 图中吞吐量线条的锯齿不用在意，因为这和是否用足了线程池中的线程有关。拿不拆分task举例，当工作集=1时，吞吐量 = 1 / 2 = 0.5 tasks/sec，当工作集=6时吞吐量 = 6 / 2 = 3 tasks/sec。在如何估算吞吐量以及线程池大小提到计算吞吐量的公式： ? 在我们这个场景中，Tw=0，所以公式就变成了 C / Tc，我们的C=6，而Tc=2s，所以吞吐量就是3 tasks/sec。同时可以看到，当6个CPU用满的情况下，无论任务如何做并行化处理，其吞吐量峰值维持不变。当然你也不可能通过扩大线程池来提高吞吐量，因为CPU的数量是固定的。
2.2K00发布于 2019-04-18
来自专栏架构师
技术部三年都没搞定的海量吞吐问题，新来的架构师一周就解决了，因为Kafka
成熟的消息队列产品很多，说到海量数据下高吞吐高并发，Kafka不是针对谁，毋庸置疑的首选！ Kafka介绍 Kafka是一个分布式的基于发布订阅的消息队列，有着无与伦比的消息处理能力，相比与其他消息系统，具有以下特性：高吞吐：普通服务器每秒几十万条消息低延迟：TB级数据延迟最低只有几毫秒高并发：支持数千个客户端同时读写可扩展：Kafka集群支持热扩展可靠性：消息被持久化到本地磁盘容错性：允许集群中节点故障正是因为Kafka优异的表现，现在已经被广泛应用于海量日志收集、大数据处理下面我们来探讨下，Kafka到底是如何做到这么高的吞吐量和性能的呢？
74130发布于 2020-07-22
来自专栏大宽宽的碎碎念
延迟和吞吐的关系是什么？
原回答： https://www.zhihu.com/question/279164955/answer/405448070 所谓的“性能”一般指的是吞吐和延迟这两件事。所以整体看来，付出了你需要多等一点点时间的代价，换来的是整个“吞吐”的提高。长时间看下来，店员可以接待完毕的顾客数量比上一种要大得多。并且，这里说的等待是说从你到了队首到拿到东西的时间。相信通过这个例子你可以大概明白一个排队系统里吞吐和延迟的关系，大概就是：当吞吐量小时，延迟比较低，但是延迟低到一定成都受限于网络延迟、磁盘IO延迟的物理限制，无法进一步降低；通过batch/并发等方式，可以有效提高系统的吞吐，此时延迟会着上涨，但不会像吞吐量那样长的那么快。当压力超过了系统的某个临界值，吞吐不升反降，并且延迟会急剧上升然而，现实会更加的复杂。上面假设店员每次拿东西时的时间差不多，这已经是非常理想的情况了。
1.2K40发布于 2018-06-07
来自专栏FunTester
JMeter吞吐量误差分析
JMeter吞吐量可能是个假数据，因为它计算的是本机而不是服务端。 593ms，100并发，计算得到的吞吐量为：168.63，JMeter给出的吞吐量为166.4，误差几乎可以忽略。再看第三个案例：100并发，平均响应时间791ms，计算得到的吞吐量为126.422，JMeter给出的吞吐量为92.3，误差已经很大了。看结果，平均响应时间193ms，跟第一次结果差不多，JMeter给出的吞吐量值为1.5，误差巨大。那么1.5的吞吐量是怎么来的呢？如果JMeter在整个请求过程中平均响应时间是正常统计请求发出到接收到响应的时间，但是吞吐量缺失用本机的整个线程一次循环的时间作为吞吐量计算的依据。
1.9K40发布于 2020-04-03
来自专栏葬爱家族
Android高德之旅（11）绘制海量点废话海量总结
高德地图为我们提供了一个高性能的控件，可以绘制海量数据点。就是今天要说的MultiPointOverlay。海量多大的数量才叫海量呢，至少白酒一斤半吧，呸...官方的意思是10~10万，建议不要超过10万，不过基本上也不可能超过10万。这个功能从SDK5.1.0版本开始提供。
2K30发布于 2018-09-05
来自专栏架构师成长之路
海量数据处理
海量数据处理是基于海量数据上的存储、处理、操作。所谓海量，就是数据量很大，可能是TB级别甚至是PB级别，导致无法一次性载入内存或者无法在较短时间内处理完成。面对海量数据，我们想到的最简单方法即是分治法，即分开处理，大而化小，小而治之。我们也可以想到集群分布式处理。它主要缺点： 1) 对于半结构化、非结构化的海量数据存储效果不理想。像电子邮件、超文本、标签（Tag）以及图片、音视频等各种非结构化的海量数据。 3）在海量规模下，传统数据库一个致命弱点，就是其可扩展性差。主要特性：　　● 分布式　　● 基于column的结构化　　● 高伸展性 2 海量数据处理海量数据处理就是如何快速地从这些海量数据中抽取出关键的信息，然后提供给用户
1.9K10编辑于 2022-04-14
来自专栏每天学Java
BitSet处理海量数据
然后遍历全部用户，通过list.contains()来进行判断(这可能就是一直没有接触过海量数据造成的)，那么效果就不用说了，挺低的。
1.9K40发布于 2020-06-02
来自专栏Hyperledger实践
高吞吐框架Disruptor应用场景
官方的性能测试用例 1.1 JDK BlockingQueue的吞吐测试, 先来个一个生产者, 一个消费者用例 https://github.com/zealzeng/fabric-samples/blob 在老的四代I5貌似每秒吞吐也蛮高, 百万级。 test.testImplementations(); } } 用例没用完整封装的Disruptor类, 而直接用了RingBuffer和BatchEventProcessor处理, 一样的处理逻辑，吞吐是千万级别 WorkHandler<T>... workHandlers) { return createWorkerPool(new Sequence[0], workHandlers); } 官方也有若干个例子,百万级别吞吐
5.2K20发布于 2020-11-11
来自专栏前端杂货铺
高吞吐koa日志中间件
Midlog中间件 node服务端开发中少不了日志打点，而在koa框架下的日志打点在多进程环境中日志信息往往无法对应上下文，而且在高并发下直接进行写buffer操作（内核调用writev）也会造成内存
1.8K100发布于 2018-03-15
来自专栏ClearSeve
海量数据处理
海量数据，不能一次加载到内存中海量数据topK(最大和最小k个数)，第k大，第k小的数海量数据判断一个整数是否存在其中海量数据找出不重复的数字找出A,B两个海量url文件中共同的url 10亿搜索关键词中热度最高的 k个海量数据topK 最大K使用最小堆，最小K使用最大堆，这里以最大K为例海量数据hash分块维护最小堆的K个数据的数据容器堆中数据是topK大的数据，堆顶的数据是第K大数据先将海量数据hash ，也可以是字符串海量数据按照出现的次数或者频率排序，topK 海量数据按照出现的次数或者频率排序，topK 先将海量数据hash再取模m，分成m个小文件，hash(num)%m 扫描每个小文件的数据，以出现的频率维护最小堆的K个数据的数据容器遍历每个小文件中剩余的数据，与堆顶的数据进行比较，更新最小堆中的数据生成m * K个数据，然后对这些数据再进行排序，或者再次通过维护最小堆找出A,B两个海量 10大海量数据处理方案 https://blog.csdn.net/luyafei_89430/article/details/13016093
1.8K41编辑于 2022-02-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

海量数据, 为何总是海量垃圾 ?!

腾讯自动驾驶DMS：构建多模态数据检索与Tbps级海量吞吐的闭环基础设施

Kafka 高性能吞吐揭秘

Json海量数据解析Json海量数据解析

TPS、RT、吞吐量详解

性能测试：吞吐量

ovs vxlan 时延和吞吐

消息队列吞吐量调整

jvm 吞吐量_jvm oom

性能测试之吞吐量

并行、延迟与吞吐量

技术部三年都没搞定的海量吞吐问题，新来的架构师一周就解决了，因为Kafka

延迟和吞吐的关系是什么？

JMeter吞吐量误差分析

Android高德之旅（11）绘制海量点废话海量总结

海量数据处理

BitSet处理海量数据

高吞吐框架Disruptor应用场景

高吞吐koa日志中间件

海量数据处理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

海量数据, 为何总是 海量垃圾 ?!

腾讯自动驾驶DMS：构建多模态数据检索与Tbps级海量吞吐的闭环基础设施

Kafka 高性能吞吐揭秘

Json海量数据解析Json海量数据解析

TPS、RT、吞吐量 详解

性能测试：吞吐量

ovs vxlan 时延和吞吐

消息队列吞吐量调整

jvm 吞吐量_jvm oom

性能测试之吞吐量

并行、延迟与吞吐量

技术部三年都没搞定的海量吞吐问题，新来的架构师一周就解决了，因为Kafka

延迟和吞吐的关系是什么？

JMeter吞吐量误差分析

Android高德之旅（11）绘制海量点废话海量总结

海量数据处理

BitSet处理海量数据

高吞吐框架Disruptor应用场景

高吞吐koa日志中间件

海量数据处理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

海量数据, 为何总是海量垃圾 ?!

TPS、RT、吞吐量详解