搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏芯智讯
高通骁龙8 Gen2发布：CUP性能提升35%，GPU性能提升25%，AI性能提升4.35倍！
而新一代的骁龙8 Gen 2则采用了全新的内核架构，配备了一个3.2GHz主频的Kryo Prime 核心（基于 Cortex-X3），单核性能进一步提升，并且将大核心由之前的三个提升到了四个，主频为2.8GHz 同时，由于主频比第一代的骁龙8 Gen1均有200~300MHz的增加，叠加台积电4nm工艺的加持，最终骁龙8 Gen 2 CPU的性能提升了35%、功耗减少了40%。（Adreno 730）性能提升25%、功耗减少了45%。根据之前高通公布的数据，搭载的第七代高通AI引擎的骁龙8 Gen1的AI性能达到了前代的骁龙888的四倍。那么全新的骁龙8 Gen 2的AI性能又带来了多大的提升呢？）的AI性能提升。
2K20编辑于 2022-11-22
来自专栏sunsky
使用 HTTP2 提升性能的几个建议
现在，你需要决定是否迁移到HTTP/2，而其中关键是知道如何最大限度地利用它。这篇文章会带你了解从性能角度考虑为什么要做这个决定，以及如何实现。接下来我们要逐一讨论关于HTTP/2性能的7个小建议。如果你使用SSL/TLS（以后简称TLS），那么HTTP/2可以提升网站性能。如果你没有，那在使用HTTP/2之前要先支持TLS。这时候，使用TLS的性能损耗大致可以被使用HTTP/2的性能提升抵销。 HTTP/1.x优化在支持HTTP/2的浏览器中会影响性能，因此可能需要花时间把它们推倒重来。对下载大文件不利。它能够提升HTTP/1.x下的应用性能，但在HTTP/2之下，其性能提升可以忽略不讲（因为只有一个连接。) 对HTTP/2友好的分域，要保证以下两点。让多个域名解析到同一个IP。小结 HTTP/2和TLS组合可以提升你的站点性能，并且让用户觉得你的网站很安全。无论你是率先在自己的应用里实现HTTP/2，还是要赶超竞争对手，都可以又快又好地实现对HTTP/2的支持。
1.2K30发布于 2020-08-20
来自专栏新智元
集成FlashAttention-2，性能提升2倍
新智元报道编辑：alan 【新智元导读】新的一年，PyTorch也迎来了重大更新，PyTorch 2.2集成了FlashAttention-2和AOTInductor等新特性，计算性能翻倍。新的版本集成了FlashAttention-2，使得scaled_dot_product_attention （SDPA）相较于之前的版本有了约2倍的性能提升。 FlashAttention-2调整了算法以减少非matmul的计算量，同时提升了Attention计算的并行性（即使是单个头，也可以跨不同的线程块，以增加占用率），在每个线程块中，优化warps之间的工作分配在FlashAttention-2的加持之下，torch.nn.functional.scaled_dot_product_attention的速度提升了大约2倍，在A100 GPU上达到了理论计算峰值的：优化器的改进大概有以下几点：编译优化器在所有基准测试中都提高了性能：HuggingFace +18%、TorchBench +19%、TIMM +8% E2E；编译的优化器增加对cudagraphs
98910编辑于 2024-02-06
来自专栏Python编程爱好者
集成FlashAttention-2，性能提升2倍
新的版本集成了FlashAttention-2，使得scaled_dot_product_attention （SDPA）相较于之前的版本有了约2倍的性能提升。 FlashAttention-2调整了算法以减少非matmul的计算量，同时提升了Attention计算的并行性（即使是单个头，也可以跨不同的线程块，以增加占用率），在每个线程块中，优化warps之间的工作分配在FlashAttention-2的加持之下，torch.nn.functional.scaled_dot_product_attention的速度提升了大约2倍，在A100 GPU上达到了理论计算峰值的：优化器的改进大概有以下几点：编译优化器在所有基准测试中都提高了性能：HuggingFace +18%、TorchBench +19%、TIMM +8% E2E；编译的优化器增加对cudagraphs 性能改进 TorchInductor中添加了许多性能优化，包括对torch.concat的水平融合支持、改进的卷积布局优化、以及改进scaled_dot_product_attention模式匹配。
1.2K10编辑于 2024-02-04
来自专栏GiantPandaCV
FlashAttention2详解（性能比FlashAttention提升200%）
实验结果显示，FlashAttention-2在正向传递中实现了约2倍的速度提升，达到了理论最大吞吐量的73%，在反向传递中达到了理论最大吞吐量的63%。 FlashAttention利用tiling、recomputation等技术显著提升了计算速度（提升了2~4倍），并且将内存占用从平方代价将为线性代价（节约了10~20倍内存）。 grid的大小取决于计算任务的规模和thread block的大小，通常根据计算任务的特点和GPU性能来进行调整。这些优化方案使得FlashAttention-2的性能提升了2-3倍。因此，FlashAttention-2还在序列长度这一维度上进行并行化，显著提升了计算速度。此外，当batch size和head数量较小时，在序列长度上增加并行性有助于提高GPU占用率。
7.2K11编辑于 2023-10-30
来自专栏腾讯技术工程官方号的专栏
腾讯云OCR性能是如何提升2倍的
优化前平均耗时 1815ms，优化后平均耗时 824ms，耗时性能提升 2.2 倍，并最终得到重要客户的肯定。接下来将介绍我们在耗时优化方面的具体实践。，对大文本得到成倍的加速提升。针对动态 shape 模型，推理加速引擎在部分 shape 加速明显，部分 shape 反而会性能降低的问题，TIACC 通过重写关键算子，并且根据模型结构，选择业务全流程最优的算子实现，有效解决了实际业务中部分 1.71 1.97 TIACC 加速后延迟降低和吞吐提升统计 TIACC 底层使用了 TNN 作为基础框架，性能强大，其中 TNN 是优图实验室结合自身在 AI 场景多年的落地经验，向行业开源的部署框架 1.1% 效果：优化后的版本精度有所提升，召回率提升 1.1%，准确率提升 2.3%。
5.3K40编辑于 2023-01-05
来自专栏SpringBoot
提升Java性能
如果项目着眼于尽快无BUG上线，那么此时可以抓大放小，代码的细节可以不精打细磨；但是如果有足够的时间开发、维护代码，这时候就必须考虑每个可以优化的细节了，一个一个细小的优化点累积起来，对于代码的运行效率绝对是有提升的 Java编译器会寻找机会内联所有的final方法，内联对于提升Java运行效率作用重大，具体参见Java运行期优化。此举能够使性能平均提高50% 。 StringBuilder(String str) // 默认分配16个字符+str.length()个字符空间可以通过类（这里指的不仅仅是上面的StringBuilder）的来设定它的初始化容量，这样可以明显地提升性能 —-这是十分耗费性能的一个操作。使用带缓冲的输入输出流进行IO操作带缓冲的输入输出流，即BufferedReader、BufferedWriter、BufferedInputStream、BufferedOutputStream，这可以极大地提升
93631发布于 2018-11-05
来自专栏IT开发技术与工作效率
Outlook性能提升
Outlook性能提升 5.png 6.png 7.png 8.png 一般不到一个月就满了，存档邮件不会删除，可以设置较短的时间，如7天 2 9.png
1.6K30发布于 2018-06-20
来自专栏Java架构师进阶
初探性能优化：2个月到4小时的性能提升
一直不知道性能优化都要做些什么，从哪方面思考，直到最近接手了一个公司的小项目，可谓麻雀虽小五脏俱全。让我这个编程小白学到了很多性能优化的知识，或者说一些思考方式。最初我的程序计算下来需要跑2个月才能跑完，经过2周不断地调整架构和细节，将性能提升到了4小时完成。很多心得体会，希望和大家分享，也希望多多批评指正，共同进步。这样下来的代码最终预测2000万条数据要处理2个月。如果中间哪怕一条数据出错，又要重新再来2个月。简直可怕。这两部分批量带来的效率提升，将原本需要两个月时间的代码，提升到了21天，但依然是天文数字。如果设计成异步处理，效率会提升不少。
60640发布于 2019-06-02
来自专栏Java研发军团
初探性能优化--2个月到4小时的性能提升！
一直不知道性能优化都要做些什么，从哪方面思考，直到最近接手了一个公司的小项目，可谓麻雀虽小五脏俱全。让我这个编程小白学到了很多性能优化的知识，或者说一些思考方式。最初我的程序计算下来需要跑2个月才能跑完，经过2周不断地调整架构和细节，将性能提升到了4小时完成。很多心得体会，希望和大家分享，也希望多多批评指正，共同进步。这样下来的代码最终预测2000万条数据要处理2个月。如果中间哪怕一条数据出错，又要重新再来2个月。简直可怕。这两部分批量带来的效率提升，将原本需要两个月时间的代码，提升到了21天，但依然是天文数字。如果设计成异步处理，效率会提升不少。
61410发布于 2019-09-03
来自专栏Java后端技术栈
初探性能优化--2个月到4小时的性能提升！
让我这个编程小白学到了很多性能优化的知识，或者说一些思考方式。真的感受到任何一点效率的损失放大一定倍数时，将会是天文数字。最初我的程序计算下来需要跑2个月才能跑完，经过2周不断地调整架构和细节，将性能提升到了4小时完成。很多心得体会，希望和大家分享，也希望多多批评指正，共同进步。这样下来的代码最终预测2000万条数据要处理2个月。如果中间哪怕一条数据出错，又要重新再来2个月。简直可怕。这两部分批量带来的效率提升，将原本需要两个月时间的代码，提升到了21天，但依然是天文数字。由于各个环节之间的完全解耦，某一环上的偶尔卡主并不再影响整个过程的进度，所以效率提升不知一两点。
53010发布于 2018-08-09
来自专栏全栈程序员必看
qcustomplot 性能_cpu性能提升工具
Plot性能提升 QCustomPlot采用了大量的技术比如自适应采样和文本对象缓存为了减少replot的时间。然而一些特性比如半透明的填充,反锯齿和粗线条都可能导致低效率。这有一些提示关于如何跳高Replot的性能。大部分时间耗费在绘图函数上尤其是绘制高密度的图形和其他图。为了最大性能思考下面几点: 使用Qt4.8.0及以上的版本,性能将会有双倍或者三倍的提升跟Qt4.7.4相比。因此它是性能和质量的权衡当转到Qt4.8.0时。QCustomPlot内部尝试解决这种严重的故障。如果OpenGL是可用的,这将略有减少抗锯齿的质量但是却增强了性能尤其是半透明的填充,抗锯齿和大量的QCustomPlot绘制表面。
2.5K40编辑于 2022-11-08
来自专栏前端架构
再谈HTTP2性能提升之背后原理—HTTP2历史解剖
的情况下, HTTP/2 是如何做到「突破 HTTP1.1 的性能限制，改进传输性能，实现低延迟和高吞吐量」？ HTTP/2 通过让所有数据流共用同一个连接，可以更有效地使用 TCP 连接，让高带宽也能真正的服务于 HTTP 的性能提升。 _White_Paper_v4.pdf NGINX Blog--提升 HTTP/2 性能的 7个小建议： 7 Tips for Faster HTTP/2 Performance（原文） [译]使用HTTP /2提升性能的7个建议（李松峰译） HTTP/2 for a Faster Web O'Reilly HTTP2-high-perf-browser-networking：http://www.oreilly.com /spdy/spdy-whitepape 本文主要内容来源:《HTTP 2.0的那些事》文章由本人精炼而成，原文：再谈HTTP2性能提升之背后原理-HTTP2历史解剖 - Network - 周陆军的个人网站
2.1K51发布于 2019-01-28
来自专栏猿天地
Fastjson 2 性能继续提升，可否再战十年？
/fastjson2/wiki/jsonb_format_cn FASTJSON 2性能有了很大提升，具体性能数据看这里 https://github.com/alibaba/fastjson2/wiki maven.org/maven2/com/alibaba/fastjson2/fastjson2/ 2.2 如果原来使用fastjson 1.2.x版本，可以使用兼容包，兼容包不能保证100%兼容，请仔细测试验证使用JSONPath 6.1 使用JSONPath部分读取数据 String str = ...; JSONPath path = JSONPath.of("$.id"); // 缓存起来重复使用能提升性能使用JSONPath读取部分utf8Bytes的数据 byte[] utf8Bytes = ...; JSONPath path = JSONPath.of("$.id"); // 缓存起来重复使用能提升性能 JSONPath读取部分jsonbBytes的数据 byte[] jsonbBytes = ...; JSONPath path = JSONPath.of("$.id"); // 缓存起来重复使用能提升性能
1.1K20编辑于 2022-04-25
来自专栏全栈程序员必看
Qt quick性能提升
Qt quick性能优化使用时间驱动　　避免定时轮询；　　使用信号槽形式；使用多线程　　C++; 　　QML WorkerScript元件；使用Qt Quick Compiler 　　只需要再设置图片尺寸；锚定布局　　在元素布局时，使用anchors锚布局比属性绑定效果更高；　　坐标>锚定> 绑定> JavaScript函数；渲染注意事项 1、避免使用Clip属性（默认禁用），剪切损失性能； 2、被覆盖不可见的元素要设置visible为false,通知引擎不绘制； 3、透明与不透明：不透明效率更高，全透明时请设置不可见；使用Animation而不是Timer Qt优化了动画的实现，性能高于我们通过定时器触发属性的改变；传统方式使用Timer传统方式； Timer触发动画性能低下，更耗电；元素生命周期设计 Loader—–动态加载和卸载一个组件；　　使用active属性，可以延迟实例化；　　使用setSource
1.7K11编辑于 2022-11-05
来自专栏第三方工具
接口性能提升方法
接口性能提升方法 1.索引 1.1 没加索引 sql语句中where条件的关键字段，或者order by后面的排序字段，忘了加索引，这个问题在项目中很常见。项目刚开始的时候，由于表中的数据量小，加不加索引sql查询性能差别不大。目前在mysql中如果想要修改索引，只能先删除索引，再重新添加新的。 2. sql优化 3. 远程调用 3.1 并行调用 3.2 数据异构 4. 重复调用 4.1 循环查数据库这里有个需要注意的地方是：id集合的大小要做限制，最好一次不要请求太多的数据。 ='ON'; set global slow_query_log_file='/usr/local/mysql/data/slow.log'; set global long_query_time=2; [mysqld] slow_query_log = ON slow_query_log_file = /usr/local/mysql/data/slow.log long_query_time = 2
44310编辑于 2024-12-10
来自专栏machine_learning
模型性能提升操作
看了一些别人的思路，总结了一些模型性能提升的操作并完成python实现。 1. 行空缺值的处理常规方法统计每行数据的空缺值，如果空缺值数量超过阈值，则剔除此行数据。 , len(features)): vif = vif_array[idx][count] print('特征{0}与特征{1}的共线性系数vif为：{2} 例如N个特征两两相乘，会产生N（N-1）/2个新特征。 ] or [2,1,2] etc when set vote_type is 'soft' :return: classifier model """ clf1 = GradientBoostingClassifier min_samples_leaf、最大叶子节点数max_leaf_nodes等，可参考文章：scikit-learn 梯度提升树(GBDT)调参小结） from sklearn import model_selection
1.1K20发布于 2020-09-09
Elasticsearch：提升 Elasticsearch 性能
但是，为确保你的 Elasticsearch 部署发挥最佳性能，监控关键指标并优化各种组件（如索引、缓存、查询和搜索以及存储）至关重要。从优化集群健康、搜索性能和索引，到掌握缓存策略和存储选项，本博客涵盖了很多方面的内容。无论你是经验丰富的 Elasticsearch 专家还是新手，遵循一些最佳实践以确保你的部署具有高性能、可靠和可扩展性都非常重要。更多阅读：Elasticsearch：如何提高查询性能性能Active shards 应该与 CPU 成正比：为了提高 write-heavy 用例的性能，刷新间隔应该增加到一个更大的值，例如 30s，搜索性能：请求延迟和速率 - 跟踪搜索请求的延迟和每秒搜索请求的数量。索引性能：刷新时间和合并时间 - 监控刷新索引所需的时间和合并段所需的时间。
1.3K10编辑于 2024-05-08
来自专栏Tecvan
Webpack 性能系列三：提升编译性能
前面两篇文章《Webpack 性能系列二：多进程打包》、《Webpack 性能系列一: 使用 Cache 提升构建性能》已经详细探讨使用缓存与多进程能力，提升 Webpack 编译性能的基本方法与实现原理，这两种方法都能通过简单的配置极大提升大型项目的编译效率。除此之外，还可以通过一些普适的最佳实践，减少编译范围、编译步骤提升 Webpack 性能，包括：使用最新版本 Webpack、Node 配置 resolve 控制资源搜索范围针对 npm 包设置 module.noParse 一、使用最新版本从 Webpack V3，到 V4，再到最新的 V5 版本，虽然构建功能在不断叠加增强，但性能反而不断优化提升，这得益于 Webpack 开发团队始终重视构建性能，在各个大版本之间不厌其烦地重构核心实现：多进程打包》、《Webpack 性能系列一: 使用 Cache 提升构建性能》，关于 Webpack 编译性能提升的方式方法已经总结的比较完备了，有其它观点的同学欢迎留言或私信联系。
1.7K20编辑于 2021-12-09
Kafka 线程模型痛点攻克：提升分区写入 2 倍性能
此时，Kafka 的单分区写入性能将会决定整个系统的吞吐上限。在我们的实践中发现，Kafka 由于其本身线程模型实现上的制约，并没有将单分区写入性能的极限发挥出来。高效：不同阶段流水线化，网络线程解析完 MSG1 后就可以立马解析 MSG2，无需等待 MSG1 持久化完成。在进行校验定序后，无需等待数据持久化，即可继续处理下一个请求，提高了业务逻辑处理线程的利用率；ꔷ AutoMQ 后台存储线程会根据攒批大小和攒批时间触发刷盘，并且持久化成功后再异步返回给网络层响应，提升了持久化的效率的 1 / 15，仅为 11ms；05 结语AutoMQ 通过网络处理模型的优化，将 Apache Kafka 的串行处理模型优化成了流水线处理模型，使得单分区的写入性能获得了成倍的性能提升，从而让单分区全局顺序消息可以满足更多场景的性能要求尽管 AutoMQ 通过流水线处理模型极大得提升了极限吞吐和降低了延迟，但仍旧建议业务尽可能找到合理的数据分区的方式，避免单生产者单分区的场景，并且尽可能避免分区热点。
29100编辑于 2024-05-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

高通骁龙8 Gen2发布：CUP性能提升35%，GPU性能提升25%，AI性能提升4.35倍！

使用 HTTP2 提升性能的几个建议

集成FlashAttention-2，性能提升2倍

集成FlashAttention-2，性能提升2倍

FlashAttention2详解（性能比FlashAttention提升200%）

腾讯云OCR性能是如何提升2倍的

提升Java性能

Outlook性能提升

初探性能优化：2个月到4小时的性能提升

初探性能优化--2个月到4小时的性能提升！

初探性能优化--2个月到4小时的性能提升！

qcustomplot 性能_cpu性能提升工具

再谈HTTP2性能提升之背后原理—HTTP2历史解剖

Fastjson 2 性能继续提升，可否再战十年？

Qt quick性能提升

接口性能提升方法

模型性能提升操作

Elasticsearch：提升 Elasticsearch 性能

Webpack 性能系列三：提升编译性能

Kafka 线程模型痛点攻克：提升分区写入 2 倍性能

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

高通骁龙8 Gen2发布：CUP性能提升35%，GPU性能提升25%，AI性能提升4.35倍！

使用 HTTP2 提升性能的几个建议

集成FlashAttention-2，性能提升2倍

集成FlashAttention-2，性能提升2倍

FlashAttention2详解（性能比FlashAttention提升200%）

腾讯云OCR性能是如何提升2倍的

提升Java性能

Outlook性能提升

初探性能优化：2个月到4小时的性能提升

初探性能优化--2个月到4小时的性能提升！

初探性能优化--2个月到4小时的性能提升！

qcustomplot 性能_cpu性能提升工具

再谈HTTP2性能提升之背后原理—HTTP2历史解剖

Fastjson 2 性能继续提升，可否再战十年？

Qt quick性能提升

接口性能提升方法

模型性能提升操作

Elasticsearch：提升 Elasticsearch 性能

Webpack 性能系列三：提升编译性能

Kafka 线程模型痛点攻克： 提升分区写入 2 倍性能

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Kafka 线程模型痛点攻克：提升分区写入 2 倍性能