首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ApacheHudi

    | Apache Hudi应用指南

    通过Spark作业将数据写入Hudi时,Spark应用的技巧也适用于此。如果要提高性能或可靠性,请牢记以下几点。 GC:请确保遵循Spark指南中的垃圾收集技巧,以避免OutOfMemory错误。 HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/hoodie-heapdump.hprof spark.driver.maxResultSize 2g spark.driver.memory 4g spark.sql.hive.convertMetastoreParquet false spark.submit.deployMode cluster spark.task.cpus 1 spark.task.maxFailures 4

    1.3K20发布于 2021-04-13
  • 来自专栏Spark专栏

    Spark Shuffle指南

    概述 从Spark shuffle原理可知,Spark shuffle在计算与IO方面,都可能有较大开销,故,Spark shuffle就是优化这2个方面。 这里仅关注参的方式,不关注应用代码层面的。 输出的数据,该参数的值有三个选项,分别是snappy,lz4和lzf。 建议:无。 spark.shuffle.io.retryWait 默认值:5s 参数说明:每次重试拉取数据的等待间隔 建议:通常建议加大时长,理由同上。

    2K20发布于 2021-02-20
  • 来自专栏搜云库技术团队

    JVM 11 的指南:如何进行JVM,JVM参数

    JVM 11的优化指南:如何进行JVM,以及JVM参数有哪些”这篇文章将包含JVM 11的核心概念、重要性、参数,并提供12个实用的代码示例,每个示例都会结合JVM参数和Java代码 本文已收录于,我的技术网站 ddkk.com,有大厂完整面经,工作技术,架构师成长之路,等经验分享 JVM 11的优化指南 JVM简介 JVM是通过调整Java虚拟机的配置参数来提升应用程序的性能和资源利用效率的过程 JVM的重要性 提高性能:通过,可以提升应用程序的响应速度和处理能力。 资源优化:合理的配置可以使应用更高效地利用系统资源。 合理的JVM可以显著提升应用的性能和稳定性。不过,请记得是一个持续的过程,需要根据应用的具体表现来不断调整和优化。 示例4:使用G1垃圾收集器并 JVM启动参数: java -XX:+UseG1GC -XX:MaxGCPauseMillis=200 -XX:InitiatingHeapOccupancyPercent

    2.3K10编辑于 2024-01-17
  • 来自专栏阿泽的学习笔记

    算法模型指南

    在算法项目落地过程中,如果只考虑机器学习相关部分,个人感觉最花时间的两个部分是数据质量问题处理和模型实验与迭代。 从第6部分开始是更深入的通过数据分析来进行模型的一些介绍,以及后续的测试,工程化,上线的简介,比较适合有经验的算法工程师阅读。 参数。对模型的各种参数,模型结构进行各种调整。 数据与模型。修复数据中的问题,做数据增强,引入不同类型的数据,收集更多数据,或者特征工程预处理方面的操作。 问题对应的典型数据集,例如我们可以收集一系列节假日,办公型门店的历史数据,用于后续改进的检验集。 会有大量的操作花费在超参搜索上。 Human-in-the-Loop & AutoML: ?

    1.7K43发布于 2021-07-06
  • 来自专栏全栈工程师修炼之路

    4.Nginx安全加固与性能最佳指南

    2022年1月8日 18点18分 |WeiyiGeek |扩充| ---- 1.引言 1.1 目的 为了更好的指导部署与测试艺术升系统nginx网站服务器高性能同时下安全稳定运行,需要对nginx服务进行与加固 ; 本次进行Nginx服务加固主要从以下几个部分: 模块性能优化 系统内核优化 编译安装优化 性能参数优化 安全加固配置 1.2 目标范围 本文档仅供内部使用,禁止外传,帮助研发人员,运维人员对系统长期稳定的运行提供技术文档参考 永久修改/etc/sysctl.conf配置文件永久保存 下面是我常用的内核配置: grep -q "net.ipv4.tcp_max_tw_buckets" /etc/sysctl.conf | "--without-select_module" \ "--with-cc-opt='-O2'" 3.3 性能优化 缓存和压缩与限制可以提高性能 NGINX的一些额外功能可用于提高Web应用的性能,的时候 ; 本次进行Nginx服务加固主要从以下几个部分,模块性能优化,系统内核优化,编译安装优化,性能参数优化,安全加固配置, 可以帮助安全开发运维者加速进行Nginx服务器相关优化。

    4.4K21编辑于 2022-09-29
  • 来自专栏腾讯云流计算 Oceanus

    Flink on RocksDB 参数指南

    因此我们对 Flink 上的 RocksDB 的参数方法进行了梳理,希望能够帮助大家解决相关的问题。 根据我们的经验来看,这个参数小、大都会造成性能下滑,它的最佳值会在某个中间值附近,例如 3 等。 默认值为 4,可以大一些,以减少 Compaction 操作的频率(但是会带来 Compaction 时间的延长)。 RocksDB 官方提供了性能优化指南 [5],也可以根据这些来进行参数。 经过我们的调研,对默认参数进行优化后,读性能有将近 800% 的提升,而写性能也有不同程度的改善,因此 RocksDB 是非常值得进行的。

    18.8K102发布于 2020-02-29
  • 来自专栏DeepHub IMBA

    XGBoost超参数指南

    本文将详细解释XGBoost中十个最常用超参数的介绍,功能和值范围,及如何使用Optuna进行超参数。 我们这里只关注原生API(也就是我们最常见的),但是这里提供一个列表,这样可以帮助你对比2个API参数,万一以后用到了呢: 如果想使用Optuna以外的超参数工具,可以参考该表。 但是通过使用早停技术,我们可以在验证指标没有提高时停止训练,不仅节省时间,还能防止过拟合 有了这个技巧,我们甚至不需要num_boost_round。 但是一般情况下不必担心这些参数之间的相互作用,因为我们将使用自动找到最佳组合。 所以的目标是找到导致损失函数最大减少的最佳分割,这意味着改进的模型性能。 9、min_child_weight XGBoost从具有单个根节点的单个决策树开始初始训练过程。

    1.8K30编辑于 2023-08-30
  • Java性能与故障排查:JVM参数实战指南

    JVM的核心目标 性能主要围绕三个核心指标展开:吞吐量(Throughput)、延迟(Latency)和内存占用(Footprint)。 通过预先的堆内存和GC策略选择,能够将99%的请求延迟控制在200ms以内,这正是价值的直接体现。 面临的主要挑战 JVM的最大挑战在于其高度场景依赖性。 这种渐进式优化方式避免了"过度"带来的副作用。 工具链的运用 现代JVM生态提供了丰富的诊断工具。 G1收集器实战配置 作为当前最通用的收集器,G1的要点包括: 基础参数: -XX:G1HeapRegionSize=4m # 区域大小(默认根据堆自动计算) -XX:MaxGCPauseMillis 这种差异正如同CSDN指南强调的:必须根据应用SLA(如99.99%可用性要求)来反向推导JVM参数配置。

    98023编辑于 2025-08-27
  • 来自专栏Java那些事

    开发者面试之JVM指南.mp4

    应该先从基础结构,再深入其执行原理,最后才能掌握JVM、并发等高阶技巧。

    44620发布于 2019-09-20
  • 来自专栏京东技术

    JRC Flink流作业指南

    本文是笔者根据过往经验以及实践,结合京东实时计算平台(JRC)背景产出的面向专业人员的Flink流作业指南。 主要包含以下四个方面: TaskManager内存模型 网络栈 RocksDB与状态 其他项 本文基于Flink 1.12版本。 图2 Web UI展示的内存分配情况 1.5 概览 理解TaskManager内存模型是开展的大前提,进行的宗旨就是:合理分配,避免浪费,保证性能。 下一节就来详细讲解Flink网络栈的。 3.s.b.r.predefined-options(默认DEFAULT) 社区提供的预设RocksDB参数集,有4种:DEFAULT、SPINNING_DISK_OPTIMIZED、SPINNING_DISK_OPTIMIZED_HIGH_MEM

    1.5K40编辑于 2022-09-07
  • 来自专栏GitHub专栏

    4 款 MySQL 工具,yyds!

    /slowtest-slow.log --since '2017-01-07 09:30:00' --until '2017-01-07 10:00:00'> > slow_report3.log 4) pt-query-digest --filter '$event->{fingerprint} =~ m/^select/i' /var/lib/mysql/slowtest-slow.log> slow_report4.

    1.1K31发布于 2021-08-05
  • 来自专栏不温卜火

    Spark性能优化 (4) | JVM

    对于 JVM ,首先应该明确,full gc/minor gc,都会导致JVM的工作线程停止工作,即stop the world。 1. Executor 堆外内存上限大概为300多MB,在实际的生产环境下,对海量数据进行处理的时候,这里都会出现问题,导致Spark作业反复崩溃,无法运行,此时就会去调节这个参数,到至少1G,甚至于2G、4G

    1.2K30发布于 2020-10-28
  • 来自专栏小码匠和老码农

    JVM指南-工具篇:jps

    我是老码农,一个喜欢技术、爱分享的同学,从今天开始和大家持续分享JVM方面的经验。 JVM是个大话题,涉及的知识点很庞大 Java内存模型 垃圾回收机制 各种工具使用 参数配置 指标设置 ... 所以会是个持续分享的活,急不得。 感兴趣的同学,我们一起学习,攻下JVM这座山头。 今日分享主题 JDK的bin目录下提供了很多和Java相关的小工具,后面会陆续分享提供的这些工具。 例如: 服务器上跑着那些Java的服务呢?

    42640编辑于 2022-06-16
  • MySQL 性能全方位指南

    MySQL 性能全方位指南在数据库驱动的应用系统中,MySQL 的性能直接影响着整个系统的响应速度和用户体验。当业务数据量增长、并发请求增多时,原本流畅的数据库可能会出现查询缓慢、连接超时等问题。 本文将从硬件、配置、SQL 语句、索引、存储引擎等多个层面,详细介绍 MySQL 性能的实用方法和技巧,帮助你打造高效稳定的数据库服务。 八、总结MySQL 性能是一个系统性的工作,需要从硬件、配置、SQL 语句、索引、存储引擎、缓存等多个方面进行综合考虑和优化。 希望本文介绍的 MySQL 性能方法和技巧能够帮助你解决实际工作中遇到的性能问题,让你的数据库运行得更加流畅。

    1K10编辑于 2025-08-22
  • 来自专栏chenchenchen

    SQL之性能

    针对专门操作符的 前面,讲的是关于查询条件的一般规则,在这一节中,将讨论如何使用专门的操作符来改进 SQL 代码的性能。 WHERE column1 IN (1, 3, 4, 5) 转换成: ... 本文总结的是一些 SQL 性能的比较初级的方面,SQL 还包括 Order by,Group by 以及 Index 等等。

    2.3K30发布于 2019-12-03
  • 来自专栏北京马哥教育

    Linux性能及指南:进程管理

    图1-4 进程和线程 在现在的Linux实现中,线程支持UNIX的可移植操作系统接口(POSIX)标准库。在Linux操作系统中有几种可用的线程实现。

    1.5K60发布于 2018-05-04
  • 来自专栏vivo互联网技术

    【干货】Elasticsearch搜索权威指南 (23)

    Elasticsearch搜索权威指南,是QBOX在其博客上发布的系列文章之一,本文是该系列的第二篇,主要介绍了索引预处理、mapping建立、避免脚本的使用、索引段合并等搜索性能相关的方法; 作者:Adam Vanderbush 译者:杨振涛 本文是Elasticsearch搜索系列文章3篇中的第2篇,第1篇参考这里(点击)。 本系列教程旨在更进一步讨论针对Elasticsearch 5.0及以上版本的搜索技术、策略及建议。 ? (图片来源于网络) 1预索引数据 为了优化数据的索引方式,应当在查询中预置一些模式。 请参考 “ Painless Scripting in Elasticsearch ” 更深入地了解 Painless 脚本语言指南4强制合并只读索引 只读索引在合并为单一的段后将会非常受益。典型的情况是基于时间的索引:只有当前时间窗的索引会成为新文档,同时旧索引成为只读。

    59120发布于 2019-04-19
  • 来自专栏vivo互联网技术

    【干货】Elasticsearch搜索权威指南(33)

    关注微信公众号 ↑ 获取更多干货 Elasticsearch搜索权威指南,是QBox在其博客上发布的系列文章之一,本文是该系列的第三篇,主要从凑整时间查询、全局序列号预热和文件系统缓存预热几个方面介绍了优化查询性能的一些方法 此前还发布了 Elasticsearch性能权威指南 和 Elasticsearch索引性能优化 两个系列。 作者:Adam Vanderbush 译者:杨振涛 本文是QBox官方博客“Elasticsearch搜索权威指南”系列文章3篇中的第3篇,第1篇参考这里,第2篇参考这里。 本系列教程旨在进一步探讨针对Elasticsearch 5.0及以上版本的搜索技术、策略和建议。

    1.1K10发布于 2019-03-19
  • 来自专栏LhWorld哥陪你聊算法

    【Spark篇】---Spark之代码,数据本地化,内存,SparkShuffle,Executor的堆外内存

    一、前述 Spark中大致分为以下几种 ,代码,数据本地化,内存,SparkShuffle,调节Executor的堆外内存。 二、具体    1、代码 1、避免创建重复的RDD,尽量使用同一个RDD 2、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略? 通过日志或者WEBUI 3、内存 ? Spark中如何内存? Spark WEBUI中job->stage->task 4、Spark Shuffle spark.shuffle.file.buffer 32k     buffer大小 默认是32K  maptask

    2.1K30发布于 2018-09-13
  • 来自专栏vivo互联网技术

    【干货】Elasticsearch性能权威指南(13)

    本文翻译自QBox官方博客“Elasticsearch性能权威指南”系列文章的第一篇,主要从集群拓扑结构、分片与副本、容量规划以及内存优化等方面介绍了性能的基本原理和实践策略。 是必需、必要和重要的!任何系统的都必需有性能度量指标的支持,因此对监控的清晰理解,以及对变化的度量指标的映射,对所有Elasticsearch用户来说非常必要。 本系列教程的3篇文章将会介绍一些性能的技巧和方法,并解释与每一步最相关的系统配置设置和度量。 GQ", "master_node": "VyKDGurkQiygV-of4B1ZAQ", "blocks": {}, "nodes": { "VyKDGurkQiygV-of4B1ZAQ 4.专用协调节点 如果考虑除了处理master职责、存储数据以及预处理文档之外的能力,那么我们还剩下一个协调节点,只负责路由请求、处理检索的reduce步骤,以及分发批量索引请求。

    70520发布于 2019-03-19
领券