首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏chenchenchen

    SQL性能

    WHERE column1 = -column2 3 还是可以带来查询性能的优化的。 针对专门操作符的 前面,讲的是关于查询条件的一般规则,在这一节中,将讨论如何使用专门的操作符来改进 SQL 代码的性能。 或 (OR) 和与 (AND) 操作符相反,在用或 (OR) 操作符写 SQL 语句时,就应该将概率的表达示放在左面,因为如果第一个表达示为假的话,OR 操作符意味着需要进行下一个表达示的解析。 以上是作者对如何提高 SQL 性能的一些总结,这些规则并一定在所有的数据库系统上都能带来性能的提高,但是它们一定不会对数据库的性能带来下降,所以掌握并使用这些规则可以对数据库 应用程序的开发有所帮助。 本文总结的是一些 SQL 性能的比较初级的方面,SQL 还包括 Order by,Group by 以及 Index 等等。

    2.3K30发布于 2019-12-03
  • 来自专栏纯洁的微笑

    Tomcat 性能之 JVM

    因此在对Web 容器( 应用服务器) 的中必不可少的是对于 JVM 的。 对于 JVM 的,主要有两个方面考虑: 内存大小配置 垃圾回收算法选择 当然,确切的说,以上两点并不互相独立,内存的大小配置也会影响垃圾回收的执行效率。 我们前面也提到,垃圾回收算法和内存的大小配置并非独立的,内存设置是回收的频率会降低,但每次的执行时间也会变长。所以这里也是一个需要权衡的地方。 延迟、吞吐量 其他 JVM 配置 垃圾回收算法对应到的就是不同的垃圾收集器,具体到在 JVM 中的配置,是使用 -XX:+UseParallelOldGC 或者 -XX:+UseConcMarkSweepGC 所谓,就是一个不断调整和优化的过程,需要观察、配置、测试再如此重复。有相关经验的朋友欢迎留言补充! 说到底,那上面的这些选项是要配置在哪里呢?

    2.2K30发布于 2019-05-06
  • 来自专栏SmartSi

    Spark 性能之Shuffle

    概述 大多数 Spark 作业的性能主要就是消耗在了 shuffle 环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。 因此,如果要让作业的性能更上一层楼,就有必要对 shuffle 过程进行。 但是也必须提醒大家的是,影响一个 Spark 作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle 只能在整个 Spark 的性能中占到一小部分而已。 建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如96m),从而减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。 ,建议参考后面的几个参数,通过 bypass 机制或优化的 HashShuffleManager 来避免排序操作,同时提供较好的磁盘读写性能

    1.8K31发布于 2019-08-08
  • 来自专栏SmartSi

    Spark 性能之资源

    Spark的性能实际上是由很多部分组成的,不是调节几个参数就可以立竿见影提升作业性能的。 笔者根据之前的Spark作业开发经验以及实践积累,总结出了一套Spark作业的性能优化方案。整套方案主要分为开发、资源、数据倾斜、shuffle几个部分。 开发和资源是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle,面向的是对 本文作为Spark性能优化指南的基础篇,主要讲解资源。 2. 资源 2.1 概述 在开发完Spark作业之后,就该为作业配置合适的资源了。 这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能。 参数建议:Spark作业的默认task数量为500-1000个较为合适。

    2K30发布于 2019-08-07
  • 来自专栏SmartSi

    Spark 性能之开发

    如果没有对Spark作业进行合理的,Spark作业的执行速度可能会很慢,这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此,想要用好Spark,就必须对其进行合理的性能优化。 Spark的性能实际上是由很多部分组成的,不是调节几个参数就可以立竿见影提升作业性能的。 笔者根据之前的Spark作业开发经验以及实践积累,总结出了一套Spark作业的性能优化方案。整套方案主要分为开发、资源、数据倾斜、shuffle几个部分。 开发和资源是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案;shuffle,面向的是对 本文作为Spark性能优化指南的基础篇,主要讲解开发。 2. 开发 2.1 概述 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。

    1.3K31发布于 2019-08-07
  • 来自专栏DeepHub IMBA

    使用阈值改进分类模型性能

    阈值是数据科学中一个重要且必要的步骤。它与应用程序领域密切相关,并且需要一些领域内的知识作为参考。在本文中将演示如何通过阈值来提高模型性能。 用于分类的常用指标 一般情况下我们都会使用准确率accuracy来评价分类的性能,但是有很多情况下accuracy 不足以报告分类模型性能,所以就出现了很多其他的指标:精确度Precision、召回率 阈值优化 假设我们正在处理一个二元分类任务的逻辑回归模型。我们已经进行了训练、超参数和测试阶段。该模型已经过交叉验证。 根据我们应用的决策阈值,相同的模型可以表现出一些不同的性能。 通过调整阈值并进行结果的对比,一旦对结果满意,模型就可以投入到生产中了。 总结 为分类模型选择最重要的评价指标并不容易。 模型的行为很大程度上受到阈值选择的影响,我们可以应用不同的技术来评估模型阈值以获得预期的结果。

    1.1K20编辑于 2022-11-11
  • 来自专栏数据派THU

    使用阈值改进分类模型性能

    来源:Deephub Imba 本文约2500字,建议阅读7分钟 本文将演示如何通过阈值来提高模型性能。 阈值是数据科学中一个重要且必要的步骤。 在本文中将演示如何通过阈值来提高模型性能。 阈值优化 假设我们正在处理一个二元分类任务的逻辑回归模型。我们已经进行了训练、超参数和测试阶段。该模型已经过交叉验证。 根据我们应用的决策阈值,相同的模型可以表现出一些不同的性能。 通过调整阈值并进行结果的对比,一旦对结果满意,模型就可以投入到生产中了。 总结 为分类模型选择最重要的评价指标并不容易。 模型的行为很大程度上受到阈值选择的影响,我们可以应用不同的技术来评估模型阈值以获得预期的结果。 编辑:王菁 校对:林亦霖

    1.2K20编辑于 2022-10-09
  • 来自专栏存储内核技术交流

    Glusterfs性能

    指定了接收和发送套接字缓冲区大小的最大值,对于小文件小文件请求处理时候效率比较高 net.core.rmem_max=67108864 net.core.wmem_max=67108864 //为自动定义每个 net.ipv4.tcp_rmem=33554432 net.ipv4.tcp_wmem=33554432 Gluster参数 读写性能参数优化 // 打开metadata-cache,打开这个选项可以提高在 这尤其会影响小文件的性能,其中大量文件被快速连续地添加/创建。 gluster volume get dht-vol performance.readdir-ahead on // 设置performance.readdir-ahead的内存,默认是10mb,可以适当 rep-vol cluster.shd-max-threads 64 //修复的数据快大小,默认是1(1*128k),默认是按照128K数据快修复,如果需要修复的数据很大,这个默认1太小,可以适当的

    3.5K42编辑于 2022-08-17
  • 来自专栏Jed的技术阶梯

    Spark性能01-资源

    理解作业基本原理,是我们进行资源参数的基本前提。 3. spark内存管理 (1) spark-1.5.x版本以前使用静态内存管理 ? Executor内存的大小,很多时候直接决定了Spark作业的性能,而且跟常见的JVM OOM异常,也有直接的关联。 参数建议: 每个Executor进程的内存设置4G~8G较为合适。 参数建议: Executor的CPU core数量设置为2~4个较为合适。 参数建议: Driver的内存通常来说不设置,或者设置1G左右应该就够了。 这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能。 参数建议: Spark作业的默认task数量为500~1000个较为合适。

    1.5K20发布于 2018-09-13
  • 来自专栏Python进阶之路

    语言模型的指令:综述

    因此,指令是一种有效的技术,可以将语言模型与人类指令进行对齐。 第 7 节回顾了如何提高指令微调的效率,降低与调整模型相关的计算成本和时间成本。 第 8 节介绍了对指令模型的评估、分析以及对这些模型的批评。 模型评估:研究回顾了多模态技术和数据集在指令中的应用,涵盖图像、语音和视频等领域,并评估了指令模型性能表现。 结果: 经过指令,LLMs 在多个自然语言处理任务中表现出了显著的性能提升。 相较于基线模型,指令模型在遵循指令、减少幻觉以及生成适当响应方面更胜一筹。 此外,通过适应不同的模态和领域,指令模型在理解和生成与任务紧密相关的输出方面也得到了显著增强。 结论: 指令作为一种有前景的方法,能够显著提高 LLMs 的性能和适应性。

    61600编辑于 2024-05-25
  • 来自专栏Elixir

    GC 性能

    什么是? 根据需求进行JVM规划和预 优化运行JVM运行环境(慢,卡顿) 解决JVM运行过程中出现的各种问题(OOM) ,从规划开始 ,从业务场景开始,没有业务场景的都是耍流氓 无监控(压力测试 -> LVS -> NGINX -> 业务系统 -> 每台机器1W并发(10K问题) 100台机器 普通电商订单 -> 下单 ->订单系统(IO)减库存 ->等待用户付款 12306的一种可能的模型 扩容或,让它达到 用压测来确定 优化环境 有一个50万PV的资料类网站(从磁盘提取文档到内存)原服务器32位,1.5G 的堆,用户反馈网站比较缓慢,因此公司决定升级,新的服务器为64位,16G 的堆内存 PS -> PN + CMS 或者 G1 系统CPU经常100%,如何

    1.7K10编辑于 2022-11-05
  • 来自专栏技术向

    nextcloud性能

    默认的nextcloud是Apache web, 我们将其换为nginx,通过搭配nextcloud-fpm和nginx两个docker完成。

    9.6K30发布于 2019-11-20
  • 来自专栏Super 前端

    Tomcat性能

    (Connector)进行性能控制的的参数是创建的处理请求的线程数。 8G-2G-128M)/1M = ~6000 threads【64为系统线程最大内存无限制,但与机器上其他服务有关】   线程栈的大小是个双刃剑,如果设置过小,可能会出现栈溢出,特别是在该线程内有递归、的循环时出现溢出的可能性更大 注意事项: 设置NewSize、MaxNewSize相等,"new"的大小最好不要大于"old" 的一半,原因是old区如果不够大会频繁的触发主GC,大大降低了性能。 线程栈的大小是个双刃剑,如果设置过小,可能会出现栈溢出,特别是在该线程内有递归、的循环时出现溢出的可能性更大,如果该值设置过大,就有影响到创建栈的数量,如果是多线程的应用,就会出现内存溢出的错误。 因为对于操作系统,请求内存的系统调用会占用大量的cpu时间,所以频繁的请求、释放内存将会导致性能的严重下降。

    4.8K21发布于 2019-08-15
  • 来自专栏电光石火

    SQL 性能

    我们要做到不但会写SQL,还要做到写出性能优良的SQL,以下为笔者学习、摘录、并汇总部分资料与大家分享! (译者按: TRUNCATE只在删除全表适用,TRUNCATE是DDL不是DML) (10)尽量多使用COMMIT 只要有可能,在程序中尽量多使用COMMIT, 这样程序的性能得到提高,需求也会因为 性能上的差异,关键看你的from和where子句。比如说如果你的where条件中可以通过索引,那显然 select 1 from ... 的性能比 select * from ... 好。 也就是说如果某列存在空值,即使对该列建索引也不会提高性能。 任何在where子句中使用is null或is not null的语句优化器是不允许使用索引的。 仔细检查order by语句以找出非索引项或者表达式,它们会降低性能

    3.7K60发布于 2018-01-18
  • 来自专栏大数据-BigData

    Alluxio性能

    本文档介绍了各种 Alluxio 性能的技巧和配置。 常见性能问题 以下是在调整性能时用于解决常见问题的清单: 所有节点都在工作吗? 检查 Alluxio 集群是否健康。 Master Journal性能 Property Default Description alluxio.master.journal.flush.batch.time 5ms Time to worker 块读取线程池大小 alluxio.worker.network.block.reader.threads.max 属性配置用于处理块读取请求的最大线程数。 客户端 被动缓存 被动缓存会导致 Alluxio worker 缓存另一个已缓存在单独 worker 上的数据副本。 慢查询/整体性能 观察到异常的 Cluster.BytesReadUfs 指标。 当 Alluxio 将数据转到 UFS 时,它会牺牲性能并产生额外的成本。 这通常是最大的危险信号。

    2.3K40编辑于 2023-04-03
  • 来自专栏全栈开发日记

    MySQL性能

    后端程序员在面试中,经常会被问到SQL的操作,于是我也是去补习了一下这方面的知识,感谢各方大佬提供的点子,这里总结如下。 3- 通常来说,把可以为NULL的列改为NOT NULL不会对性能提升有多少帮助,只是如果计划在列上创建索引,就应该将该列设置为NOT NULL。 因此,在创建表的时候,为了获得更好的性能,我们可以将表中字段的宽度设得尽可能小。当然这对于INT这类型字段属性来讲就画蛇添足了。 一个常见的问题是当偏移量非常的时候,比如:LIMIT 10000,20这样的查询,MySQL需要查询10020条记录然后只返回20条记录,前面的10000条都将被抛弃,这样的代价非常高。 对于偏移量很大时,这样做的效率会提升非常。考虑下面的查询: SELECT a,b FROM film ORDER BY title LIMIT 50,5;

    1.1K10编辑于 2022-05-12
  • 来自专栏闵开慧

    hadoop性能

    尽量使key的WritableComparable性能最佳, 尽量使value的Writable性能最佳. 比如使用掩码操作. 十七. 尽早丢弃无关对象.

    1K90发布于 2018-03-30
  • 来自专栏Java学习123

    tomcat 性能

    acceptCount="700"//指定当所有可以使用的处理请求的线程数都被使用时,可以放到处理队列中的请求数,超过这个数的请求将不予处理       maxthread太多,导致切换过多,性能下降严重

    1.2K90发布于 2018-05-16
  • 来自专栏Linyb极客之路

    性能思路

    步骤:衡量系统现状、设定调目标、寻找性能瓶颈、性能、衡量是否到达目标(如果未到达目标,需重新寻找性能瓶颈)、性能结束。 方案:增加Thread.sleep,以释放CPU 的执行权,降低CPU 的消耗。以损失单次执行性能为代价的,但由于其降低了CPU 的消耗,对于多线程的应用而言,反而提高了总体的平均性能方案:将线程数降低 这种过后有可能会造成CPU us过高,所以合理设置线程数非常关键。 总结 好的策略是收益比(后提升的效果/改动所需付出的代价)最高的,通常来说简单的系统比较好做,因此尽量保持单机上应用的纯粹性, 这是大型系统的基本架构原则。 的三有效原则:充分而不过分使用硬件资源、合理调整JVM、合理使用JDK包。 作者:架构师社区 来源:http://1t.click/9h4

    1.2K60发布于 2019-08-19
  • 来自专栏猿人谷

    Java性能

    A:因为年轻代的内存无法被回收,越来越多地被Copy到年老代 三、性能  除了上述内存泄漏外,我们还发现CPU长期不足3%,系统吞吐量不够,针对8core×16G、64bit的Linux服务器来说 在CPU负载不足的同时,偶尔会有用户反映请求的时间过长,我们意识到必须对程序及JVM进行。 3.JVM参数     在JVM启动参数中,可以设置跟内存、垃圾回收相关的一些参数设置,默认情况不做任何设置JVM会工作的很好,但对一些配置很好的Server和具体的应用必须仔细才能获得最佳性能。 这个我问题毫无疑问是没有答案的,否则也就不会有。 4.程序算法:本次不作为重点 参考资料

    1.6K110发布于 2018-01-17
领券