首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据成神之路

    Spark | Spark SQL参数

    版本支持的参数。 本文讲解最近关于在参与hive往spark迁移过程中遇到的一些参数相关问题的。 内容分为两部分,第一部分讲遇到异常,从而需要通过设置参数来解决的;第二部分讲用于提升性能而进行的。 异常 spark.sql.hive.convertMetastoreParquet parquet是一种列式存储格式,可以用于spark-sql 和hive 的存储格式。 性能 除了遇到异常需要被动调整参数之外,我们还可以主动调整参数从而对性能进行。 “maven” Use Hive jars of specified version downloaded from Maven repositories. 3.

    8.3K63发布于 2019-08-16
  • 来自专栏涓流

    jvm参数

    用于实时查看和调整 JVM 进程参数。 jcmd JVM 命令行调试 工具。 (3)还有一种常见的情况是该线程在 sleep,等待 sleep 的时间到了,将被唤醒。 如果线程数较多,函数的递归较少,线程栈内存可以小节约内存,默认1M MetaSpace/PermGen jdk1.8以下设置永久代大小: -XX:PermSize: 永久代初始大小 -XX:MaxPermSize +ParallelRefProcEnabled -XX:+CMSParallelInitialMarkEnabled: CMS 中这两个阶段并发执行 -XX:MaxTenuringThreshold=3: (离线环境压测可以打开这两个参数) 参考资料 JVM对外内存完全解读

    81920编辑于 2023-03-03
  • 来自专栏小道

    Hive参数

    local mr的最大输入数据量,当输入数据量小于这个值的时候会采用local mr的方式 set hive.exec.mode.local.auto.inputbytes.max=50000000; (3) hive.exec.dynamic.partition.mode=nonstrict   (3)在所有执行MR的节点上,最大一共可以创建多少个动态分区。 该参数需要根据实际的数据来设定。比如:源数据中包含了一年的数据,即day字段有365个值,那么该参数就需要设置成大于365,如果使用默认值100,则会报错。 local inpath '/opt/module/datas/ds2' into table ori_partitioned partition(p_time='20111230000011') ; (3) mapred.map.tasks.speculative.execution=false;   SET mapred.reduce.tasks.speculative.execution=false; 九、Hive配置项合集

    2.1K30发布于 2021-04-13
  • 来自专栏公有云大数据平台弹性 MapReduce

    Hbase参数

    3. 实现DDL 操作(Data Definition Language,namespace 和table 的增删改,column familiy 的增删改等)。 4. 3. 本教程以hadoop 为例,根据自己的实际情况调整ulimit 限制 liunx 内核网络参数调整 在linux 中所有的TCP/IP 参数都位于/proc/sys/net 目录下(请注意,对/proc net.ipv4.tcp_keepalive_time = 1800 net.ipv4.tcp_keepalive_intvl = 30 net.ipv4.tcp_keepalive_probes = 3 image.png Hbase 参数优化 RPC 参数优化 hbase.regionserver.handler.count RPC 处理线程数 默认值为30 Memstore 参数优化 image.png

    2.4K101发布于 2018-05-08
  • 来自专栏陈猿解码

    RabbitMQ——参数

    msg_store_io_batch_size 对于非lazy队列,触发paging时,内部Q1,Q2,delta,Q3,Q4之间每次消息挪动的最大值。 默认值为4096,即Q1->Q2每次最多移动4096*2=8192条消息,同样Q2->delta、Q4->Q3、Q3->delta每次最多移动8192条消息。 【参数】 queue_index_max_journal_entries 先来看一组测试数据 测试场景是这样的: 16个生产者分别向64个持久化队列不间断发送消息,队列设置为lazy模式;每条消息大小为 【总结】 本文总结了几个相关的参数,也在特定场景下对其进行了测试说明。 此外,erlang层面还会有一些参数可以微调,因此不同场景下还需要结合实际需要进行参数

    2.3K30编辑于 2023-02-28
  • 来自专栏涓流

    jvm参数

    用于实时查看和调整 JVM 进程参数。 jcmd JVM 命令行调试 工具。 (3)还有一种常见的情况是该线程在 sleep,等待 sleep 的时间到了,将被唤醒。 如果线程数较多,函数的递归较少,线程栈内存可以小节约内存,默认1M MetaSpace/PermGen jdk1.8以下设置永久代大小: -XX:PermSize: 永久代初始大小 -XX:MaxPermSize +ParallelRefProcEnabled -XX:+CMSParallelInitialMarkEnabled: CMS 中这两个阶段并发执行 -XX:MaxTenuringThreshold=3: (离线环境压测可以打开这两个参数) 参考资料 JVM对外内存完全解读

    1.3K30编辑于 2022-06-28
  • 来自专栏全栈程序员必看

    tomcat性能(tomcat参数有哪些)

    文章目录 总体架构 主要的组件 执行过程 tomcat 内存优化 并发优化 缓存优化 IO优化 开启线程池 添加Listener 组件优化 APR Tomcat Native 配置 性能测试(工具 article/details/79134451](https://blog.csdn.net/cc_xp/article/details/79134451) 总体架构 主要的组件 执行过程 tomcat 后的配置 参数说明 maxThreads 客户请求最大线程数 minSpareThreads Tomcat初始化时创建的 socket 线程数 maxSpareThreads Tomcat 当然可以通过线程池机制改善. 2:JAVA NIO:又分为同步非阻塞IO,异步阻塞IO 与BIO最大的区别one request one thread.可以复用同一个线程处理多个connection(多路复用). 3: 开启线程池 配置 参数说明 name:线程池名称,用于 Connector中指定。

    1.2K20编辑于 2022-08-02
  • 来自专栏希里安

    Linux内核参数

    这里附上一个的脚本,我来简单翻译一下: 地址: https://github.com/nyist-mirror/kernel_tuning # ! "16777216" > /proc/sys/net/core/wmem_max Echo "16777216" > /proc/sys/net/core/wmem_default 设置Linux自动 Echo "30" > /proc/sys/net/ipv4/tcp_keepalive_intvl 确定超时前的探测数 Echo "3" > /proc/sys/net/ipv4/tcp_keepalive_probes (默认值为“3″”) Echo "15" > /proc/sys/net/ipv4/tcp_reordering # Echo "cubic" > /proc/sys/net/ipv4/ tcp_conestion_control sys/net/ipv6/conf/all/disable_ipv6 Echo "1" > /proc/sys/net/ipv6/conf/default/disable_ipv6 # ####文件系统

    1.3K21编辑于 2023-10-30
  • 来自专栏Coding Diary

    JVM参数

    基本概念 在调整JVM性能时,通常有三个组件需要考虑: 堆大小调整 垃圾收集器调整 JIT编译器 大多数优选项都与调整堆大小和选择合适的垃圾收集器有关,JIT编译器对性能也有很大影响,但很少需要对其进行 垃圾收集器Parallel参数 Parallel垃圾收集器在JDK8中是JVM默认的垃圾收集器,它是以吞吐量优先的垃圾收集器。其可调节的参数如下: ? 垃圾收集器CMS参数 CMS垃圾收集器是一个响应时间优先的垃圾收集器,Parallel收集器无法满足应用程序延迟要求时再考虑使用CMS垃圾收集器,从JDK9开始CMS收集器已不建议使用,默认用的是G1 垃圾收集器G1参数 G1收集器是一个兼顾吞吐量和响应时间的收集器,如果是大堆(如堆的大小超过6GB),堆的使用率超过50%,GC延迟要求稳定且可预测的低于0.5秒,建议使用G1收集器。 ? GC之前,我们需要了解当前JVM参数的信息。

    1.5K10发布于 2019-10-28
  • 来自专栏互联网-小阿宇

    TomcatJVM参数

    有两台服务器实现负载均衡都是运行内存比较低 先操作个命令,清除一个运行内存 echo 3 > /proc/sys/vm/drop_caches 确实有点效果但不治根 查看一下tomcat占用资源情况 (mem空间占用了87.9%) 需要对tomcat的JVM参数进行优化一下 LINUX中tomcat-----路径:安装路径下/bin/catalina.sh vim catalina.sh

    74810编辑于 2022-11-21
  • 来自专栏全栈程序员必看

    TomcatJVM参数

    有两台服务器实现负载均衡都是运行内存比较低 先操作个命令,清除一个运行内存 echo 3 > /proc/sys/vm/drop_caches ? 需要对tomcat的JVM参数进行优化一下 LINUX中tomcat—–路径:安装路径下/bin/catalina.sh vim catalina.sh 在 cygwin=false 之上添加所需要配置的内存大小

    78710发布于 2021-06-08
  • 来自专栏CSDN搜“看,未来”

    内核 TCP 参数

    这时,有必要调整下Linux的TCP内核参数,让系统更快的释放TIME_WAIT连接。 输入下面的命令,让内核参数生效: sysctl -p 经过这样调整后,除进一步提升服务器的负载能力外,还能防御小流量程度的DoS、CC和SYN攻击。 此项参数可控制TIME_WAIT 最大数量。 这几个参数,建议在流量非常大的服务器上开启,会有显著效果。一般的流量小的服务器上,没必要去设这几个参数。 内核其他TCP参数说明: net.ipv4.tcp_max_syn_backlog= 65536 #记录尚未收到客户端确认信息的连接请求的最大值。 436600 873200 #TCP读buffer,可参考优化值:32768 436600 873200 net.ipv4.tcp_mem= 94500000 91500000 92700000 #同样有3个值

    2.1K10编辑于 2022-05-06
  • 来自专栏全栈程序员必看

    JVM常用参数

    内存 设置heap大小 这个非常重要,通常只要这里设置够了,就不会出现溢出。 如果物理内存为32G(一般为物理内存的90%,也就是27~28G) 新生代和老年代的大小 这个参数相当于设置等值的最小、最大新生代,NewRatio这个设置新、老代比例,NewRatio=1代表,两个相等大小 Xmn1g 这个值如果不设的话,默认只有6M 设置持久代大小 同理,这两个值应该是一样的(jdk7) -XX:PermSize=512m -XX:MaxPermSize=512m JDK8起用这两个参数 设置code cache -XX:ReservedCodeCacheSize=1024m -XX:+UseCompressedOops 设置字符串压缩 -XX:-CompactStrings GC 比如2颗6核超线程(超线程后1个核相当于2个线程)就是24/4=6,置ParallelGCThreads时最大不要超过6就行了。

    1.6K21发布于 2021-05-19
  • 来自专栏不想当开发的产品不是好测试

    linux系统参数

    执行 ulimit -a 查看系统配置 需要修改max user processes 和 open files 这两个值 vim /etc/security/limits.conf #新增下面几行 * soft nofile 65535 * hard nofile 65535 * soft nproc  10000 * hard nproc  10000 #重新打开session就可以生效 修改sysctl.conf文件 vim /e

    2.5K80发布于 2018-01-24
  • 来自专栏Kubernetes 与 Devops 干货分享

    JVM参数解析

    JVM参数说明 Xms 是指设定程序启动时占用内存大小。一般来讲,大点,程序会启动的快一点,但是也可能会导致机器暂时间变慢 Xmx 是指设定程序运行期间最大可占用的内存大小。 默认情况下,JDK5.0以前都是使用串行收集器,如果想使用其他收集器需要在启动时加入相应参数。 可能会影响性能,但是可以消除碎片 3、辅助信息 JVM提供了大量命令行参数,打印信息,供调试使用。 总结 年轻代大小的选择 1、响应时间优先的应用 :尽可能设大,直到接近系统的最低响应时间限制 (根据实际情况选择)。在此种情况下,年轻代收集发生的频率也是最小的。同时,减少到达年老代的对象。 因为对响应时间没有要求,垃圾收集可以并行进行,一般适合8CPU以上的应用 年老代大小的选择 1、响应时间优先的应用 :年老代使用并发收集器,所以其大小需要小心设置,一般要考虑并发会话率 和会话持续时间 等一些参数

    1.2K30编辑于 2022-10-31
  • 来自专栏个人分享

    Spark配置参数

    3.优化缓存大小     Spark默认用于缓存RDD的空间为一个executor的60%,项目中由于考虑到标签数量为成百个,使用同样规则与数量的标签进行客户群探索及客户群生成的概率很小。 Spark官网推荐为每个cpu Core分配2到3个任务,所以在32个core的服务器上,我们通过配置spark.default.parallelise=64,设置cpu的并行数量,从而防止并行度太高导致的任务启动与切换的开销 参数spark.shuffle.memoryFraction spark应用程序在所申请的内存资源中可用于shuffle的比例 SQL级别的优化: 1.优化sql结构        传统的行式存储数据库在经过 图5-12 SQL解析过程图 3.修改表数据类型 后台通过spark-shell执行编写好的scala代码的jar包,由于现有版本的spark的parquet存储格式无法更好的支持decimal数据类型 至此,将从数据仓库中挖掘出的数据源表中的浮点型数据类型统一改为double数据类型,最终生成的parquet格式的宽表在hdfs上节省的空间为json格式的3倍,前台对标签宽表的关联查询也提高了4倍。

    1.5K20发布于 2018-09-06
  • 来自专栏大数据分享

    (四)Hadoop参数

    HDFS参数hdfs-site.xml dfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,即20*8的对数,此参数设置为60 对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10。 YARN参数yarn-site.xml (1)情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive 面临问题:数据统计主要用HiveSQL,没有数据倾斜 调节这两个参数能提高系统内存的利用率。 [HDFS配置文件参数设置的优先级] hdfs-site.xml是HDFS的配置文件,其中包含了各种对HDFS集群的设置参数,比如集群中存储文件副本的数量,namenode辅助节点的地址等。

    1.5K40发布于 2020-09-23
  • 来自专栏sunsky

    Linux内核参数

    用法: vim /etc/sysctl.conf #修改内容 sysctl -p #生效 相关参数仅供参考,具体数值还需要根据机器性能,应用场景等实际情况来做更细微调整。 net.ipv4.tcp_fin_timeout = 10 #表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间。 net.ipv4.tcp_keepalive_probes = 3 #如果对方不予应答,探测包的发送次数 net.ipv4.tcp_keepalive_intvl = 15 #keepalive探测包的发送间隔 net.ipv4.tcp_rmem #与 tcp_wmem 类似,不过它表示的是为自动所使用的接收缓冲区的值。 net.ipv4.tcp_wmem = 30000000 30000000 30000000 #为自动定义每个 socket 使用的内存。

    4.6K20发布于 2020-08-20
  • 来自专栏数据人生

    Java GC参数

    https://docs.oracle.com/cd/E40972_01/doc.70/e40973/cnf_jvmgc.htm#autoId0

    59710编辑于 2022-09-29
  • 来自专栏文渊之博

    spark shuffle参数

    spark shuffle参数  spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream spark.shuffle.io.maxRetries 默认值:3 参数说明:shuffle read task从shuffle write task所在节点拉取属于自己的数据时,如果因为网络异常导致拉取失败 建议:在资源参数中讲解过这个参数。如果内存充足,而且很少使用持久化操作,建议调高这个比例,给shuffle read的聚合操作更多内存,以避免由于内存不足导致聚合过程中频繁读写磁盘。 ,那么建议参考后面的几个参数,通过bypass机制或优化的HashShuffleManager来避免排序操作,同时提供较好的磁盘读写性能。 建议:当你使用SortShuffleManager时,如果的确不需要排序操作,那么建议将这个参数大一些,大于shuffle read task的数量。

    1.3K20发布于 2020-06-19
领券