搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Hadoop数据仓库
Pentaho Work with Big Data（八）—— kettle集群
cd /home/grid/data-integration/ . cd /home/grid/data-integration/ . cd /home/grid/data-integration/ . cd /home/grid/data-integration/ . cd /home/grid/data-integration/ .
91320编辑于 2022-05-07
来自专栏卯金刀GG
kettle使用命令行来运行ktr和kjb
打开cmd命令行窗口，转到Pan.bat所在的目录，如d:\data-integration,然后执行文件的命令为：pan /file D:\03works\ZYWSPT\kettle\test.ktr 打开cmd命令行窗口，转到Pan.bat所在的目录，如d:\data-integration,然后执行文件的命令为：kitchen /file D:\03works\ZYWSPT\kettle\.kjb 如： @echo off set panpath=C:\pdi-ce-5.4.0.1-130\data-integration set kpath=D:\03works\ZYWSPT\kettle :\ 下面是windows系统下一个完整的执行kettle程序的 bat 批处理文件的内容 ====================================== e: cd E:\Tools\data-integration kettlelog.log 失败：我一直想在param里传一个参数之就是当前日期的前一天，一直没有成功：如下代码： @echo off set panpath=C:\pdi-ce-5.4.0.1-130\data-integration
5.3K20发布于 2019-07-26
来自专栏Hadoop数据仓库
Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群
192.168.56.104安装Pentaho的PDI，安装目录为/root/data-integration。在192.168.56.101上执行以下命令 scp /home/grid/hadoop/etc/hadoop/hdfs-site.xml root@192.168.56.104:/root/data-integration hadoop-configurations/cdh54/ scp /home/grid/hadoop/etc/hadoop/core-site.xml root@192.168.56.104:/root/data-integration 修改PDI安装目录的属主为grid mv /root/data-integration /home/grid/ chown -R grid:root /home/grid/data-integration 编辑相关配置文件 cd /home/grid/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54
1.2K10编辑于 2022-05-07
来自专栏Hadoop数据仓库
Pentaho Work with Big Data（二）—— Kettle提交Spark作业
192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。 master和kettle为各自主机的hostname （2）编辑spark-env.sh文件，写如下两行，如图1所示 export HADOOP_CONF_DIR=/home/grid/data-integration grid/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin export HADOOP_CONF_DIR=/home/grid/data-integration 修改PDI的Spark例子 cp /home/grid/data-integration/samples/jobs/Spark\ Submit/Spark\ submit.kjb /home/grid /data-integration/test/Spark\ Submit\ Sample.kjb 在Kettle中打开/home/grid/data-integration/test/Spark\
78330编辑于 2022-05-07
来自专栏大数据成长之路
一招教你用Kettle整合大数据和Hive,HBase的环境!
修改配置文件我们打开Kettle安装目录下的pentaho-big-data-plugin文件夹 data-integration\plugins\pentaho-big-data-plugin 移动jar包路径我们进入到cdh15文件夹的lib目下 data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\ 操作路径为： data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514 本步骤中，我们需要替换的配置文件有为了后续也能正常使用hbase，这里的操作也与上面一致 cd /export/servers/hbase-1.2.0-cdh5.14.0/conf sz hbase-site.xml 然后将文件全部复制到data-integration
2.2K40发布于 2021-01-27
【YashanDB 知识库】kettle 同步大表提示 java 内存溢出
③通过 PARALLELISM 参数的值合理设置并行线程数，如：time PENTAHO_DI_JAVA_OPTIONS=-DPARALLELISM=4 sh /home/kettle/data-integration /pan.sh -file=/home/kettle/data-integration/test/dir_ktr1/public.T1.ktr > /home/kettle/data-integration
39210编辑于 2025-02-21
来自专栏全栈程序员必看
kettle在linux定时任务_CentOS（Linux）安装KETTLE教程并配置执行定时任务[通俗易懂]
3，使用unzip命令对这个压缩包进行解压 unzip pdi-ce-7.0.0.0-25.zip -d “/opt/kettle” 4，解压后给予相应文件可执行权限进入到/opt/kettle/data-integration 授予 *.sh +x权限即可执行权限 5，执行转换编写测试转换，执行如下命令即可 /opt/kettle-spoon/data-integration/pan.sh -file=/opt/kettle-spoon /ktr/test/test1.ktr log=test1.log 6，执行job sudo /opt/kettle-spoon/data-integration/kitchen.sh -file=/opt :JAVA_HOME/lib:CLASSPATH export PATH=JAVA_HOME/bin:PATH/opt/kettle-spoon/data-integration/pan.sh -file
8.6K20编辑于 2022-08-31
来自专栏Hadoop数据仓库
Kettle与Hadoop（九）提交Spark作业
/usr/bin/env bash HADOOP_CONF_DIR=/root/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations /cdh61 SPARK_HOME=/root/spark （4）编辑core-site.xml文件 vim /root/data-integration/plugins/pentaho-big-data-plugin 修改PDI自带的Spark例子 cp /root/data-integration/samples/jobs/Spark\ Submit/Spark\ submit.kjb /root/big_data /10 10:12:22 - Spark PI - 20/06/10 10:12:22 INFO conf.HiveConf: Found configuration file file:/root/data-integration
2K30发布于 2020-06-11
来自专栏Hadoop数据仓库
Spark on YARN 部署实验
192.168.56.104安装Pentaho的PDI，安装目录为/home/grid/data-integration。将yarn和spark配置文件拷贝到客户端机器 scp /home/grid/hadoop/etc/hadoop/yarn-site.xml 192.168.56.104:/home/grid/data-integration spark/conf/spark-defaults.conf 192.168.56.104:/home/grid/spark/conf/ 修改PDI的Spark例子 cp /home/grid/data-integration /samples/jobs/Spark\ Submit/Spark\ submit.kjb /home/grid/data-integration/test/Spark\ Submit\ Sample.kjb 在Kettle中打开/home/grid/data-integration/test/Spark\ Submit\ Sample.kjb文件，编辑Spark Submit Sample作业项，填写如图
71040编辑于 2022-05-07
YashanDB|Kettle 同步大表报错 “无法创建 Java 虚拟机”?别忘了调整内存
PARALLELISM 参数控制并发线程数量，避免因线程数过多造成资源抢占：time PENTAHO_DI_JAVA_OPTIONS=-DPARALLELISM=4 sh /home/kettle/data-integration /pan.sh \-file=/home/kettle/data-integration/test/dir_ktr1/public.T1.ktr \> /home/kettle/data-integration
75000编辑于 2025-05-08
来自专栏IT从业者张某某
05-PDI(Kettle)脚本执行
切换到pdi的安装目录： C:\WINDOWS\system32>cd /d E:\pdi-ce-8.2.0.0-342\data-integration 执行Pan.bat命令，会提示支持的相关参数： E:\pdi-ce-8.2.0.0-342\data-integration>Pan.bat 返回参数如下。 logging filename 设置日志文件 -level=logging level 设置日志级别创建脚本文件：transschdule.bat cd /d E:\pdi-ce-8.2.0.0-342\data-integration Kettle的版本号、build日期实验步骤 1、切换到kettle文件所在目录右键点击桌面的spoon图标，打开PDI的安装位置，打开安装目录 E:\pdi-ce-8.2.0.0-342\data-integration
1.6K30编辑于 2022-11-12
来自专栏全栈程序员必看
kettle调度监控平台（kettle-scheduler）开源[通俗易懂]
kettle.properties # Kettle Properties #绝对路径，用于初始化kettle环境变量（.kettle/kettle.properties所在路径）,指向kettle根目录（例如 D:\data-integration ） kettle.home=D:\\data-integration #绝对路径kettle下plugins文件 kettle.plugin=E:\\zhaxiaodong\\apache-tomcat kettle.script=Html\\js\\libs\\url #日志级别 kettle.loglevel=detail #kettle日志存放路径 kettle.log.file.path=D:\\data-integration \\logs #保存上传文件转换(.ktr)或作业(.kjb)的路径,此功能未调试,暂时停用,待开发 kettle.file.repository=D:\\data-integration\\test 6.需要用到大数据组件的：将data-integration目录下的simple-jndi、system和plugins文件夹拷贝到apache-tomcat-9.0.12\bin目录下不需要用到大数据组件的
12.8K150编辑于 2022-11-02
来自专栏杨飞@益术
Kettle使用小结
启动方式：解压到本地，mac启动方式 /路径/pdi-ce-9.1.0.0-324/data-integration/spoon.sh ⚠️MySql数据抽取：如果使用MySql数据库下载jar https ://download.csdn.net/download/yangfeixien/13755948 放到 /路径/pdi-ce-9.1.0.0-324/data-integration/lib/ ?
1.8K40发布于 2020-12-23
来自专栏Hadoop数据仓库
Kettle与Hadoop（三）连接Hadoop
Kettle 已经在172.16.1.105安装好PDI 8.3，安装目录为/root/data-integration。图2 （2）将上一步得到的Hadoop客户端配置文件复制到Kettle的~/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 启动spoon /root/data-integration/spoon.sh 3. cp mysql-connector-java-5.1.38-bin.jar /root/data-integration/lib 之后重启Spoon加载新增的驱动程序。 2.
4.6K21发布于 2020-05-29
来自专栏成长道路
kettle环境搭建
在data-integration\system\karaf\system\org\pentaho\pentaho-requirejs-osgi-manager\9.0.0.0-SNAPSHOT目录下将这段拷贝下来在data-integration\system\karaf\system\pentaho\pentaho-karaf-features\9.0.0.0-SNAPSHOT目录下的文件中进行粘贴 ?
2.3K61发布于 2019-07-02
来自专栏Java架构师必看
kettle连接cdh——读取hdfs中的数据
/pentaho/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations 3、修改kettle连接的cdh版本 /pentaho /data-integration/plugins/pentaho-big-data-plugin active.hadoop.configuration=cdh510 4、从hadoop集群中复制文件到 5、然后我们还需要修改一下对应的权限问题：目录是在cdh10的shims中 /pentaho/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations
2.2K20发布于 2021-05-14
来自专栏Hadoop数据仓库
解决MongoDB空间释放问题
/bin/bash source ~/.bashrc /home/mysql/data-integration/pan.sh -file:/home/mysql/MongoDB_to_MySQL.ktr
83010编辑于 2021-12-07
来自专栏卯金刀GG
Win下执行kettle的trans和job的批处理示例
第二步：做成bat批处理文件，如下： set panpath=C:\pdi-ce-5.4.0.1-130\data-integration set kpath=D:\03works\ZYWSPT\kettle
1.4K20发布于 2019-07-26
来自专栏Hadoop数据仓库
维度模型数据仓库（十二） —— 多路径和参差不齐的层次
2014年推广期的数据如下，并保存在/root/data-integration/campaign_session.csv文件中。 USE dw; TRUNCATE TABLE campaign_session_stg; LOAD DATA INFILE '/root/data-integration/campaign_session.csv 下面是一个不完全推广期（在/root/data-integration/ragged_campaign.csv文件里）的例子，2014年1月、4月、9月、10月、11月和12月没有推广期。 campaign_session = NULL ; COMMIT ; USE dw; TRUNCATE TABLE campaign_session_stg; LOAD DATA INFILE '/root/data-integration
62920编辑于 2022-12-02
来自专栏Hadoop数据仓库
维度模型数据仓库（五） —— 定期装载
假定/root/data-integration为SQL和Kettle的运行目录。 1. 创建定期装载SQL脚本文件，将清单（四）- 2里的SQL脚本保存为文件 /root/data-integration/dw_regular.sql 2. /bin/bash cd /root/data-integration mysql -uroot -p123456 < dw_regular.sql 清单（四）- 4 使用Kettle方式，创建执行Kettle JOB的shell文件 /root/data-integration/dw_regular_load_kettle.sh，内容如清单（四 /bin/bash cd /root/data-integration .
59030编辑于 2022-12-02

第 2 页第 3 页第 4 页

点击加载更多

Pentaho Work with Big Data（八）—— kettle集群

kettle使用命令行来运行ktr和kjb

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

一招教你用Kettle整合大数据和Hive,HBase的环境!

【YashanDB 知识库】kettle 同步大表提示 java 内存溢出

kettle在linux定时任务_CentOS（Linux）安装KETTLE教程并配置执行定时任务[通俗易懂]

Kettle与Hadoop（九）提交Spark作业

Spark on YARN 部署实验

YashanDB|Kettle 同步大表报错 “无法创建 Java 虚拟机”?别忘了调整内存

05-PDI(Kettle)脚本执行

kettle调度监控平台（kettle-scheduler）开源[通俗易懂]

Kettle使用小结

Kettle与Hadoop（三）连接Hadoop

kettle环境搭建

kettle连接cdh——读取hdfs中的数据

解决MongoDB空间释放问题

Win下执行kettle的trans和job的批处理示例

维度模型数据仓库（十二） —— 多路径和参差不齐的层次

维度模型数据仓库（五） —— 定期装载

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Pentaho Work with Big Data（八）—— kettle集群

kettle使用命令行来运行ktr和kjb

Pentaho Work with Big Data（一）—— Kettle连接Hadoop集群

Pentaho Work with Big Data（二）—— Kettle提交Spark作业

一招教你用Kettle整合大数据和Hive,HBase的环境!

【YashanDB 知识库】kettle 同步大表提示 java 内存溢出

kettle在linux定时任务_CentOS（Linux）安装KETTLE教程 并配置执行定时任务[通俗易懂]

Kettle与Hadoop（九）提交Spark作业

Spark on YARN 部署实验

YashanDB|Kettle 同步大表报错 “无法创建 Java 虚拟机”?别忘了调整内存

05-PDI(Kettle)脚本执行

kettle调度监控平台（kettle-scheduler）开源[通俗易懂]

Kettle使用小结

Kettle与Hadoop（三）连接Hadoop

kettle环境搭建

kettle连接cdh——读取hdfs中的数据

解决MongoDB空间释放问题

Win下执行kettle的trans和job的批处理示例

维度模型数据仓库（十二） —— 多路径和参差不齐的层次

维度模型数据仓库（五） —— 定期装载

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

kettle在linux定时任务_CentOS（Linux）安装KETTLE教程并配置执行定时任务[通俗易懂]