搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Hadoop实操
如何在CDH中安装和使用StreamSets
Fayson的github 提示：代码块部分可以左右滑动查看噢 1.关于StreamSets StreamSets由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人他们的第一款产品StreamSets Data Collector（https://streamsets.com/products/sdc）被数百家公司用于构建复杂的任意数据流，其中包括财富500强企业内容概述： StreamSets安装配置 StreamSets基本使用 3.常见问题测试环境： 1.操作系统为：Redhat7.2 2.CM和CDH为：5.13.1 3.安装步骤 3.1.安装前准备 STREAMSETS-3.0.0.0.jar拷贝到/opt/cloudera/csd,并更改权限，然后重启cloudera-scm-server服务 [root@cdh4 ~]# cp STREAMSETS 3.5.添加StreamSets服务完成上述步骤后，在集群 > 添加服务中添加StreamSets 的服务选择StreamSets安装选择一个DataCollector 节点，默认配置，继续等待安装和启动完成
39.5K113发布于 2018-03-30
来自专栏网络收集
通过StreamSets实时更新数据至ElasticSearch
网上许多关于StreamSets增量更新的教程几乎都是单单INSERT操作，这使得目标数据库会出现重复数据，而实际需求上我们往往更多是需要INSERT加UPDATE操作，利用SQL Server的TIMESTAMP
1.6K30编辑于 2022-03-24
来自专栏Hadoop实操
如何使用StreamSets从MySQL增量更新数据到Hive
本篇文章主要介绍如何使用使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。 StreamSets实现的流程如下： ? 内容概述 1.环境准备 2.创建StreamSets的Pipeline流程 3.Pipeline流程测试测试环境 1.StreamSets版本为3.1.2.0 2.CM和CDH版本为5.13.1 3. 3.创建StreamSets的Pipline ---- 1.创建新的管道流 ? 配置错误日志输入路径，这里配置到本地的/tmp/sdctest（需要自己创建）目录下 ? ? STREAMSETS_DATACOLLECTOR-3.0.0.0/sdc-extras （可左右滑动） ? 在CM中配置StreamSets包的路径 export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR
15.7K130发布于 2018-04-18
来自专栏Hadoop实操
如何使用StreamSets实现MySQL中变化数据实时写入HBase
》、《如何使用StreamSets从MySQL增量更新数据到Hive》以及《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》，本篇文章Fayson主要介绍如何使用StreamSets StreamSets实现的流程如下： ? 内容概述 1.环境准备 2.创建StreamSets的Pipeline流程 3.Pipeline流程测试 4.总结测试环境 1.StreamSets版本为3.3.0 2.CM和CDH版本为5.12.1 2.StreamSets安装MySQL驱动将MySQL的JDBC驱动拷贝至 /opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR/streamsets-libs 查看StreamSets的Pipeline实时状态 ?
5.3K40发布于 2018-07-11
来自专栏Hadoop实操
如何使用StreamSets实时采集Kafka并入库Kudu
Fayson的github：https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在前面的文章《如何使用StreamSets 实现MySQL中变化数据实时写入Kudu》，本篇文章主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入Kudu。内容概述 1.测试环境准备 2.准备生产Kafka数据脚本 3.配置StreamSets 4.流程测试及数据验证测试环境 1.RedHat7.4 2.CM和CDH版本为cdh5.13.3 3.kafka3.0.0 4.在StreamSets上创建Pipline ---- 1.登录StreamSets，创建一个kafka2kudu的Pipline ?
3K51发布于 2018-07-12
来自专栏Hadoop实操
如何使用StreamSets实现MySQL中变化数据实时写入Kudu
在《如何使用StreamSets从MySQL增量更新数据到Hive》中，使用受限于表需要主键或者更新字段，我们在本篇文章主要介绍如何将MySQL Binary Log作为StreamSets的源，来实时捕获 StreamSets实现的流程如下： ? 内容概述 1.环境准备 2.创建StreamSets的Pipeline流程 3.Pipeline流程测试 4.总结测试环境 1.StreamSets版本为3.1.2.0 2.CM和CDH版本为5.13.1 安装MySQL驱动将MySQL的JDBC驱动拷贝至 /opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR/streamsets-libs/streamsets-datacollector-mysql-binlog-lib 3.创建StreamSets的Pipline ---- 1.登录StreamSets，创建一个新的Pipline ? 2.选择Origins类别，搜索MySQL Binary Log ?
5.9K110发布于 2018-04-18
来自专栏Hadoop实操
如何使用StreamSets实时采集Kafka数据并写入Hive表
的一些文章《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》和《如何使用StreamSets实时采集Kafka并入库Kudu》，本篇文章Fayson主要介绍如何使用StreamSets实时采集 3.StreamSets配置 ---- 由于Kafka集群启用了Kerberos，所以这里在使用StreamSets消费Kafka数据之前，需要配置StreamSets访问Kafka的Kerberos用户信息 4.创建StreamSets的Pipline ---- 1.登录StreamSets，创建一个kafka2kudu的Pipline ? 注意：这里访问Hive的JDBC连接，需要添加Kerberos信息，由于无法通过StreamSets界面指定我们自定义用户访问Hive，所以这里默认使用的是StreamSets的sdc用户，如果集群启用了
5.8K20发布于 2018-07-12
来自专栏Hadoop实操
如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表
1.文档编写目的 ---- 在前面的文章Fayson介绍了关于StreamSets的一些文章《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive 》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》、《如何使用StreamSets实时采集Kafka 并入库Kudu》和《如何使用StreamSets实时采集Kafka数据并写入Hive表》，本篇文章Fayson主要介绍如何使用StreamSets实时采集Kafka中嵌套的JSON数据并将采集的数据写入 Hive，StreamSets的流程处理如下： ? 3.创建StreamSets的Pipline ---- 1.登录StreamSets，创建一个kafka2hive_json的Pipline ?
6.2K51发布于 2018-07-12
来自专栏Hadoop实操
史上最全-mysql迁移到clickhouse的5种办法
下面介绍两种离线方式(streamsets支持实时，也支持离线) csv ## 忽略建表 clickhouse-client \ -h host \ --query="INSERT INTO [ streamsets支持从mysql或者读csv全量导入，也支持订阅binlog增量插入，参考我另外一篇《025-大数据ETL工具之StreamSets安装及订阅mysql binlog》。 https://anjia0532.github.io/2019/06/10/cdh-streamsets/ 本文只展示从mysql全量导入clickhouse 本文假设你已经搭建起streamsets 然后拷贝到 streamsets /opt/streamsets-datacollector-3.9.1/streamsets-libs-extras/streamsets-datacollector-jdbc-lib 重启streamsets服务 ? ? ? ? ? ? ?
13.8K33发布于 2019-07-22
来自专栏Hadoop实操
如何使用StreamSets实现Oracle中变化数据实时写入Kudu
的一些文章，参考《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu 》、《如何使用StreamSets实时采集Kafka并入库Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》、《如何使用StreamSets实时采集Kafka数据并写入 Hive表》和《如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表》，本篇文章Fayson主要介绍如何使用StreamSets实时采集Oracle中的变化数据实时写入Kudu ，StreamSets的流程处理如下： ? 4.StreamSets3.2.0 前置条件 1.集群已经安装StreamSets并运行正常 2.Oracle及Oracle LogMiner运行正常 2.配置StreamSets创建Pipeline及测试
5.5K60发布于 2018-07-12
来自专栏Hadoop实操
0604-6.1.0-如何使用StreamSets实时采集指定数据目录文件并写入库Kudu
Fayson的github： https://github.com/fayson/cdhproject 提示：代码块部分可以左右滑动查看噢 1 文档编写目的 Fayson在前面写过多篇StreamSets 的文章，本篇文章主要介绍通过StreamSets实时的方式读取本地的数据文件，通过解析处理将文件中的内容写入到Kudu中。在进行本篇文章学习前你还需要了解：《如何在CDH中安装和使用StreamSets》内容概述 1.测试环境准备 2.准备测试数据 3.配置StreamSets 4.流程测试及数据验证测试环境 1.RedHat7.4 3.在StreamSets服务所在节点上创建一个/data1/tmp的数据目录，用于配置StreamSets的采集目录 ? 5 总结 1.通过StreamSets可以方便的监听指定的数据目录进行数据采集，可以在Directory模块上配置文件的过滤规则、采集频率以及数据的格式化方式。
1.9K20发布于 2019-04-29
来自专栏区块链入门
【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼
2.4.3 Github github地址：https://github.com/alibaba/canal 2.5 StreamSets 2.5.1 介绍 Streamsets是一个大数据实时采集ETL Origins and Destinations，支持100+数据源和目标源可视化内置调度监控，实时观测数据流和数据质量 2.5.3 Github 地址：https://github.com/streamsets 参考（4）数据同步之道（Sqoop、dataX、Kettle、Canal、StreamSets） https://www.modb.pro/db/86290 （1）数据抽取工具比对：Kettle、Datax 、Sqoop、StreamSets https://blog.csdn.net/xiaozm1223/article/details/89670460 （2）ETL学习总结（2）——ETL数据集成工具之 kettle、sqoop、datax、streamSets 比较 https://zhanghaiyang.blog.csdn.net/article/details/104446610 （3）数据集成工具
17.5K22编辑于 2022-05-13
来自专栏大数据和云计算技术
大数据和云计算技术周报（第40期）:NoSQL特辑
新数仓系列：Hbase周边生态梳理（1）新数仓系列：Hbase国内开发者生存现状（2）新数仓系列：开源组件运营（3） HBase 和 Cassandra的浅谈本期有 HBase、HBase+ES、StreamSets http://mp.weixin.qq.com/s/TVH7WacivwzktWwI4ZMI7g 3 StreamSets StreamSets是一个大数据采集工具，数据源支持包括结构化和半/非结构化
51120发布于 2018-07-26
来自专栏「3306 Pai」社区
玩转开源MySQL数据传输中间件DTLE
同类对比我们选取了其他同类的开源软件debezium、streamsets、otter、DTLE，一起横向对比了相关特性。 ? 数据过滤在数据过滤方面，debezium支持库级， streamsets支持行级，otter可以自定义，DTLE是库、表、行三个等级都支持。同样streamsets也是，otter也可以灵活自定义。DTLE当前不支持数据映射，还在Roadmap中。 streamsets支持很多的目标端，不再详细展开。otter支持 MySQL和Oracle，DTLE当前仅支持MySQL和Kafka。部署方式在部署方式上，debezium和streamsets都是单节点，otter是集群化的部署方式，DTLE支持单机和集群化部署。
2.6K10发布于 2019-06-15
来自专栏大数据和云计算技术
大数据和云计算技术周报（第56期）
本期会给大家奉献上精彩的：HBase、Zookeeper、模型引擎、云上架构、Spark、Kafka、StreamSets、es+hadoop、Redis、RocketMQ、Tengine、MySQL。 https://mp.weixin.qq.com/s/zheqluaR4IY-NVqbE3MXiQ 8 StreamSets 本篇文章Fayson主要介绍如何使用StreamSets实时采集Kafka 的数据并将采集的数据写入Hive，StreamSets的流程处理如下： https://mp.weixin.qq.com/s/xcJYxv_8ncS9lqVFlwlHkQ 9 es+hadoop
64930发布于 2018-07-26
2025年5大国产ETL工具横向评测
五、StreamSets产品简介StreamSets 是一款主打可视化的ETL工具，能同时处理实时和批量数据。功能特点它最大的亮点就是操作界面真直观！如果你希望用图形化界面轻松搞定ETL流程，同时要处理实时数据流，StreamSets值得看看。总结一下选工具没有最好，只有最合适，关键看你家啥情况：求省心省力、功能全面、适用广？预算够的话，StreamSets 的体验不错。希望这份实实在在的对比，能帮你拨开迷雾，在2025年找到最趁手的国产ETL伙伴！选对了工具，数据才能真正为你所用。
55910编辑于 2025-07-17
来自专栏信息技术智库
一篇文章搞懂数据仓库：常用ETL工具、方法
二、ETL & ELT 三、常用的ETL工具 3.1 sqoop 3.2 DataX 3.3 Kettle 3.4 canal 3.5 StreamSets 四、ETL加载策略 4.1 增量 4.2 全量三、常用的ETL工具下面小编将介绍几类ETL工具（sqoop，DataX，Kettle，canal，StreamSets）。 3.5 StreamSets 是大数据实时采集ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。
12.8K12编辑于 2022-07-29
来自专栏飞总聊IT
系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL
本文目录CONTENTS ☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ] ☞ ETL之技术栈 [ 重工具 vs 开发语言 ] ☞ StreamSets Streamsets是一个大数据实时采集ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。 Streamsets的强大之处：拖拽式可视化界面操作，No coding required 可实现不写一行代码强大整合力，100+ Ready-to-Use Origins and Destinations
3.5K41发布于 2019-10-06
来自专栏后端开发随笔
通过Hack方式实现SDC中Stage配置联动刷新
目录问题描述如何从外部获取下拉列表参数如何实现根据下拉列表选项动态刷新总结问题描述最近项目组准备开发一个IoT平台项目，需要使用到StreamSets DataCollector组件进行数据处理 DigitalTwinInstanceChooser.class) public String instance = null; 其中，DigitalTwinInstanceChooser类是数据源，它必须实现接口com.streamsets.pipeline.api.ChooserValues Stage配置参数的地址为：/rest/v1/pipeline/{pipelineid}，于是凭直接找到了对应API接口类：datacollector\container\src\main\java\com\streamsets
1.5K20发布于 2019-06-27
来自专栏Spark学习技巧
系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL
StreamSets Streamsets是一个大数据实时采集ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。 Streamsets的强大之处：拖拽式可视化界面操作，No coding required 可实现不写一行代码强大整合力，100+ Ready-to-Use Origins and Destinations
3.2K31发布于 2019-09-26

第 2 页第 3 页

点击加载更多

如何在CDH中安装和使用StreamSets

通过StreamSets实时更新数据至ElasticSearch

如何使用StreamSets从MySQL增量更新数据到Hive

如何使用StreamSets实现MySQL中变化数据实时写入HBase

如何使用StreamSets实时采集Kafka并入库Kudu

如何使用StreamSets实现MySQL中变化数据实时写入Kudu

如何使用StreamSets实时采集Kafka数据并写入Hive表

如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表

史上最全-mysql迁移到clickhouse的5种办法

如何使用StreamSets实现Oracle中变化数据实时写入Kudu

0604-6.1.0-如何使用StreamSets实时采集指定数据目录文件并写入库Kudu

【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

大数据和云计算技术周报（第40期）:NoSQL特辑

玩转开源MySQL数据传输中间件DTLE

大数据和云计算技术周报（第56期）

2025年5大国产ETL工具横向评测

一篇文章搞懂数据仓库：常用ETL工具、方法

系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

通过Hack方式实现SDC中Stage配置联动刷新

系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐