首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Hadoop实操

    如何在CDH中安装和使用StreamSets

    Fayson的github 提示:代码块部分可以左右滑动查看噢 1.关于StreamSets StreamSets由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人 他们的第一款产品StreamSets Data Collector(https://streamsets.com/products/sdc)被数百家公司用于构建复杂的任意数据流,其中包括财富500强企业 内容概述: StreamSets安装配置 StreamSets基本使用 3.常见问题 测试环境: 1.操作系统为:Redhat7.2 2.CM和CDH为:5.13.1 3.安装步骤 3.1.安装前准备 STREAMSETS-3.0.0.0.jar拷贝到/opt/cloudera/csd,并更改权限,然后重启cloudera-scm-server服务 [root@cdh4 ~]# cp STREAMSETS 3.5.添加StreamSets服务 完成上述步骤后,在集群 > 添加服务 中添加StreamSets 的服务 选择StreamSets安装 选择一个DataCollector 节点,默认配置,继续等待安装和启动完成

    39.5K113发布于 2018-03-30
  • 来自专栏网络收集

    通过StreamSets实时更新数据至ElasticSearch

    网上许多关于StreamSets增量更新的教程几乎都是单单INSERT操作,这使得目标数据库会出现重复数据,而实际需求上我们往往更多是需要INSERT加UPDATE操作,利用SQL Server的TIMESTAMP

    1.6K30编辑于 2022-03-24
  • 来自专栏Hadoop实操

    如何使用StreamSets从MySQL增量更新数据到Hive

    本篇文章主要介绍如何使用使用StreamSets通过JDBC的方式实时抽取增量数据到Hive。 StreamSets实现的流程如下: ? 内容概述 1.环境准备 2.创建StreamSets的Pipeline流程 3.Pipeline流程测试 测试环境 1.StreamSets版本为3.1.2.0 2.CM和CDH版本为5.13.1 3. 3.创建StreamSets的Pipline ---- 1.创建新的管道流 ? 配置错误日志输入路径,这里配置到本地的/tmp/sdctest(需要自己创建)目录下 ? ? STREAMSETS_DATACOLLECTOR-3.0.0.0/sdc-extras (可左右滑动) ? 在CM中配置StreamSets包的路径 export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR

    15.7K130发布于 2018-04-18
  • 来自专栏Hadoop实操

    如何使用StreamSets实现MySQL中变化数据实时写入HBase

    》、《如何使用StreamSets从MySQL增量更新数据到Hive》以及《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》,本篇文章Fayson主要介绍如何使用StreamSets StreamSets实现的流程如下: ? 内容概述 1.环境准备 2.创建StreamSets的Pipeline流程 3.Pipeline流程测试 4.总结 测试环境 1.StreamSets版本为3.3.0 2.CM和CDH版本为5.12.1 2.StreamSets安装MySQL驱动 将MySQL的JDBC驱动拷贝至 /opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR/streamsets-libs 查看StreamSets的Pipeline实时状态 ?

    5.3K40发布于 2018-07-11
  • 来自专栏Hadoop实操

    如何使用StreamSets实时采集Kafka并入库Kudu

    Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在前面的文章《如何使用StreamSets 实现MySQL中变化数据实时写入Kudu》,本篇文章主要介绍如何使用StreamSets实时采集Kafka的数据并将采集的数据写入Kudu。 内容概述 1.测试环境准备 2.准备生产Kafka数据脚本 3.配置StreamSets 4.流程测试及数据验证 测试环境 1.RedHat7.4 2.CM和CDH版本为cdh5.13.3 3.kafka3.0.0 4.在StreamSets上创建Pipline ---- 1.登录StreamSets,创建一个kafka2kudu的Pipline ?

    3K51发布于 2018-07-12
  • 来自专栏Hadoop实操

    如何使用StreamSets实现MySQL中变化数据实时写入Kudu

    在《如何使用StreamSets从MySQL增量更新数据到Hive》中,使用受限于表需要主键或者更新字段,我们在本篇文章主要介绍如何将MySQL Binary Log作为StreamSets的源,来实时捕获 StreamSets实现的流程如下: ? 内容概述 1.环境准备 2.创建StreamSets的Pipeline流程 3.Pipeline流程测试 4.总结 测试环境 1.StreamSets版本为3.1.2.0 2.CM和CDH版本为5.13.1 安装MySQL驱动 将MySQL的JDBC驱动拷贝至 /opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR/streamsets-libs/streamsets-datacollector-mysql-binlog-lib 3.创建StreamSets的Pipline ---- 1.登录StreamSets,创建一个新的Pipline ? 2.选择Origins类别,搜索MySQL Binary Log ?

    5.9K110发布于 2018-04-18
  • 来自专栏Hadoop实操

    如何使用StreamSets实时采集Kafka数据并写入Hive表

    的一些文章《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、 《如何使用StreamSets实现MySQL中变化数据实时写入HBase》和《如何使用StreamSets实时采集Kafka并入库Kudu》,本篇文章Fayson主要介绍如何使用StreamSets实时采集 3.StreamSets配置 ---- 由于Kafka集群启用了Kerberos,所以这里在使用StreamSets消费Kafka数据之前,需要配置StreamSets访问Kafka的Kerberos用户信息 4.创建StreamSets的Pipline ---- 1.登录StreamSets,创建一个kafka2kudu的Pipline ? 注意:这里访问Hive的JDBC连接,需要添加Kerberos信息,由于无法通过StreamSets界面指定我们自定义用户访问Hive,所以这里默认使用的是StreamSets的sdc用户,如果集群启用了

    5.8K20发布于 2018-07-12
  • 来自专栏Hadoop实操

    如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表

    1.文档编写目的 ---- 在前面的文章Fayson介绍了关于StreamSets的一些文章《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive 》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》、《如何使用StreamSets实时采集Kafka 并入库Kudu》和《如何使用StreamSets实时采集Kafka数据并写入Hive表》,本篇文章Fayson主要介绍如何使用StreamSets实时采集Kafka中嵌套的JSON数据并将采集的数据写入 Hive,StreamSets的流程处理如下: ? 3.创建StreamSets的Pipline ---- 1.登录StreamSets,创建一个kafka2hive_json的Pipline ?

    6.2K51发布于 2018-07-12
  • 来自专栏Hadoop实操

    史上最全-mysql迁移到clickhouse的5种办法

    下面介绍两种离线方式(streamsets支持实时,也支持离线) csv ## 忽略建表 clickhouse-client \ -h host \ --query="INSERT INTO [ streamsets支持从mysql或者读csv全量导入,也支持订阅binlog增量插入,参考我另外一篇《025-大数据ETL工具之StreamSets安装及订阅mysql binlog》。 https://anjia0532.github.io/2019/06/10/cdh-streamsets/ 本文只展示从mysql全量导入clickhouse 本文假设你已经搭建起streamsets 然后拷贝到 streamsets /opt/streamsets-datacollector-3.9.1/streamsets-libs-extras/streamsets-datacollector-jdbc-lib 重启streamsets服务 ? ? ? ? ? ? ?

    13.8K33发布于 2019-07-22
  • 来自专栏Hadoop实操

    如何使用StreamSets实现Oracle中变化数据实时写入Kudu

    的一些文章,参考《如何在CDH中安装和使用StreamSets》、《如何使用StreamSets从MySQL增量更新数据到Hive》、《如何使用StreamSets实现MySQL中变化数据实时写入Kudu 》、《如何使用StreamSets实时采集Kafka并入库Kudu》、《如何使用StreamSets实现MySQL中变化数据实时写入HBase》、《如何使用StreamSets实时采集Kafka数据并写入 Hive表》和《如何使用StreamSets实时采集Kafka中嵌套JSON数据并写入Hive表》,本篇文章Fayson主要介绍如何使用StreamSets实时采集Oracle中的变化数据实时写入Kudu ,StreamSets的流程处理如下: ? 4.StreamSets3.2.0 前置条件 1.集群已经安装StreamSets并运行正常 2.Oracle及Oracle LogMiner运行正常 2.配置StreamSets创建Pipeline及测试

    5.5K60发布于 2018-07-12
  • 来自专栏Hadoop实操

    0604-6.1.0-如何使用StreamSets实时采集指定数据目录文件并写入库Kudu

    Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1 文档编写目的 Fayson在前面写过多篇StreamSets 的文章,本篇文章主要介绍通过StreamSets实时的方式读取本地的数据文件,通过解析处理将文件中的内容写入到Kudu中。 在进行本篇文章学习前你还需要了解: 《如何在CDH中安装和使用StreamSets》 内容概述 1.测试环境准备 2.准备测试数据 3.配置StreamSets 4.流程测试及数据验证 测试环境 1.RedHat7.4 3.在StreamSets服务所在节点上创建一个/data1/tmp的数据目录,用于配置StreamSets的采集目录 ? 5 总结 1.通过StreamSets可以方便的监听指定的数据目录进行数据采集,可以在Directory模块上配置文件的过滤规则、采集频率以及数据的格式化方式。

    1.9K20发布于 2019-04-29
  • 来自专栏区块链入门

    【知识】ETL大数据集成工具Sqoop、dataX、Kettle、Canal、StreamSets大比拼

    2.4.3 Github github地址:https://github.com/alibaba/canal 2.5 StreamSets 2.5.1 介绍 Streamsets是一个大数据实时采集ETL Origins and Destinations,支持100+数据源和目标源 可视化内置调度监控,实时观测数据流和数据质量 2.5.3 Github 地址:https://github.com/streamsets 参考 (4)数据同步之道(Sqoop、dataX、Kettle、Canal、StreamSets) https://www.modb.pro/db/86290 (1)数据抽取工具比对:Kettle、Datax 、Sqoop、StreamSets https://blog.csdn.net/xiaozm1223/article/details/89670460 (2)ETL学习总结(2)——ETL数据集成工具之 kettle、sqoop、datax、streamSets 比较 https://zhanghaiyang.blog.csdn.net/article/details/104446610 (3)数据集成工具

    17.5K22编辑于 2022-05-13
  • 来自专栏大数据和云计算技术

    大数据和云计算技术周报(第40期):NoSQL特辑

    新数仓系列:Hbase周边生态梳理(1) 新数仓系列:Hbase国内开发者生存现状(2) 新数仓系列:开源组件运营(3) HBase 和 Cassandra的浅谈 本期有 HBase、HBase+ES、StreamSets http://mp.weixin.qq.com/s/TVH7WacivwzktWwI4ZMI7g 3 StreamSets StreamSets是一个大数据采集工具,数据源支持包括结构化和半/非结构化

    51120发布于 2018-07-26
  • 来自专栏「3306 Pai」社区

    玩转开源MySQL数据传输中间件DTLE

    同类对比 我们选取了其他同类的开源软件debezium、streamsets、otter、DTLE,一起横向对比了相关特性。 ? 数据过滤 在数据过滤方面,debezium支持库级, streamsets支持行级,otter可以自定义,DTLE是库、表、行三个等级都支持。 同样streamsets也是,otter也可以灵活自定义。DTLE当前不支持数据映射,还在Roadmap中。 streamsets支持很多的目标端,不再详细展开。otter支持 MySQL和Oracle,DTLE当前仅支持MySQL和Kafka。 部署方式 在部署方式上,debezium和streamsets都是单节点,otter是集群化的部署方式,DTLE支持单机和集群化部署。

    2.6K10发布于 2019-06-15
  • 来自专栏大数据和云计算技术

    大数据和云计算技术周报(第56期)

    本期会给大家奉献上精彩的:HBase、Zookeeper、模型引擎、云上架构、Spark、Kafka、StreamSets、es+hadoop、Redis、RocketMQ、Tengine、MySQL。 https://mp.weixin.qq.com/s/zheqluaR4IY-NVqbE3MXiQ 8 StreamSets 本篇文章Fayson主要介绍如何使用StreamSets实时采集Kafka 的数据并将采集的数据写入Hive,StreamSets的流程处理如下: https://mp.weixin.qq.com/s/xcJYxv_8ncS9lqVFlwlHkQ 9 es+hadoop

    64930发布于 2018-07-26
  • 2025年5大国产ETL工具横向评测

    五、StreamSets产品简介StreamSets 是一款主打可视化的ETL工具,能同时处理实时和批量数据。功能特点它最大的亮点就是操作界面真直观! 如果你希望用图形化界面轻松搞定ETL流程,同时要处理实时数据流,StreamSets值得看看。总结一下选工具没有最好,只有最合适,关键看你家啥情况:求省心省力、功能全面、适用广? 预算够的话,StreamSets 的体验不错。希望这份实实在在的对比,能帮你拨开迷雾,在2025年找到最趁手的国产ETL伙伴!选对了工具,数据才能真正为你所用。

    55910编辑于 2025-07-17
  • 来自专栏信息技术智库

    一篇文章搞懂数据仓库:常用ETL工具、方法

    二、ETL & ELT 三、常用的ETL工具 3.1 sqoop 3.2 DataX 3.3 Kettle 3.4 canal 3.5 StreamSets 四、ETL加载策略 4.1 增量 4.2 全量 三、常用的ETL工具 下面小编将介绍几类ETL工具(sqoop,DataX,Kettle,canal,StreamSets)。 3.5 StreamSets 是大数据实时采集ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。

    12.8K12编辑于 2022-07-29
  • 来自专栏飞总聊IT

    系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

    本文目录CONTENTS ☞ ETL同步之道 [ Sqoop、DataX、Kettle、Canal、StreamSets ] ☞ ETL之技术栈 [ 重工具 vs 开发语言 ] ☞ StreamSets Streamsets是一个大数据实时采集ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。 Streamsets的强大之处: 拖拽式可视化界面操作,No coding required 可实现不写一行代码 强大整合力,100+ Ready-to-Use Origins and Destinations

    3.5K41发布于 2019-10-06
  • 来自专栏后端开发随笔

    通过Hack方式实现SDC中Stage配置联动刷新

    目录 问题描述 如何从外部获取下拉列表参数 如何实现根据下拉列表选项动态刷新 总结 问题描述 最近项目组准备开发一个IoT平台项目,需要使用到StreamSets DataCollector组件进行数据处理 DigitalTwinInstanceChooser.class) public String instance = null; 其中,DigitalTwinInstanceChooser类是数据源,它必须实现接口com.streamsets.pipeline.api.ChooserValues Stage配置参数的地址为:/rest/v1/pipeline/{pipelineid},于是凭直接找到了对应API接口类:datacollector\container\src\main\java\com\streamsets

    1.5K20发布于 2019-06-27
  • 来自专栏Spark学习技巧

    系列 | 漫谈数仓第三篇NO.3 『数据魔法』ETL

    StreamSets Streamsets是一个大数据实时采集ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。 Streamsets的强大之处: 拖拽式可视化界面操作,No coding required 可实现不写一行代码 强大整合力,100+ Ready-to-Use Origins and Destinations

    3.2K31发布于 2019-09-26
领券