首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏开源心路

    seatunnel 架构

    SeaTunnel 尽所能为您解决海量数据同步中可能遇到的问题: 数据丢失与重复 任务堆积与延迟 吞吐量低 应用到生产环境周期长 缺少应用运行状态监控 SeaTunnel 使用场景 海量数据同步 在架构设计上,Apache SeaTunnel 参考了 Presto 的 SPI 化思想,有很好的插件化体系设计。 在技术选型时,Apache SeaTunnel 主要考虑技术成熟度和社区活跃性。 bin/start-seatunnel-flink.sh -p 2 -c config-path -p 2指定作业并行度是2 bin/start-seatunnel-flink.sh -m yarn-cluster -ynm seatunnel -c config-path -m yarn-cluster -ynm seatunnel指定作业在 上运行yarn,名称yarn WebUI为seatunnel

    1.1K30编辑于 2023-06-30
  • 来自专栏Tyrant Lucifer

    Apache Seatunnel - 架构解析

    概述 Seatunnel 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上,开源项目地址:https://github.com /apache/incubator-seatunnel 版本演变 Seatunnel原名为Waterdrop,在更名之后正式孵化为Apache项目,同时对于两个名字也对应了不同的版本,Waterdrop 指1.x版本,Seatunnel指2.x版本,对于1.x和2.x有以下区别: 关键功能 1.x 2.x 支持spark yes yes 支持flink no yes 主要开发语言 scala java 主要构建工具 sbt maven 为什么我们需要Seatunnel Apache Spark和Apache Flink对于分布式数据处理和流式数据处理来说是一个伟大的进步,但较高的使用门槛让数据处理人员需要学习 spark和flink复杂的运行机制和api才能够使用的更加顺畅,为降低数据处理门槛,且让spark和flink变得更加易用,减少学习成本,加快分布式数据处理在生产环境的落地,Seatunnel应运而生

    6.2K30编辑于 2022-08-30
  • 来自专栏数据库干货铺

    数据同步集成工具SeaTunnel

    SeaTunnel简介 SeaTunnel是Apache软件基金会孵化的数据集成平台,用于数据的提取(Extract)、加载(Load)和简单转换(Transform)。 ) mysql> grant all on seatunnel.* to seatunnel; Query OK, 0 rows affected (0.00 sec) 2.2 下载安装包 SeaTunnel 2.3 开始后端部署 解压下载的二进制安装包 # 进入目录seatunnel(提前创建) cd seatunnel # 解压 tar -zxvf apache-seatunnel-2.3.8-bin.tar.gz bin/seatunnel-backend-daemon.sh start starting seatunnel... Load connectors from /usr/local/seatunnel/apache-seatunnel-web-1.0.2-bin /usr/local/seatunnel/apache-seatunnel-web

    1.4K10编辑于 2024-12-19
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 社区年终盘点

    PMC带你解读SeaTunnel2.3.9版本功能特性(讲师:王海林ApacheSeaTunnelCommitter&PMCMember)某政务行业基于SeaTunnel探索数据集成平台的架构实践孟小鹏某政务公司大数据技术经理 SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制(讲师:史德昇某网络安全公司高级大数据工程师)从架构原理到落地实践:ApacheSeaTunnel×Cloudberry数据集成全解读 ApacheSeaTunnel接入MCP,解锁模型上下文协议超能力(讲师:张海成ApacheSeaTunnelContributor)把数套数据传输通道一键“折叠”成SeaTunnel:同程工程师周晓晨的实战笔记 (讲师:周晓晨同程旅行数据通道负责人)从“分散”到“统一”,中控技术利用SeaTunnel构建高效数据采集框架,核心数据同步任务0故障运行! :基于SeaTunnel迁移数据到AmazonAuroraDSQLSeaTunnel社区「Demo方舟计划」第一期:MySQLCDC实时同步至PostgreSQL实战(讲师:马全才奥克斯数仓开发工程师)

    22610编辑于 2026-01-08
  • 来自专栏腾源会

    活动推荐|Apache SeaTunnel & Kyuubi 联合 Meetup

    2022 年 3 月 12 日(星期六), Apache SeaTunnel 和 Apache Kyuubi 两大新锐社区携手,邀请来自 eBay、T3 出行、oppo 等团队的五位实战型专家,从技术实践到业务优化 直播预约 扫码预约直播 1 活动简介 主题:2022 SeaTunnel & Kyuubi 联合 Meetup 时间:2022-3-12 14:00-17:00 形式:线上直播 2 活动亮点 Apache SeaTunnel 和 Apache Kyuubi 两大新锐社区携手,精心筹备,为企业大数据开发者、开源技术爱好者带来一场技术盛宴。 贡献自定义插件 演讲概要:介绍如何从0到1地给 Apache SeaTunnel 贡献自定义插件,包括环境构建,代码编写,提交和 Review 等。 ,如何基于Apache SeaTunnel 打造特征数据平台产品,提升开发效率。

    78810编辑于 2022-03-14
  • 来自专栏暴走大数据

    基于Seatunnel连通Hive和ClickHouse实战

    没错,当然是 Seatunnel 啦! 01 环境准备 官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11 全部解压安装到/u/module下即可 [hadoop@hadoop101 module]$ unzip /u/software/19.Seatunnel/seatunnel-1.5.7.zip -d /u/module/ [hadoop@hadoop101 module]$ tar -zxvf /u/software /bin/bash # 环境变量 unset SPARK_HOME export SPARK_HOME=$SPARK2_HOME SEATUNNEL_HOME=/u/module/seatunnel- EOF $SEATUNNEL_HOME/bin/start-seatunnel.sh --config $SEATUNNEL_HOME/jobs/hive2ck_test.conf -e client

    2.7K10编辑于 2022-06-17
  • 来自专栏Spark学习技巧

    SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

    2.9、多引擎支持 • Apache SeaTunnel 支持 SeaTunnel Zeta、Flink 和 Spark 三个引擎选其一作为运行时。 SeaTunnel 的精确一致性实现得益于 SeaTunnel 的 Sink & Source API 的设计,对 MySQL 等数据库来说,SeaTunnel通过实现二阶段提交(Two-Phase Commit 通过以上的二阶段提交过程,SeaTunnel 能够确保在数据同步过程中的一致性。SeaTunnel 实现了分布式环境下的数据操作的原子性和一致性。 SeaTunnel 与其他工具和系统的集成非常方便。SeaTunnel 提供了与常见的调度系统、任务调度框架和数据生态系统的集成接口。 SeaTunnel 的活跃社区和强大生态系统也是其成功的关键。作为一个开源项目,SeaTunnel 拥有庞大的开发者社区和用户社区,他们为 SeaTunnel 的发展和改进做出了巨大贡献。

    8.2K11编辑于 2024-03-27
  • 来自专栏Tyrant Lucifer

    我与Apache SeaTunnel的不二情缘

    关于我 我是tyrantlucifer,目前是Apache SeaTunnel社区的PPMC & Committer,在一家不知名公司任职大数据开发工程师,工作方向主要聚焦于数据集成领域的探索和实践,平时也会用诸如 初识WaterDrop 熟悉SeaTunnel的老朋友们应该会知道,其实SeaTunnel没进孵化器之前就是市面上开源许久的WaterDrop,在SeaTunnel进孵化器的前期,我有幸因为工作缘故,接触到了 WaterDrop,由此开启了我与SeaTunnel的不解情缘。 参与SeaTunnel贡献 在我接触完WaterDrop的一两个月后,WaterDrop成功进入到Apache孵化器并改名为SeaTunnel,当时的我第一时间就萌生了想为SeaTunnel贡献的想法, 并落地到SeaTunnel中,在经过半年的不懈努力,SeaTunnel V2初具雏形,同时主仓库的大部分角落也留下了我的姓名和提交,在今年的11月底,我有幸被社区邀请成为PPMC Member,至此,我的种子终于开花结果

    67220编辑于 2023-03-09
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 提速不难,JVM 参数这样调

    本文将详细介绍SeaTunnel的JVM参数配置位置、参数优先级、核心调优参数及最佳实践。 1.配置文件位置SeaTunnel的JVM参数通过$SEATUNNEL_HOME/config/目录下的配置文件进行管理。 -Xms2g-Xmx2gjvm_client_options客户端(seatunnel.sh提交作业时)。用于解析配置、构建逻辑计划并提交给Master。 3.2堆外内存重要说明:你会发现SeaTunnel进程占用的物理内存(RSS)往往明显大于-Xmx设置的值。 原因:SeaTunnel底层网络通信基于Netty,大量使用堆外内存(DirectMemory)来零拷贝传输数据。

    2700编辑于 2026-03-25
  • 来自专栏SmartSi

    Apache SeaTunnel 分布式数据集成平台

    SeaTunnel 原名 Waterdrop,于 2017 年由乐视创建,并于同年在 GitHub 上开源,2021 年 10 月改名为 SeaTunnel。 在架构设计上,Apache SeaTunnel 参考了 Presto 的 SPI 化思想,有很好的插件化体系设计。 在技术选型时,Apache SeaTunnel 主要考虑技术成熟度和社区活跃性。 生产应用案例 唯品会:唯品会早在 1.0 版本时就引用了 SeaTunnel,使用 SeaTunnel 进行一些 Hive 到 ClickHouse 之间数据交互的工作。 Oppo:基于 SeaTunnel 进行的二次开发搭建 ETL 特征生产处理平台。 Bilibili:基于 SeaTunnel 二次开发实现 AlterEgo 项目。 微博:微博某业务有数百个实时流式计算任务使用内部定制版 SeaTunnel,以及其子项目 Guardian 做 Seatunnel On Yarn 的任务监控。

    5.2K31编辑于 2022-04-01
  • 来自专栏Apache IoTDB

    使用 SeaTunnel 玩转 IoTDB 数据同步 | 讲座回顾

    前言 在今年 10 月份 Apache IoTDB & SeaTunnel 联合 meetup 上,SeaTunnel Committer 的王海林带来题为《使用 SeaTunnel 玩转 IoTDB 基本的数据类型投影时,在IoTDB 的 SQL 查询任何指标时会默认带上 time,或 group by device 会带上device 列,SeaTunnel 也默认支持投影到 SeaTunnel 3.1 数据类型映射 首先是数据类型映射,实际上是把 IoTDB 的数据类型读到 SeaTunnel 上,所以要转化成 SeaTunnel 的数据类型。 通过 IoTDB 的 SQL提取列码,可以只提取部分需要的列,在 SeaTunnel 上使用时,可以通过 feilds 来指定列映射到 SeaTunnel 后的名字、类型等。 最后读取到SeaTunnel上的数据结果如下图所示。

    2.1K20编辑于 2023-03-21
  • 来自专栏Java爱好者

    开源数据集成平台SeaTunnel:MySQL实时同步到es

    恰好3年前用过 SeaTunnel 的 前身 WaterDrop,那就开始吧。本文以 2.3.1 版本,Ubuntu 系统为例二、开源数据集成平台SeaTunnel1. 简介SeaTunnel 是 Apache 软件基金会下的一个高性能开源大数据集成工具,为数据集成场景提供灵活易用、易扩展并支持千亿级数据集成的解决方案。 可以选择 SeaTunnel Zeta 引擎上运行,也可以在 Apache Flink 或 Spark 引擎上运行。undefined图片2. (ClientJobProxy.java:122) at org.apache.seatunnel.core.starter.seatunnel.command.ClientExecuteCommand.execute /bin/seatunnel.sh -e local --config .

    2.4K11编辑于 2023-07-24
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel MySQL CDC 支持按时间启动吗?

    MySQLCDC连接器会在启动阶段自动完成以下工作:根据指定时间戳定位对应的binlog文件与偏移量从该binlog位置开始读取变更事件自动跳过所有早于该时间点的历史事件通过引入“时间”这一更符合业务语义的维度,SeaTunnel 使用注意事项版本要求:需要SeaTunnel2.3.12或更高版本时间戳格式:必须使用Unix时间戳,单位为毫秒binlog可用性:确保指定时间点对应的binlog文件仍然可用时区考虑:时间戳基于UTC

    9710编辑于 2026-01-22
  • 来自专栏DataFunTalk

    陈胡:Apache SeaTunnel实现非CDC数据抽取实践

    今天的介绍会围绕下面六点展开: SeaTunnel简介 SeaTunnel应用场景 相关业务痛点 选择SeaTunnel的原因 具体实现方案 具体实现流程 -- 01 SeaTunnel简介 下面对SeaTunnel Apache SeaTunnel环境依赖 SeaTunnel1.X支持Spark计算引擎,SeaTunnel2.X目前支持Spark/Flink两种计算引擎,在笔者的实际项目中使用的是SeaTunnel1 -- 02 SeaTunnel应用场景 SeaTunnel特别适合以下场景使用: 海量数据集成和ETL 海量数据聚合 多源数据处理 下面主要介绍SeaTunnel在交管行业中的应用。 1. SeaTunnel的安装部署 如上图所示是SeaTunnel官方部署文档,只需要简单几步,就可以把SeaTunnel安装到我们的环境之中,然后就可以使用了。 3.  SeaTunnel插件支持 如下图所示,SeaTunnel支持的插件非常丰富,日常所能用到的基本都有。

    3.1K20编辑于 2022-05-19
  • 来自专栏实时流式计算

    SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

    Apache SeaTunnel 原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器。 Apache 官方博客发布了 Apache SeaTunnel 毕业的消息: 图1:Apache 官网截图 关于 Apache SeaTunnel Apache SeaTunnel 是新一代高性能、分布式 十八个月之后,Apache SeaTunnel 顺利毕业成为 ASF 顶级项目,我的期许是:Apache SeaTunnel【启航星辰大海】! SeaTunnel 官网: https://seatunnel.apache.org/ 下载地址:https://seatunnel.apache.org/download GitHub 地址: https 加入我们 国内用户: SeaTunnel 微信公众号: SeaTunnel 加入微信用户群请添加微信号: seatunnel1 海外用户: Twitter: https://twitter.com/ASFSeaTunnel

    1.2K20编辑于 2023-08-09
  • 来自专栏Apache SeaTunnel

    担心 DataX 迁移到 Apache SeaTunnel 成本高?一篇指南手把手带你平滑切换

    参考源码:AlibabaDataXGitHubApacheSeaTunnelTools(x2seatunnel)1.自动化迁移利器:X2SeaTunnel为了简化迁移过程,SeaTunnel社区提供了一个强大的自动化配置转换工具 ——X2SeaTunnel。 1.1工具简介X2SeaTunnelseatunnel-tools项目的一部分,专门用于帮助用户从其他数据集成平台快速迁移到SeaTunnel。 #编译完成后,包位于x2seatunnel/target/x2seatunnel-*.zip1.2.2转换命令示例展开代码语言:BashAI代码解释#基本用法:将datax.json转换为seatunnel.conf 4.1准备工作在运行任务前,请确保满足以下条件:安装SeaTunnel:已解压并配置好SeaTunnel环境。

    18110编辑于 2026-02-04
  • 来自专栏Linyb极客之路

    搞不定 Docker 部署 SeaTunnel?这些坑与解法你得知道!

    /config/seatunnel.yaml:/opt/seatunnel/config/seatunnel.yaml entrypoint: > /bin/sh -c " / /config/seatunnel.yaml:/opt/seatunnel/config/seatunnel.yaml entrypoint: > /bin/sh -c " / /config/seatunnel.yaml:/opt/seatunnel/config/seatunnel.yaml entrypoint: > /bin/sh -c " / /config/seatunnel.yaml:/opt/seatunnel/config/seatunnel.yaml entrypoint: > /bin/sh -c " / /config/seatunnel.yaml:/opt/seatunnel/config/seatunnel.yaml entrypoint: > /bin/sh -c " /

    98510编辑于 2025-08-26
  • 来自专栏Tyrant Lucifer

    SeaTunnel 连接器V1到V2的架构演进与探究

    SeaTunnel连接器V1 API解析 架构概览 目前在项目dev分支下,SeaTunnel连接器V1 API所在的模块如图所示: image-20220923112935210 seatunnel-api-base :基础API层抽象 seatunnel-api-flink:Flink引擎API层抽象 seatunnel-api-spark:Spark引擎API层抽象 seatunnel-api-base 在基础模块中 :V1基础启动模块 seatunnel-core-flink:V1flink引擎启动模块 seatunnel-core-flink-sql:V1flink-sql引擎启动模块 seatunnel-core-spark 连接器V2 API解析 架构概览 目前在项目dev分支下,SeaTunnel连接器V2 API所在的模块如图所示: image-20220923234018879 seatunnel-api:连接器V2 :V2基础启动模块 seatunnel-flink-starter:V2 flink引擎启动模块 seatunnel-spark-starter:V2 spark引擎启动模块 执行流程 为了更好的理解SeaTunnel

    1.3K10编辑于 2022-11-29
  • 来自专栏Catorory

    Github fork的项目如何和原项目同步更新

    项目作为示例$ git remote add origin git@github.com:{your_github_id}/incubator-seatunnel.git$ git remote add }/incubator-seatunnel.git (fetch)origin git@github.com:{your_github_id}/incubator-seatunnel.git (push apache/incubator-seatunnel.git (push)这样设置就完成了。 3.一个月(也可以是一个星期)后,apache/incubator-seatunnel的代码更新了很多pr,但是我fork的项目还是之前fork的时候的样子,我们想将fork的项目和apache/incubator-seatunnel $ git push origin dev一个月后,apache/incubator-seatunnel又更新了,重复上面123,就可以继续同步。

    4.8K30编辑于 2023-04-26
  • 来自专栏最新最全的大数据技术体系

    一篇文章搞定数据同步工具SeaTunnel

    1 章 Seatunnel 概述 1.1 SeaTunnel 是什么 SeaTunnel 是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通 用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行 SeaTunnel 的前身是 Waterdrop (中文名:水滴)自 2021 年 10 月 12 日更名为 SeaTunnel。 2.1 SeaTunnel 的环境依赖 截至 SeaTunnel V2.1.0。 SeaTunnel 支持 Spark 2.x(尚不支持 Spark 3.x)。 第 3 章 SeaTunnel 基本原理 3.1 SeaTunnel 的启动脚本 3.1.1 启动脚本的参数 截至目前, SeaTunnel 有两个启动脚本。 3.3 SeaTunnel 的基本原理 SeaTunnel 的工作原理简单明了。

    15.7K40编辑于 2023-07-28
领券