搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
ETL是什么_ETL平台
1、数据抽取数据抽取指的是从不同的网络、不同的操作平台、不同的数据库和数据格式、不同的应用中抽取数据的过程。目标源可能包括ERP、CRM和其他企业系统，以及来自第三方源的数据。整个操作过程往往要跨网络、跨操作平台。（4）增量更新问题对于数据量大的系统，必须考虑增量抽取。 ---- 4、ETL日志与警告发送（1）ETL日志记录日志的目的是随时可以知道ETL运行情况，如果出错了，出错在那里。 /1251949 （4） https://www.webopedia.com/TERM/E/ETL.html 发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/166917
2.8K31编辑于 2022-09-20
来自专栏卡尼慕
大数据平台架构+ETL
1 ETL，Extraction-Trasformation-Loading，即数据读取，转换，装载的过程，是构建数据仓库的重要环节。 ETL是将业务系统的数据经过抽取，清洗转换之后加载到数据仓库的过程，目的是将企业中的额分散的，零乱的，标准不统一的数据整合到一起，为企业决策提供分析依据。ETL是BI项目中重要的一个环节。 ETL的实现方法： 1、借助ETL工具。（如OWB，DTS，SSIS等）实现。 2、SQL方法实现。 3、ETL工具与SQL相结合。工具降低难度，但缺少灵活性。SQL灵活但编码复杂，因此结合两者。 2 大数据平台架构 ? 首先，对于做大数据开发而言，平台的监控与报警和平台管理不归我们管，主要是给运维人员做的事情。我们要做的就是中间的事情。然后来看看数据基础平台。接着看数据应用平台。元数据管理。这边的元数据要存储到关系型数据库中。作业平台管理，就是任务调度。交互分析就关系到sql语句。多维分析主要是对数据的维度分析，如按年分析，按月分析，按周分析等。
2.5K21发布于 2019-09-09
国内有哪些ETL工具?4款好用的国产ETL工具推荐
其实不少问题，换个合适的 ETL 工具就能解决。以前大家要么用国外的商业软件，要么自己拼开源方案，能用但不一定好用。今天老刘就结合自己的的经验，挑 4 款在国内口碑不错、用起来顺手的工具跟你聊聊，它们各有哪些优缺点，用在哪种业务场景里更合适，我今天一并说清楚。它不只是个单纯的 ETL 工具，更像是个全链路的数据集成平台——离线、实时、文件、API 都能处理，还可以做可视化流程编排、数据清洗、字段映射、血缘分析这些工作。对于那些信息化基础比较复杂的大中型企业，尤其是需要同时对接国产数据库、国产操作系统，又想在一个平台里管好数据采集、转换、同步、服务化的，选它比较稳。对那些数据量上了 TB 甚至 PB 级，还希望一套平台把实时和离线都管住的企业来说，SeaTunnel 的灵活性和扩展能力是它的核心价值。
83900编辑于 2025-08-12
来自专栏技术杂记
ETL (Extract-Transform-Load) with Kiba（4）
2.3.0 :020 > ap row { :a => "b" } => nil 2.3.0 :021 > 最后运行的结果正如预期 ---- 数据有效性检查为了防止源数据的格式变动或异常造成ETL 3 Gemfile dependencies, 4 gems now installed. field #{field} - #{row.inspect}" end end row end end [root@h102 kiba]# vim convert-csv.etl [root@h102 kiba]# cat convert-csv.etl require_relative 'common' # read from source CSV file source invoice_number # show details of row contents show_me [root@h102 kiba]# bundle exec kiba convert-csv.etl
58430发布于 2021-10-18
来自专栏技术杂记
ETL (Extract-Transform-Load) with Kiba（4）
因为我们的数据都符合预期，所以没有报出异常，现在故意修改一下源数据将第二条数据的价格删除，然后再运行ETL脚本 [root@h102 kiba]# vim commandes.csv [root@ 2015;10,96;FA1986 7/3/2015;;FA1987 8/3/2015;6,41;FA1988 [root@h102 kiba]# bundle exec kiba convert-csv.etl 、destination 的定义和应用，其实还有 pre_process 和 post_process 可以定义，它们分别是在 ETL 处理第一行数据之前执行的代码块和 ETL 处理完成最后一行数据之后执行的代码块 bundle exec kiba convert-csv.etl vim common.rb vim commandes.csv vim convert-csv.etl bundle exec kiba convert-csv.etl vim Gemfile vim commandes.csv cat orders.csv ---- 原文地址
70920发布于 2021-10-18
来自专栏架构之巅
ETL
据统计，数据量每2～3年时间就会成倍增长，这些数据蕴含着巨大的商业价值，而企业所关注的通常只占在总数据量的2%～4%左右。而ETL则是主要的一个技术手段。如何正确选择ETL工具？如何正确应用ETL？　　实现ETL，首先要实现ETL转换的过程。数据模型：标准定义数据　　合理的业务模型设计对ETL至关重要。数据仓库是企业唯一、真实、可靠的综合数据平台。 ETL体系结构　　下图为ETL体系结构，它体现了主流ETL产品框架的主要组成部分。
7.2K32发布于 2020-11-09
来自专栏流川疯编写程序的艺术
大数据ETL实践探索（4）---- 搜索神器Elastic search
大数据ETL 系列文章简介本系列文章主要针对ETL大数据处理这一典型场景，基于python语言使用Oracle、aws、Elastic search 、Spark 相关组件进行一些基本的数据导入导出实战本地文件上传至aws es spark dataframe录入ElasticSearch 等典型数据ETL功能的探索。系列文章： 1.大数据ETL实践探索（1）---- python 与oracle数据库导入导出 2.大数据ETL实践探索（2）---- python 与aws 交互 3.大数据ETL实践探索（3） ---- pyspark 之大数据ETL利器 4.大数据ETL实践探索（4）---- 之搜索神器elastic search 5.使用python对数据库，云平台，oracle，aws，es导入导出实战 6.aws ec2 配置ftp----使用vsftp 7.浅谈pandas，pyspark 的大数据ETL实践经验本地文件导入aws Elastic search 网络配置修改访问策略，设置本地电脑的公网
1.5K30发布于 2019-01-18
来自专栏ET
2023最值得推荐的4款免费ETL工具
（4）批处理加载和流式加载：批处理加载适用于大规模数据处理，而流式加载适用于需要实时数据分析的场景。 (AirByte的链接器界面) (数据同步监控界面) ETLCloud可以实现实时数据同步、离线数据处理、流程全面监控于一体的国产数据集成平台，相比其他国外ETL工具有着更易上手的特点，ETLCloud 下面我们来简单说一下它的优缺点：优点：（1）强大的数据支持功能：可对接数据库、上层通用协议、消息队列、文件、平台系统、应用等类型的数据源，为企业提供一套完整的数据集成和分析解决方案。（3）提供WEB直观的可视化配置界面，有统一的运维平台，是一款本土化自研数据集成产品。（4）社区免费版本，有大量的用户群体，技术文档全面，具有丰富的组件市场快速实现与SASS应用的打通。使用界面图：流程设计：（流程设计界面）(任务监控运行界面)4.DataXDataX是阿里开源的一个异构数据源离线同步工具。
6.6K50编辑于 2023-09-19
来自专栏etl
国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本
该产品由etl-engine引擎和etl-designer云端设计器及etl-crontab调度组成。 etl-engine引擎负责解析ETL配置文件并执行ETL任务； etl-designer云端设计器通过拖拉拽的方式生成etl-engine引擎可识别的ETL任务配置文件； etl-crontab调度设计器负责按时间周期执行指定的 ETL任务，及查询ETL任务执行日志功能。图片图片图片图片应用场景异构系统数据交换传统行业各业务系统数据相对独立，随着信息平台一体化、数据中台及大数据时代的推进，要求各业务系统数据相互融合，业务资源共享。跨平台直接编译成二进制文件，支持跨平台执行（windows、linux、mac），只需要一个可执行文件和一个配置文件就可以运行，无需其它依赖。
2.4K20编辑于 2023-04-02
来自专栏Albert陈凯
Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL
离线数据分析平台实战——260用户数据ETL ETL目标解析我们收集的日志数据，将解析后的数据保存到hbase中。 ETL存储 etl的结果存储到hbase中，由于考虑到不同事件有不同的数据格式，所以我们将最终etl的结果保存到hbase中，我们使用单family的数据格式， rowkey的生产模式我们采用编写mapper类和runner类添加环境变量文件，core-site.xml hbase-site.xml log4j.properties 根据不同的运行情况，修改源码将修改后的源码放到代码中。 4. input) { Matcher matcher = null; boolean result = false; String regex = "[0-9]{4}
1.2K60发布于 2018-04-08
来自专栏TASKCTL技术交流讨论
数据仓库ETL管理平台TASKCTL调度计划控制原理
表达式例子 “* * *”: 表示每天可执行，缺省就是 * * * “0 6,12 *”: 表示每年 6 月月末、12 月月末可执行 “-1 * 1,4”: 表示每周一、四可执行 “2,4-10 1,2 *”: 表示 1,2 月的 2 号以及 4 到 10 号可执行执行计划应用案例以下通过代码举例说明执行计划的应用以上计划按自然日期确定。表示每年 1、4、7、9 月，每 1、15 日可以执行。以上计划按逻辑日期workdate 参数日期确定。表示每年 1、4、7、9 月，每 1、15 日可以执行。
1.5K20编辑于 2022-05-10
来自专栏大数据进阶
flink etl
以反映记录在不同时间的内容 CREATE TEMPORARY TABLE currency_rates ( `currency_code` STRING, `eur_rate` DECIMAL(6,4)
1.5K40发布于 2021-07-14
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。基于E阶段数据集中到数据平台，我们通过范式来实现数据的建模，目前应用比较广的是多维建模，通过维度和事实构建数据的关系。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。数据平台工程师，主要职责是构建数据工具，搭建数据处理的环境体系，需要基于业务场景构建数据同步工具，自动报表系统，数据api工具等等。数仓开发工程师，主要工作是构建数据的组织和管理，构建数仓体系。
2.6K50编辑于 2022-05-05
部署及使用 etl crontab 和 etl engine
(环境配置文件，使用etl_crontab必须) etllog_mysql.sql (日志表结构文件，使用etl_crontab必须) etl_crontab.exe (管理端，用于配置etl任务、配置调度定期执行etl_engine、查看日志等功能) etl_engine.exe (ETL引擎，用于解析执行ETL任务，必须) engineFile 引擎文件存放位置（默认配置 d:/etl_crontab/etl_engine.exe） confDir etl任务配置文件所在目录（默认配置d:/etl_crontab 4、启动etl_crontab（管理端）执行以下命令： etl_crontab.exe -fileUrl conf.cron etl_crontab.exe运行后 5、执行etl_engine（根据实际情况使用） 1）由etl_crontab调度负责调用etl_engine执行，不需要人为干预。
71410编辑于 2024-12-30
来自专栏etl
ETL 是什么 ETL 工具有哪些 ETL 数据交换系统
ETL重要性ETL是实现商务智能(Business Intelligence,BI)的核心。一般情况下,ETL会花费整个BI项目三分之一的时间，因此ETL设计得好坏直接影响BI项目的成败。 ETL工具有哪些datastage （收费）最专业的ETL工具， 2005年被IBM收购，目前发展到11.7版本。 etl-engine （免费）用go语言实现的ETL工具，轻量级引擎、跨平台（windows，linux，unix，mac）、可嵌入go语言脚本并解析执行，方便集成到各种项目中参考资料 [资源下载]( https://github.com/hw2499/etl-engine/releases) [etl-engine使用手册](https://github.com/hw2499/etl-engine ) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA%A6) [嵌入脚本开发
2.9K10编辑于 2023-02-01
来自专栏数据科学与人工智能
【ETL工程】大数据技术核心之ETL
4. 网络架构、数据中心、运维的挑战：随着每天创建的数据量爆炸性的增长，就数据保存来说，我们能改进的技术却不大，而数据丢失的可能性却不断增加。数据挖掘：关联规则分析、分类、聚类 4. 模型预测：预测模型、机器学习、建模仿真存储： 1. 结构化数据：海量数据的查询、统计、更新等操作效率低 2. 流计算：twitter的storm和yahoo的S4 大数据与云计算： 1. 云计算的模式是业务模式，本质是数据处理技术 2. 数据是资产，云为数据资产提供存储、访问和计算 3. 大数据平台架构：我想这幅架构图，对大数据处理的人来说，应该不是很陌生。 IaaS：基础设施即服务。基于Internet的服务（如存储和数据库）。 PaaS：平台即服务。有人写FTP的程序，可以用bat，可以用ETL工具，可以用其他的方式，总之要准确，而且方便调用和控制。 3. 有人设计数据模型，包括在1之后导出的结构，还有ODS和DWH中的表结构。 4.
3.7K100发布于 2018-02-27
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。基于E阶段数据集中到数据平台，我们通过范式来实现数据的建模，目前应用比较广的是多维建模，通过维度和事实构建数据的关系。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。数据平台工程师，主要职责是构建数据工具，搭建数据处理的环境体系，需要基于业务场景构建数据同步工具，自动报表系统，数据api工具等等。数仓开发工程师，主要工作是构建数据的组织和管理，构建数仓体系。
1.5K30编辑于 2022-06-21
来自专栏Hadoop数据仓库
Kettle构建Hadoop ETL实践（一）：ETL与Kettle
4. 数据装载 ETL的最后步骤是把转换后的数据装载进目标数据仓库。（2）平台独立一个ETL工具应该能在任何平台上甚至是不同平台的组合上运行。（4）设计灵活性一个ETL工具应该留给开发人员足够的自由度来使用，而不能通过一种固定的方式限制用户的创造力和设计的需求。ETL工具可以分为基于过程的和基于映射的。完全跨平台 Kettle是基于Java的解决方案，因此天然继承了Java跨平台性。这样只要有合适的JVM存在，转换或作业就能运行在任何环境和平台之上，真正做到与平台无关。以我个人的经验而言，只要是和关系数据库打交道，很多情况ETL通过SQL就能搞定。
6.4K79发布于 2020-08-17
来自专栏TASKCTL技术交流讨论
这些常用ETL批量调度平台框架组件，你都知道几个？
but it also provides features not present in Quartz (such as multiple job stores). 1.2 任务调度框架 cron4j cron4j 是一个Java的任务调度框架,类似于UNIX系统下的crontab. 使用示例: import it.sauronsoftware.cron4j.Scheduler; public class TestScheduler { public static void main 项目规模：适用于中小型ETL项目 ETL工具环境：TASKCTL由于采用任务插件驱动机制，因此，可支持各种存储过程、各种脚本、以及诸如Datastage\Informatica\kettle等各种ETL (三) 主要创新无数据库设计：国内首款专业无数据库调度技术平台。插件机制：业界唯一通过具有统一应用接口的插件来扩展任务类型的技术平台。
1.6K40发布于 2021-01-06
来自专栏技术杂记
ETL CSV to Elasticsearch
192.168.56.208/24 brd 192.168.56.255 scope global enp0s8 valid_lft forever preferred_lft forever 4: GPG key 0x352C64E5: Userid : "Fedora EPEL (7) <epel@fedoraproject.org>" Fingerprint: 91e9 7d7c 4a5e pretty=true green open .kibana FEw09koKTymzBRmFlyCThA 1 0 4 0 20kb 20kb [root@much sf_script]# 编写脚本 [ record): for i in record: record[i]=str(record[i]).encode('utf-8') return record def etl_csv_to_es es.indices.flush(index=[indexName]) return (True,count) #main if __name__ == "__main__": res,num = etl_csv_to_es
2.9K30发布于 2021-08-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

ETL是什么_ETL平台

大数据平台架构+ETL

国内有哪些ETL工具?4款好用的国产ETL工具推荐

ETL (Extract-Transform-Load) with Kiba（4）

ETL (Extract-Transform-Load) with Kiba（4）

ETL

大数据ETL实践探索（4）---- 搜索神器Elastic search

2023最值得推荐的4款免费ETL工具

国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本

Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL

数据仓库ETL管理平台TASKCTL调度计划控制原理

flink etl

谈谈ETL

部署及使用 etl crontab 和 etl engine

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

【ETL工程】大数据技术核心之ETL

谈谈ETL

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

这些常用ETL批量调度平台框架组件，你都知道几个？

ETL CSV to Elasticsearch

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ETL是什么_ETL平台

大数据平台架构+ETL

国内有哪些ETL工具?4款好用的国产ETL工具推荐

ETL (Extract-Transform-Load) with Kiba（4）

ETL (Extract-Transform-Load) with Kiba（4）

ETL

大数据ETL实践探索（4）---- 搜索神器Elastic search

2023最值得推荐的4款免费ETL工具

国产ETL etl-engine 可视化 轻量级 跨平台 支持动态解析GO语言脚本

Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL

数据仓库ETL管理平台TASKCTL调度计划控制原理

flink etl

谈谈ETL

部署 及 使用 etl crontab 和 etl engine

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

【ETL工程】大数据技术核心之ETL

谈谈ETL

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

这些常用ETL批量调度平台框架组件，你都知道几个？

ETL CSV to Elasticsearch

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本

部署及使用 etl crontab 和 etl engine