搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
ETL是什么_ETL平台
据统计，数据量每经过2-3年时间就会成倍增长，这些数据蕴含着巨大的商业价值，而企业所关注的通常只占总数据量的2%~4%左右。 1、数据抽取数据抽取指的是从不同的网络、不同的操作平台、不同的数据库和数据格式、不同的应用中抽取数据的过程。目标源可能包括ERP、CRM和其他企业系统，以及来自第三方源的数据。整个操作过程往往要跨网络、跨操作平台。 ---- 2、数据清洗处理规范不符合要求的数据主要有不完整数据（缺失值）、错误数据（异常值）、重复数据、不同类型需归一化处理数据。（2）警告发送 ETL出错了，不仅要写ETL出错日志而且要向系统管理员发送警告，发送警告的方式有多种，常用的就是给系统管理员发送邮件，并附上错误信息，便于管理员排查。
2.7K31编辑于 2022-09-20
来自专栏卡尼慕
大数据平台架构+ETL
ETL是将业务系统的数据经过抽取，清洗转换之后加载到数据仓库的过程，目的是将企业中的额分散的，零乱的，标准不统一的数据整合到一起，为企业决策提供分析依据。ETL是BI项目中重要的一个环节。 2、错误的数据：格式错误，日期越界，或者多了一个空格等。 3、重复的数据：重复数据记录的所有字段都要去重。数据转换：不一致的数据转换。统一编码。 ETL的实现方法： 1、借助ETL工具。 2、SQL方法实现。 3、ETL工具与SQL相结合。工具降低难度，但缺少灵活性。SQL灵活但编码复杂，因此结合两者。 2 大数据平台架构 ? 首先，对于做大数据开发而言，平台的监控与报警和平台管理不归我们管，主要是给运维人员做的事情。我们要做的就是中间的事情。然后来看看数据基础平台。接着看数据应用平台。元数据管理。这边的元数据要存储到关系型数据库中。作业平台管理，就是任务调度。交互分析就关系到sql语句。多维分析主要是对数据的维度分析，如按年分析，按月分析，按周分析等。
2.4K21发布于 2019-09-09
来自专栏技术杂记
Forklift ETL 基础（一）（2）
forklift wrapper 脚本 [root@h102 ~]# cat /usr/local/rvm/gems/ruby-2.3.0/gems/forklift_etl-1.2.2/bin/forklift /lib/forklift.rb" [root@h102 bin]# ruby x /usr/local/rvm/gems/ruby-2.3.0/gems/forklift_etl-1.2.2/bin/ /lib/forklift.rb [root@h102 bin]# ll /usr/local/rvm/gems/ruby-2.3.0/gems/forklift_etl-1.2.2/bin/.. lib/forklift.rb -rwxr-xr-x 1 root rvm 651 Aug 9 15:12 /usr/local/rvm/gems/ruby-2.3.0/gems/forklift_etl x ll /usr/local/rvm/gems/ruby-2.3.0/gems/forklift_etl-1.2.2/bin/..
43220发布于 2021-10-18
来自专栏技术杂记
ETL (Extract-Transform-Load) with Kiba（2）
创建一个库文件我们采用尽量模块化的思想，将可重用的代码集中放到一个库文件中(common.rb)以便于维护，核心逻辑放到主文件中(convert-csv.etl) 加入对 CSV 源的定义 [root 7/3/2015;10,96;FA1986 7/3/2015;85,11;FA1987 8/3/2015;6,41;FA1988 [root@h102 kiba]# vim convert-csv.etl [root@h102 kiba]# cat convert-csv.etl require_relative 'common' # read from source CSV file source Gemfile Gemfile.lock [root@h102 kiba]# vim convert-csv.etl [root@h102 kiba]# cat convert-csv.etl row end end [root@h102 kiba]# vim convert-csv.etl [root@h102 kiba]# cat convert-csv.etl require_relative
49530发布于 2021-10-18
来自专栏架构之巅
ETL
据统计，数据量每2～3年时间就会成倍增长，这些数据蕴含着巨大的商业价值，而企业所关注的通常只占在总数据量的2%～4%左右。而ETL则是主要的一个技术手段。如何正确选择ETL工具？如何正确应用ETL？　　实现ETL，首先要实现ETL转换的过程。数据模型：标准定义数据　　合理的业务模型设计对ETL至关重要。数据仓库是企业唯一、真实、可靠的综合数据平台。从某种意义上说，业务数据主要用于支持业务系统应用的数据，而元数据则是企业信息门户、客户关系管理、数据仓库、决策支持和B2B等新型应用所不可或缺的内容。　　
7.1K32发布于 2020-11-09
来自专栏etl
国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本
该产品由etl-engine引擎和etl-designer云端设计器及etl-crontab调度组成。 etl-engine引擎负责解析ETL配置文件并执行ETL任务； etl-designer云端设计器通过拖拉拽的方式生成etl-engine引擎可识别的ETL任务配置文件； etl-crontab调度设计器负责按时间周期执行指定的 ETL任务，及查询ETL任务执行日志功能。图片图片图片图片应用场景异构系统数据交换传统行业各业务系统数据相对独立，随着信息平台一体化、数据中台及大数据时代的推进，要求各业务系统数据相互融合，业务资源共享。跨平台直接编译成二进制文件，支持跨平台执行（windows、linux、mac），只需要一个可执行文件和一个配置文件就可以运行，无需其它依赖。
2.3K20编辑于 2023-04-02
来自专栏Albert陈凯
Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL
离线数据分析平台实战——260用户数据ETL ETL目标解析我们收集的日志数据，将解析后的数据保存到hbase中。在etl过程中，我们需要将我们收集得到的数据进行处理，包括ip地址解析、userAgent解析、服务器时间解析等。 ETL存储 etl的结果存储到hbase中，由于考虑到不同事件有不同的数据格式，所以我们将最终etl的结果保存到hbase中，我们使用单family的数据格式， rowkey的生产模式我们采用 Class com.beifeng.etl.mr.ald.AnalyserLogDataMapper not found 解决方案：引入EJob.java文件，然后再runner -[0-9]{2}"; if (input !
1.2K60发布于 2018-04-08
来自专栏大数据进阶
flink etl
CREATE TEMPORARY TABLE transactions ( `id` STRING, `currency_code` STRING, `total` DECIMAL(10,2) CurrentPopulation WHERE state = States.state ORDER BY population DESC LIMIT 2 ); 2.函数表关联 SELECT data, name, age FROM userTab, LATERAL TABLE(splitTVF(data)) AS T(name, age)
1.4K40发布于 2021-07-14
来自专栏TASKCTL技术交流讨论
数据仓库ETL管理平台TASKCTL调度计划控制原理
表达式例子 “* * *”: 表示每天可执行，缺省就是 * * * “0 6,12 *”: 表示每年 6 月月末、12 月月末可执行 “-1 * 1,4”: 表示每周一、四可执行 “2,4-10 1,2 *”: 表示 1,2 月的 2 号以及 4 到 10 号可执行执行计划应用案例以下通过代码举例说明执行计划的应用以上计划按自然日期确定。如下图所示：上图表明调度服务控制 agent3 部署 test2.sh 程序。对于负载均衡应用，实际上与代码设计无关，只与部署相关。其结构如下：由上可知，condition 表达式主要以 if-else 结构为基础，通过布尔运算表达式运算结构决定处理动作，布尔表达式运算结果为真，执行‘处理动作 1’；反之，执行‘处理动作 2’ 说明：该例表明如果自定义程序 myexe（并带两个参数 1 与 2）的执行结果是 5 时，执行当前作业，否则继续等待。
1.4K20编辑于 2022-05-10
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。基于E阶段数据集中到数据平台，我们通过范式来实现数据的建模，目前应用比较广的是多维建模，通过维度和事实构建数据的关系。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。数据平台工程师，主要职责是构建数据工具，搭建数据处理的环境体系，需要基于业务场景构建数据同步工具，自动报表系统，数据api工具等等。数仓开发工程师，主要工作是构建数据的组织和管理，构建数仓体系。
2.5K50编辑于 2022-05-05
来自专栏流川疯编写程序的艺术
大数据ETL实践探索（2）---- python 与aws 交互
---- 大数据ETL 系列文章简介本系列文章主要针对ETL大数据处理这一典型场景，基于python语言使用Oracle、aws、Elastic search 、Spark 相关组件进行一些基本的数据导入导出实战系列文章： 1.大数据ETL实践探索（1）---- python 与oracle数据库导入导出 2.大数据ETL实践探索（2）---- python 与aws 交互 3.大数据ETL实践探索（3） ---- pyspark 之大数据ETL利器 4.大数据ETL实践探索（4）---- 之搜索神器elastic search 5.使用python对数据库，云平台，oracle，aws，es导入导出实战 6.aws ec2 配置ftp----使用vsftp ---- 本文主要介绍，使用python与典型云平台aws 进行交互的部分过程和经典代码简介与实例 boto3 有了这个包，基本所有和aws like below: aws s3 --region cn-north-1 cp LOG1.csv s3://xxxx/csv/ aws s3 --region cn-north-1 cp LOG2.
1.8K10发布于 2019-01-17
来自专栏etl
ETL 是什么 ETL 工具有哪些 ETL 数据交换系统
ETL重要性ETL是实现商务智能(Business Intelligence,BI)的核心。一般情况下,ETL会花费整个BI项目三分之一的时间，因此ETL设计得好坏直接影响BI项目的成败。 ETL工具有哪些datastage （收费）最专业的ETL工具， 2005年被IBM收购，目前发展到11.7版本。 etl-engine （免费）用go语言实现的ETL工具，轻量级引擎、跨平台（windows，linux，unix，mac）、可嵌入go语言脚本并解析执行，方便集成到各种项目中参考资料 [资源下载]( https://github.com/hw2499/etl-engine/releases) [etl-engine使用手册](https://github.com/hw2499/etl-engine ) [etl-crontab使用手册](https://github.com/hw2499/etl-engine/wiki/etl-crontab%E8%B0%83%E5%BA%A6) [嵌入脚本开发
2.8K10编辑于 2023-02-01
部署及使用 etl crontab 和 etl engine
(管理端，用于配置etl任务、配置调度定期执行etl_engine、查看日志等功能) etl_engine.exe (ETL引擎，用于解析执行ETL任务，必须) readme_v1.2.7.txt (说明文件,非必须) etl-engine.pdf (说明文件,非必须)2、准备用于存储日志的数据库将etllog_mysql.sql engineFile 引擎文件存放位置（默认配置 d:/etl_crontab/etl_engine.exe） confDir etl任务配置文件所在目录（默认配置d:/etl_crontab 2）独立执行etl_engine 执行以下命令： etl_engine.exe -fileUrl d:/example.grf -logLevel info 6、查看相关日志（均可通过管理端查看） 1）读写成功与失败的日志信息存储在数据库中 2）etl_engine执行过程中的日志输出到etl_engine.log文件中 3）etl_crontab执行过程中的日志输出到
55110编辑于 2024-12-30
来自专栏Hadoop数据仓库
Kettle构建Hadoop ETL实践（八-2）：维度表技术
'节点2', 1),(3, '节点3', 1),(4, '节点4', 1), (5, '节点5', 2),(6, '节点6', 2),(7, '节点7', 2),(8, '节点8 因此，输入数据仓库的数据通常是当前层次树的时间点快照，这就需要由ETL过程来确定发生了哪些变化，以便正确记录历史信息。为了检测出过时的父—子关系，必须通过孩子键进行查询，然后将父亲作为结果返回。 select t0.c_0 c_0,t1.c_name c_0_name,t0.c_1 c_1,t2.c_name c_1_name, t0.c_2 c_2,t3.c_name c_2 在开发ETL系统时，ETL开发小组可以向业务用户询问有关忽略这些标志的必要问题，如果它们是微不足道的。但是这样的方案通常立即就被否决了，因为有人偶尔还需要它们。处理这些新增的维度表和外键需要大量修改数据装载脚本，还会增加出错的机会，同时会给ETL的开发、维护、测试过程带来很大的工作量。
2.6K31发布于 2020-11-12
来自专栏数据科学与人工智能
【ETL工程】大数据技术核心之ETL
2. 经典数据库技术并没有考虑数据的多类别（variety）、SQL（结构化数据查询语言），在设计的一开始是没有考虑到非结构化数据的存储问题。 3. 因此这类应用通过建模，运行1-2天获得结果依然没什么问题。但实时处理的要求，是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。 4. 大数据平台架构：我想这幅架构图，对大数据处理的人来说，应该不是很陌生。 IaaS：基础设施即服务。基于Internet的服务（如存储和数据库）。 PaaS：平台即服务。 2. 有人写FTP的程序，可以用bat，可以用ETL工具，可以用其他的方式，总之要准确，而且方便调用和控制。 3. 有人设计数据模型，包括在1之后导出的结构，还有ODS和DWH中的表结构。 4. 2.
3.6K100发布于 2018-02-27
来自专栏数据指象
谈谈ETL
ETL绝不是三个单词直译这么简单，三个数据环节紧密连接构成体系庞大、技术复杂度的数据生态系统。 ETL有三个难题：一是，数据的集成效率是评估抽取能力的主要考点；二是，数据的高类聚低耦合的组织结构是转换的难点；三是，数据的信息化智能化是加载的终极目标。基于E阶段数据集中到数据平台，我们通过范式来实现数据的建模，目前应用比较广的是多维建模，通过维度和事实构建数据的关系。四，数据角色来自ETL分工围绕ETL 的不同阶段，工程师按岗位分工也是不同的。数据平台工程师，主要职责是构建数据工具，搭建数据处理的环境体系，需要基于业务场景构建数据同步工具，自动报表系统，数据api工具等等。数仓开发工程师，主要工作是构建数据的组织和管理，构建数仓体系。
1.4K30编辑于 2022-06-21
来自专栏TASKCTL技术交流讨论
这些常用ETL批量调度平台框架组件，你都知道几个？
scheduler.stop(); } } 1.3 conclusion: not web-based application need to program just only scheduler 2. 项目规模：适用于中小型ETL项目 ETL工具环境：TASKCTL由于采用任务插件驱动机制，因此，可支持各种存储过程、各种脚本、以及诸如Datastage\Informatica\kettle等各种ETL 扩展功能网络扩展：可实现单机部署、多服务部署、远程代理部署、集群部署等多种网络部署应用扩展：技术平台设计有专门的应用API接口，可实现更多的调度应用。 (三) 主要创新无数据库设计：国内首款专业无数据库调度技术平台。插件机制：业界唯一通过具有统一应用接口的插件来扩展任务类型的技术平台。流程设计代码开发设计理念：调度领域唯一通过文本代码设计流程的调度技术平台。具有语法代码特征的文本代码设计与传统记录表格对话框方式相比，操作更方便、设计更灵活、可读性更强。
1.5K40发布于 2021-01-06
来自专栏Hadoop数据仓库
Kettle构建Hadoop ETL实践（一）：ETL与Kettle
开发ETL系统的方法 ETL系统一般都会从多个应用系统整合数据，典型的情况是这些应用系统运行在不同的软硬件平台上，由不同的厂商所支持，各个系统的开发团队也是彼此独立的，随之而来的数据多样性增加了 2. ETL工具的功能下面描述一般ETL工具必备的通用功能，以及Kettle如何提供这些功能。（2）平台独立一个ETL工具应该能在任何平台上甚至是不同平台的组合上运行。完全跨平台 Kettle是基于Java的解决方案，因此天然继承了Java跨平台性。这样只要有合适的JVM存在，转换或作业就能运行在任何环境和平台之上，真正做到与平台无关。以我个人的经验而言，只要是和关系数据库打交道，很多情况ETL通过SQL就能搞定。
6.1K79发布于 2020-08-17
来自专栏技术杂记
ETL CSV to Elasticsearch
FEw09koKTymzBRmFlyCThA 1 0 4 0 20kb 20kb [root@much sf_script]# 编写脚本 [root@much sf_script]# vim csv2es2 .py [root@much sf_script]# cat csv2es2.py #! record): for i in record: record[i]=str(record[i]).encode('utf-8') return record def etl_csv_to_es es.indices.flush(index=[indexName]) return (True,count) #main if __name__ == "__main__": res,num = etl_csv_to_es /csv2es2.py -h Usage: csv2es2.py <-i index> <-t type> [options] arg Options: -h, --help
2.8K30发布于 2021-08-11
来自专栏ApacheHudi
万字长文揭秘如何衡量云数据平台 ETL 性价比
无论团队是深度投入还是对云数据平台的成本控制越来越感兴趣，了解 ETL 性价比对于成功都至关重要。这种转变还影响了下游 ETL 在数据平台内处理数据的预期方式。毕竟，如果 ETL 管道每天或每天处理几次数据，那么近乎实时地摄取数据并不是很有用。更新和删除现在是现代数据平台的主流考虑因素。数据湖已经从仅追加文件存储发展到可变表，Apache Iceberg™ 等开放表格式将更新处理纳入其 V2 规范。 2. 增量加载器：加载器组件实施了使用 AWS EMR、Databricks 和 Snowflake 等流行的云数据平台将数据加载到各种开放表格式的最佳实践。这避免了加载基准测试时的常见陷阱，即用户在 1-2 轮写入后停止，即使他们的 ETL 管道在现实世界中日复一日地持续运行。
59920编辑于 2025-05-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

ETL是什么_ETL平台

大数据平台架构+ETL

Forklift ETL 基础（一）（2）

ETL (Extract-Transform-Load) with Kiba（2）

ETL

国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本

Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL

flink etl

数据仓库ETL管理平台TASKCTL调度计划控制原理

谈谈ETL

大数据ETL实践探索（2）---- python 与aws 交互

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

部署及使用 etl crontab 和 etl engine

Kettle构建Hadoop ETL实践（八-2）：维度表技术

【ETL工程】大数据技术核心之ETL

谈谈ETL

这些常用ETL批量调度平台框架组件，你都知道几个？

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

ETL CSV to Elasticsearch

万字长文揭秘如何衡量云数据平台 ETL 性价比

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ETL是什么_ETL平台

大数据平台架构+ETL

Forklift ETL 基础（一）（2）

ETL (Extract-Transform-Load) with Kiba（2）

ETL

国产ETL etl-engine 可视化 轻量级 跨平台 支持动态解析GO语言脚本

Hadoop数据分析平台实战——260用户数据ETL离线数据分析平台实战——260用户数据ETL

flink etl

数据仓库ETL管理平台TASKCTL调度计划控制原理

谈谈ETL

大数据ETL实践探索（2）---- python 与aws 交互

ETL 是什么 ETL 工具有哪些 ETL 数据交换系统

部署 及 使用 etl crontab 和 etl engine

Kettle构建Hadoop ETL实践（八-2）：维度表技术

【ETL工程】大数据技术核心之ETL

谈谈ETL

这些常用ETL批量调度平台框架组件，你都知道几个？

Kettle构建Hadoop ETL实践（一）：ETL与Kettle

ETL CSV to Elasticsearch

万字长文揭秘如何衡量云数据平台 ETL 性价比

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

国产ETL etl-engine 可视化轻量级跨平台支持动态解析GO语言脚本

部署及使用 etl crontab 和 etl engine