首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache和ETL过程

Apache和ETL过程
EN

Stack Overflow用户
提问于 2022-03-23 11:57:39
回答 1查看 184关注 0票数 1

所述程序如下:

  • 通过规则手动转换巨..csv的文件(使用MS或excel等软件)&通过ftp共享它们
  • 脚本(通常用Perl或Python编写),这些脚本基本上转换数据,为其他进程做好准备。
  • API从文件或其他源源进行批处理读取&更新它们相应的数据模型。
  • Springboot部署使用(或滥用)定期从文件或其他来源收集和聚合数据。

鉴于这些问题/有待改进的领域:

  • Standardization:我希望(就其意义而言),提出一个统一的强大工具来处理这些类型的(某种大的)数据转换工作流。
  • 提高了流程的抽象级别(与上面的点相关),:我前面提到的许多“任务/作业”是由使用它们的团队看到的,以一种非常技术性的低级别任务的方式。我相信,对这些流程/流程有一个更高层次的视图,突出它们的业务含义,将有助于更好地记录这些流程,并有助于建立一种无处不在的语言,不同的涉众可以明确地引用和考虑这些语言。
  • IO瓶颈和资源利用(技术):由于某些内存或网络瓶颈,这些进程中的一些确实会更频繁地失败,这是由于某些内存或网络瓶颈导致的(或需要很长时间才能完成)。虽然硬件显然有其局限性,但在许多这些数据转换脚本中,资源利用率似乎并不是一个优先事项。

Dataflow模型,特别是Apache实现与Flink或Google一起作为后端运行程序,是否为这些“平凡”的主题提供了一个经过验证的解决方案?互联网上的材料主要集中在讨论统一的流/批处理模型,并且通常还包括更高级的特性,如流/事件窗口/水印/后期事件/等等,这些功能看起来确实非常优雅和有希望,但我对工具的成熟和社区的长期支持有一些关注。

EN

回答 1

Stack Overflow用户

发布于 2022-03-26 00:10:05

很难对这么广泛的问题给出一个具体的答案,但我要说,是的,Beam/Dataflow是一个处理这类事情的工具。尽管文档集中于“高级”功能,如窗口和流,许多人正在使用它来进行更“平凡”的ETL。对于有关工具成熟度和社区的问题,您可以考虑像Forrester报告的常说数据流这样的源代码。

您还可以考虑将其与其他技术(如阿弗尔/作曲家 )配对。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71586805

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档