Talend似乎提供了数据集成(包括大数据)、MDM、数据服务和ESB的独特集成。它与我为并发EAI+big数据集成问题而开发的体系结构非常吻合。其思想是利用Talend的变更数据捕获特性将事件数据从源传播到多个目标,包括应用程序和数据仓库。
这是在生产环境中完成的吗?如果是的话,加和三角是什么?谢谢。
发布于 2014-12-31 09:56:12
更改数据捕获依赖于数据库触发器在源数据库中构建对跟踪源表所做的更改的表。Talend将自动为您创建这些组件,然后使用CDC组件,您可以使用它轻松地读取所做的更改。
我有一些在批处理基础上使用此方法的经验,比如DI (数据集成)作业,在运行时检查CDC表并更新下游系统或进行任何更改,但我不确定它的工作效果如何(如果有的话),即使用Talend ESB使其更实时,因为该机制实际上只是轮询CDC表,而不是等待am事件。当然,您可以将DI作业设置为每分钟甚至几秒钟轮询,使之成为一个伪实时进程。一些RDBMS (Oracle springs )将允许您在一个事件上调用web服务,这将允许您将其用作fata服务,但我总是对这种想法感到有些不舒服。
我已经在生产中使用了一个小进程,但不是实时的,正如前面提到的,它确实依赖于能够设置触发器和创建表,并在源数据库中插入和更新数据--在某些情况下,数据库更改是严格控制的。
此时的另一个选项是将主源数据拉到影子数据库中,并使用它填充下游系统,并在阴影源中保留主源的每一行的哈希,并比较主源中每一行的运行时生成的散列和它,以使阴影主站保持最新的状态。
https://stackoverflow.com/questions/27716760
复制相似问题