首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有没有办法通过http将历史数据推送到druid中?

有没有办法通过http将历史数据推送到druid中?
EN

Stack Overflow用户
提问于 2018-03-15 12:44:00
回答 2查看 500关注 0票数 1

我有一个物联网项目,并希望使用Druid作为时间序列DBMS。有时,物联网设备可能会失去网络,并在重新连接到服务器时重新传输历史数据和实时数据。我知道Druid可以通过http push/pull获取实时数据,通过http push或KIS获取历史数据,但是我找不到关于通过http push获取历史数据的文档。

有没有办法通过http推送把历史数据发送到德鲁伊?

EN

回答 2

Stack Overflow用户

发布于 2018-03-19 12:06:02

我在这里看到了一些选项:

  1. 不断将历史数据推送到相同的kafka主题(或其他流媒体来源),并根据Druid内部的消息时间戳进行拒绝。这简化了您的应用程序架构,并让druid处理过期事件,拒绝
  2. 使用批量摄取历史数据。您将历史数据推送到另一个Kafka主题,运行spark/gobblin/任何其他索引作业以将数据获取到HDFS。然后对德鲁伊进行一次批量摄取。但请记住,Druid会使用指定windowPeriod的批处理段覆盖任何实时段。因此,如果历史数据不完整,您将遇到数据丢失。为了防止这种情况,您也可以始终将实时数据注入hadoop,并定期对HDFS数据执行重复数据删除,然后将其摄取到Druid。正如您所看到的,这是一个复杂的体系结构,但这可能会导致最小的数据丢失。

如果我是你,我会简化所有数据,并像Kafka一样将所有数据发送到相同的流媒体来源。我会根据我的消息的时间戳来索引Druid中的片段,而不是基于当前时间(我相信这是默认时间)。

票数 0
EN

Stack Overflow用户

发布于 2018-05-18 21:08:17

最近发布的kafka索引服务保证只需一次摄取。

请参阅以下链接- http://druid.io/docs/latest/development/extensions-core/kafka-ingestion.html

如果你仍然想要通过http摄取,你可以签出宁静服务器。它有一些内置的处理重复项的机制。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49291749

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档