我有一个关于卡夫卡的tiered storage feature的问题。我喜欢这个特性,因为在我的例子中,它意味着我可以使用Kafka作为无限的存储空间(例如,使用gcs后端)。但是,让我们假设由于某种原因,Kafka集群被删除,并且Kafka数据丢失。
gcs/s3存储中的数据仍然有用吗?
我的意思是,我可以将旧的日志插入到新的Kafka集群中,或者它现在完全没有用了吗( to级的日志)?
顺便说一句,我知道我可以分析gcs/S3存储中的段并提取数据。但这有点老生常谈,这就是为什么我想看看我是否能找到一个干净的解决方案。
发布于 2020-10-06 04:48:20
从现在开始,如果集群或者特别是启用了分层存储的主题被删除,GCS/S3中的数据将不会被“重新加载”,如果您将其连接到另一个集群。
如果您希望保留GCS/S3中的数据,则需要将数据流式传输到未启用分层存储的新主题,或者使用kafka connect将数据独立写入到可用的格式,然后再删除数据。
我们确实计划在未来改进这个用例。
https://stackoverflow.com/questions/64204666
复制相似问题