在两个无界流之间有一个简单的区间连接。这在小的工作负载下工作,但是对于更大的(生产环境)它不再起作用。通过观察输出,我可以看到Flink SQL作业触发器/emitts记录只在扫描完整个主题(并因此读取到内存中?)之后,但我希望一旦找到ingle匹配,作业就会触发记录。因为在我的生产环境中,这项工作经不起将整个表读入内存。
我正在创建的区间联接非常类似于这里提供的示例:https://github.com/ververica/flink-sql-cookbook/blob/main/joins/02_interval_joins/02_interval_joins.md
SELECT
o.id AS order_id,
o.order_time,
s.shipment_time,
TIMESTAMPDIFF(DAY,o.order_time,s.shipment_time) AS day_diff
FROM orders o
JOIN shipments s ON o.id = s.order_id
WHERE
o.order_time BETWEEN s.shipment_time - INTERVAL '3' DAY AND s.shipment_time;除了我的时间间隔尽可能小(几秒钟)。我在Flink SQL源表上还有5秒的水印。
我如何指示Flink发送/触发记录,一旦它与连接进行了一次“匹配”?由于当前的工作是在发出任何记录之前扫描整个表,这在我的数据卷中是不可行的。根据我的理解,它应该只需要扫描直到间隔(时间窗口)并检查它,一旦间隔被传递,记录就会被发出/触发。
另外,通过观察集群,我可以看到水印正在移动,但没有发出任何记录。
发布于 2022-06-01 03:51:13
可能是一些数据被放弃了,你可以检查你的事件时间是否合理。在这个场景中,您可以尝试使用regular join并设置一个3天的ttl(table.state.ttl = 3 days),它可以确保每个加入的数据的输出。
https://stackoverflow.com/questions/72450153
复制相似问题