我试图在Python中使用星火流和Spark。
我有一个文件是不断编辑的,每增加几行随机N秒。
这个文件可以是JSON、XML、CSV或TXT,甚至是SQL表:我完全可以为我的情况选择最好的解决方案。
我有一定数量的字段,大约4-5个。以这张桌子为例:
+-------+------+-------+--------------------+
| event | id | alert | datetime |
+-------+------+-------+--------------------+
| reg | 1 | def1 | 06.06.17-17.24.30 |
+-------+------+-------+--------------------+
| alt | 2 | def2 | 06.06.17-17.25.11 |
+-------+------+-------+--------------------+
| mot | 3 | def5 | 06.06.17-17.26.01 |
+-------+------+-------+--------------------+
| mot | 4 | def5 | 06.06.17-17.26.01 |
+-------+------+-------+--------------------+我想和星火流一起流,只有新的线路。因此,如果我添加了两个新行,那么下一次我希望只流这两行而不是整个文件(已经流了)。
此外,我希望在每次找到新行时,对整个文件进行筛选或计算Spark查询。例如,只有当事件"mot"在10分钟内出现两次时,我才想选择它,而且每次文件更改和新数据到达时都必须重新执行该查询。
星火流和Spark能处理这些情况吗?又是如何做到的?
https://stackoverflow.com/questions/51077948
复制相似问题