首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用Apache只流文件的一部分

如何使用Apache只流文件的一部分
EN

Stack Overflow用户
提问于 2018-06-28 08:16:15
回答 1查看 496关注 0票数 1

我试图在Python中使用星火流和Spark。

我有一个文件是不断编辑的,每增加几行随机N秒。

这个文件可以是JSON、XML、CSV或TXT,甚至是SQL表:我完全可以为我的情况选择最好的解决方案。

我有一定数量的字段,大约4-5个。以这张桌子为例:

代码语言:javascript
复制
+-------+------+-------+--------------------+ 
| event |  id  | alert |      datetime      |
+-------+------+-------+--------------------+
| reg   |  1   | def1  | 06.06.17-17.24.30  |
+-------+------+-------+--------------------+
| alt   |  2   | def2  | 06.06.17-17.25.11  |
+-------+------+-------+--------------------+
| mot   |  3   | def5  | 06.06.17-17.26.01  |
+-------+------+-------+--------------------+
| mot   |  4   | def5  | 06.06.17-17.26.01  |
+-------+------+-------+--------------------+

我想和星火流一起流,只有新的线路。因此,如果我添加了两个新行,那么下一次我希望只流这两行而不是整个文件(已经流了)。

此外,我希望在每次找到新行时,对整个文件进行筛选或计算Spark查询。例如,只有当事件"mot"在10分钟内出现两次时,我才想选择它,而且每次文件更改和新数据到达时都必须重新执行该查询。

星火流和Spark能处理这些情况吗?又是如何做到的?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-28 08:52:37

它不支持文件来源火花

将写入目录中的文件作为数据流读取。支持的文件格式有文本、csv、json、orc、parquet。有关更最新的列表,请参阅DataStreamReader接口的文档,并支持每种文件格式的选项。注意,文件必须原子地放置在给定的目录中,在大多数文件系统中,这可以通过文件移动操作来实现。

对于遗留流也是如此(注意这个2.2文档,但是实现没有改变)

必须通过原子移动或将文件重命名为数据目录,从而在dataDirectory中创建文件。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51077948

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档