文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用Apache只流文件的一部分

问如何使用Apache只流文件的一部分
EN

Stack Overflow用户

提问于 2018-06-28 08:16:15

回答 1查看 496关注 0票数 1

我试图在Python中使用星火流和Spark。

我有一个文件是不断编辑的，每增加几行随机N秒。

这个文件可以是JSON、XML、CSV或TXT，甚至是SQL表:我完全可以为我的情况选择最好的解决方案。

我有一定数量的字段，大约4-5个。以这张桌子为例：

+-------+------+-------+--------------------+ 
| event |  id  | alert |      datetime      |
+-------+------+-------+--------------------+
| reg   |  1   | def1  | 06.06.17-17.24.30  |
+-------+------+-------+--------------------+
| alt   |  2   | def2  | 06.06.17-17.25.11  |
+-------+------+-------+--------------------+
| mot   |  3   | def5  | 06.06.17-17.26.01  |
+-------+------+-------+--------------------+
| mot   |  4   | def5  | 06.06.17-17.26.01  |
+-------+------+-------+--------------------+

我想和星火流一起流，只有新的线路。因此，如果我添加了两个新行，那么下一次我希望只流这两行而不是整个文件(已经流了)。

此外，我希望在每次找到新行时，对整个文件进行筛选或计算Spark查询。例如，只有当事件"mot"在10分钟内出现两次时，我才想选择它，而且每次文件更改和新数据到达时都必须重新执行该查询。

星火流和Spark能处理这些情况吗？又是如何做到的？

python

apache-spark

pyspark

apache-spark-sql

spark-streaming

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-28 08:52:37

它不支持文件来源火花

将写入目录中的文件作为数据流读取。支持的文件格式有文本、csv、json、orc、parquet。有关更最新的列表，请参阅DataStreamReader接口的文档，并支持每种文件格式的选项。注意，文件必须原子地放置在给定的目录中，在大多数文件系统中，这可以通过文件移动操作来实现。

对于遗留流也是如此(注意这个2.2文档，但是实现没有改变)

必须通过原子移动或将文件重命名为数据目录，从而在dataDirectory中创建文件。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51077948

复制

相似问题

问如何使用Apache只流文件的一部分
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Apache只流文件的一部分EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Apache只流文件的一部分
EN