无需读取会导致筛选器失败的记录,这对速度有明显的好处。我看到了Spark对它的支持,但我还没有找到任何关于如何使用Scalding来做这件事的文档。
发布于 2014-08-10 23:39:20
不幸的是,在滚烫拼花中还没有对此的支持。我们在Tapad开始致力于在scalding中实现谓词支持。一旦我们得到一些有用的东西,我们就会分享它。
我们已经实现了我们自己的ParquetAvroSource,可以在拼图中读取/存储avro记录。可以使用列投影和只读列/字段。在某些情况下,使用此功能的作业仅读取输入字节的1%。
发布于 2014-12-02 22:06:46
Scalding中添加了谓词下推,但目前还没有相关文档。有关更多详细信息,请参阅scalding issue #1089
https://stackoverflow.com/questions/25105506
复制相似问题