我有一个结构化的流式作业,它从事件中心读取,并将增量湖表作为/mytablepath写入,该表存储在Azure blob存储中。在过去两个月的生产运行中,它已经在存储中创建了大约1000个小文件,每个文件只有2-3行。
我尝试在增量湖表(Path)上运行优化命令,但即使在blob存储上文件数量没有减少,且当我在notebook中的表上运行任何查询时,它仍然显示警告“查询在包含许多小文件的增量表上,运行优化以提高性能”。
谢谢
发布于 2020-02-21 10:53:20
在运行optimize之后,您需要运行vacuum来清理小文件。
https://stackoverflow.com/questions/60320625
复制相似问题