我使用的是具有增量加载功能的平面文件数据源,根据加载的方式,我看到了不同的性能。我有3个数据集( d1、d2、d3},其中d1和d2大小相同,d3是3倍大。我正在一台内存为16 am的机器上进行以下测试:
另一方面,如果我只加载一个d1+d2+d3,总时间是5m29s,没有内存问题。
在执行增量加载和单次加载时,这仅仅是内存开销的问题,还是应该更好地管理性能?
发布于 2016-05-13 05:44:18
增量负载已经实现了对实时的支持,并且它的逻辑与普通负载不同。
额外的数据被预加载到内存中,这就是为什么它需要更多的内存。在此预加载期间,模式仍然可用,一旦完全预加载新数据并完成第一次质量检查,模式将被写入锁定并完成实际加载。这允许将架构锁定几毫秒。
增量负载适用于实时、“少量”的附加数据,而不是真正适用于您的场景。
慢时间不是因为你的内存不足(很多GC)?
希望这能有所帮助。
PS:如果您需要额外的支持,请直接联系支持。
https://stackoverflow.com/questions/37196658
复制相似问题