在AKS运行时,我有一个关于气流的问题。
我们在AKS部署了气流,并将Azure Fileshare安装在气流舱上。我们已经为DAG文件夹使用了这个文件共享。然而,有巨大的交易(至少每5分钟20K )从气流到FileShare,这正在给我们带来大量的成本从Azure。FYI -对Azure文件共享的计费是根据交易的数量而不是我们使用的大小来完成的。
请让我知道这是否与在Fileshare中有DAG文件夹有问题?如果是的话,我们是否可以使用其他方法。尝试将托管磁盘(而不是文件共享)安装到豆荚上。但是托管磁盘的问题是,我们不能将磁盘挂载到一个以上的磁盘。
感谢你的帮助/想法。
谢谢
发布于 2021-12-29 20:16:36
我遇到了一个类似的问题,每5分钟有8k事务,只需要3个DAG。通过将file_parsing_sort_mode设置为alphabetical,每5分钟就有大约800个事务处理。
https://airflow.apache.org/docs/apache-airflow/stable/configurations-ref.html#file-parsing-sort-mode
这方面的默认设置是modified_time,这将使DAG处理器从每个循环上的文件共享中检索文件的最后修改时间。奇怪的是,这种操作甚至触发了比读操作更昂贵的写操作。
https://stackoverflow.com/questions/66682516
复制相似问题