我在GCP中创建了一个ETL,我从一个桶中处理XML文件,并将它们加载到bigquery。
有时我们会发现有些文件没有被处理,或者它们不在bigquery数据集中。
我创建了一个包含有关已处理文件的元数据的度量表,但是,我想要自动化检查(例如,检查存储中的所有文件是否都存在于度量表中.)
简而言之,我想要的是能够在输入ETL之前比较源环境和目标环境/比较数据,以及退出ETL后的数据,告诉您我没有忘记任何事情,我可以编写一些脚本来完成这个任务,但是我想知道是否已经创建了一些东西。
https://softwarerecs.stackexchange.com/questions/84470
复制相似问题