首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >确保数据质量的工具

确保数据质量的工具
EN

Software Recommendation用户
提问于 2022-11-07 17:04:50
回答 1查看 22关注 0票数 1

我在GCP中创建了一个ETL,我从一个桶中处理XML文件,并将它们加载到bigquery。

有时我们会发现有些文件没有被处理,或者它们不在bigquery数据集中。

我创建了一个包含有关已处理文件的元数据的度量表,但是,我想要自动化检查(例如,检查存储中的所有文件是否都存在于度量表中.)

编辑

简而言之,我想要的是能够在输入ETL之前比较源环境和目标环境/比较数据,以及退出ETL后的数据,告诉您我没有忘记任何事情,我可以编写一些脚本来完成这个任务,但是我想知道是否已经创建了一些东西。

EN

回答 1

Software Recommendation用户

发布于 2022-12-02 08:34:22

在GCP中,有两个工具可以帮助您组织管道、清理数据和在发生错误时发送警报:

用GCP开一张票,他们可能会建议你什么是最适合你的解决方案。

编辑:您要查找的内容称为模糊查找

模糊查找转换执行数据清理任务,例如标准化数据、校正数据和提供缺失值。

并存在于SSIS中。

票数 0
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/84470

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档