我正在为一家初创公司工作,他们从不同的公司获得带有客户信息的excel文件。我们目前没有任何ETL工具,因为工作是手动处理,将数据转换为所需的结构并加载到CRM系统中。我的计划是将这些excel文件加载到数据库中,并将CRM复制到数据库中,然后进行一些模糊映射。您能推荐一个轻量级的ETL工具来应用一些规则来清理数据并比较我们现有的客户数据吗?
谢谢,mc
发布于 2020-09-24 18:47:33
获取Excel提要当然是非常常见的,您需要一个良好的过程来摄取和验证它们,特别是因为它们通常是手动创建或调整的,这会导致频繁的数据和格式问题。雪上加霜的是,Excel对数据类型的概念非常模糊,经常把扳手扔到工作中去。
在可能的情况下,将您的数据源转换为其他格式(JSON、CSV、数据库提取)。这需要上游工作,但也需要解决提要问题,因此切换到更好的格式(和defining the feed well!)对双方来说,回报都相当快。
Process Incoming Files Example描述了一种通用方法,用于可靠地处理传入文件的多个提要,对成功和失败的文件进行处理和存档。这个示例使用了我公司的actionETL跨平台ETLETL库,但我以前也在其他.NET工具中使用过相同的方法。
绘制出所有当前和即将到来的数据源和目的地,并查看哪些工具适合使用。使用您实际的ETL和需求进行Try before you buy。预计ETL数据集成将是一个持续的项目,因为提要和需求永远不会停止变化和增长。
干杯,克里斯蒂安
https://stackoverflow.com/questions/63895819
复制相似问题