首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自动化客户端自注册的原始导出数据清理-格式始终不同

自动化客户端自注册的原始导出数据清理-格式始终不同
EN

Stack Overflow用户
提问于 2017-09-29 11:49:08
回答 1查看 66关注 0票数 0

所以这是一个比较普遍的问题。我是一家初创公司的数据分析师。我的主要流程包括获取客户拥有的现有客户数据,并将其清理/标准化以适应我们的平台,这是我们自注册过程的一部分。我们团队的一名成员从他们正在转换的系统中导出他们的数据,或者,如果他们在内部跟踪数据,我们会收到他们用来跟踪数据的Excel日志。它总是采用不同的格式,并且需要广泛的清理(平均1分钟/条)。我们通常是一个大表(.xlxs格式),在清理之后,将它拆分为四个.csv文件;我们在我们的平台上以四个表的形式加载它们。

我觉得我已经很好地优化了流程,包括流程步骤和excel函数(if、concat、text-to-column等)的清理。我有VBA和SQL的初级和中级技能,并且刚刚接触到R的皮毛;令人沮丧的是,我知道有可能自动化这个过程,但我只是不知道从哪里开始。如果任何人有这样的经验,代码,链接到一篇文章/另一个线程,或只是一些一般的方向将非常感谢。请在您认为需要的地方进行澄清。谢谢。

EN

回答 1

Stack Overflow用户

发布于 2017-10-23 14:24:44

这在Excel中是很难做到的。如果你有时间,你可以试试Optimus,一个用Python和Pyspark编写的Data Cleansing库(你不需要知道spark)。这是https://hioptimus.com的网页。

您可以使用它创建数据管道,我建议您这样做,尝试泛化您的流程,并要求客户端提供更多的结构化数据传递方式。

好消息是你不需要大数据来运行Optimus,如果有一天你有了大数据,同样的代码也会工作。

有关更多信息,请查看文档:

http://optimus-ironmussa.readthedocs.io/en/latest/

如果你有疑问,请告诉我!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46481527

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档