所以这是一个比较普遍的问题。我是一家初创公司的数据分析师。我的主要流程包括获取客户拥有的现有客户数据,并将其清理/标准化以适应我们的平台,这是我们自注册过程的一部分。我们团队的一名成员从他们正在转换的系统中导出他们的数据,或者,如果他们在内部跟踪数据,我们会收到他们用来跟踪数据的Excel日志。它总是采用不同的格式,并且需要广泛的清理(平均1分钟/条)。我们通常是一个大表(.xlxs格式),在清理之后,将它拆分为四个.csv文件;我们在我们的平台上以四个表的形式加载它们。
我觉得我已经很好地优化了流程,包括流程步骤和excel函数(if、concat、text-to-column等)的清理。我有VBA和SQL的初级和中级技能,并且刚刚接触到R的皮毛;令人沮丧的是,我知道有可能自动化这个过程,但我只是不知道从哪里开始。如果任何人有这样的经验,代码,链接到一篇文章/另一个线程,或只是一些一般的方向将非常感谢。请在您认为需要的地方进行澄清。谢谢。
发布于 2017-10-23 14:24:44
这在Excel中是很难做到的。如果你有时间,你可以试试Optimus,一个用Python和Pyspark编写的Data Cleansing库(你不需要知道spark)。这是https://hioptimus.com的网页。
您可以使用它创建数据管道,我建议您这样做,尝试泛化您的流程,并要求客户端提供更多的结构化数据传递方式。
好消息是你不需要大数据来运行Optimus,如果有一天你有了大数据,同样的代码也会工作。
有关更多信息,请查看文档:
http://optimus-ironmussa.readthedocs.io/en/latest/
如果你有疑问,请告诉我!
https://stackoverflow.com/questions/46481527
复制相似问题