我即将开始一项工作,我将在其中工作的大型数据集,并预计将发现趋势,等等。我已经找到了很多资源,在哪里学习ML和其他艰苦的技能,并认为我是(半)在这方面的能力。
我想知道,作为一名数据科学家,是否有特定的软技能是有用的。你希望自己知道的事情是什么?
虽然Kaggle在学习上非常有用,但它也提出了明确的目标。如何处理数据集,但没有明确的目标?
如果范围太广,我可以想出更具体的问题。
发布于 2016-05-31 16:35:40
我认为在数据科学领域有很多重要的软技能需要考虑。
以下是其中一些:
关于你的第二个问题:
目标必须明确地从产品所有者那里得到,或者从较少的数学目标中导出。例如,您需要根据某些特性来预测列车到达。他们希望模型能在10分钟的误差范围内预测尽可能多的时间。这是相对明确的。
有时候,它不太清楚,他们可能会说,我们需要它尽可能准确。然后,您将不得不决定优化什么,在某些情况下,这只是最小化MSE,但在其他情况下,其他事情可能对您的情况更有意义。通常,从隐含的目标和更多的经验你会变得更好的东西,这是明确的。隐含的和明确的目标都来自于与产品所有者的明确沟通。
发布于 2016-06-01 00:05:28
“如何处理数据集,但没有明确的目标?”
这会很普遍的。
除了上面的建议之外,要理解你所处的业务和你的直接客户的目标是至关重要的。通常,您需要了解使他们比他们更好地使用数据的具体问题。提供数据和来自内部或外部客户的不明确目标是非常常见的--通常您的任务是提供一个可以用数据实现的目标,并解决客户的实际业务问题。需要大量的横向思考才能使数据结果与业务解决方案相匹配。
我将以上总结为:“定义目标太重要了(而且可能太难了!)不能留给客户(单独)”。
在机器学习环境中,learning是一种通过循环迭代来解决这个问题的方法,这样就可以在与客户讨论时使用额外的数据理解来更好地理解原来的问题。因此,例如,他们可能会指出一个不明确的目标,在你做了一些EDA之后的第二次讨论会使它变得更清晰一些。当您稍后生成一个工作良好但目标不太正确的模型时,您将再次接近真正的业务目标。
换句话说,不要对任务的模糊性感到太不安。期待遇到一个真空,并填补它为你的优势。
这是一个轻微的横向变化,但是六西格玛方法试图用DMAIC系统在不同的上下文中解决这个问题(“D”表示“定义”,在“客户的声音”方面),因此很可能在六西格玛上下文的资源中收集到一些提示(例如,您可以与客户一起进行练习,帮助他们更清楚地表达您想要的东西)。
https://datascience.stackexchange.com/questions/12003
复制相似问题