文章/答案/技术大牛

发布

社区首页 >问答首页 >给新数据科学家的提示

问给新数据科学家的提示
EN

Data Science用户

提问于 2016-05-31 15:07:49

回答 2查看 626关注 0票数 9

我即将开始一项工作，我将在其中工作的大型数据集，并预计将发现趋势，等等。我已经找到了很多资源，在哪里学习ML和其他艰苦的技能，并认为我是(半)在这方面的能力。

我想知道，作为一名数据科学家，是否有特定的软技能是有用的。你希望自己知道的事情是什么？

虽然Kaggle在学习上非常有用，但它也提出了明确的目标。如何处理数据集，但没有明确的目标？

如果范围太广，我可以想出更具体的问题。

beginner

回答 2

Data Science用户

回答已采纳

发布于 2016-05-31 16:35:40

我认为在数据科学领域有很多重要的软技能需要考虑。

以下是其中一些：

要知道目标是什么，花很多时间在数据争论、模型、可视化和报告上，而这并不完全是为了实现特定的目标。与技术含量较低的人沟通本身就是一项技能。
与产品所有者反复迭代。继续确保你走在正确的道路上。
如果数据没有告诉他们想要告诉他们的事情--事实并非如此，那么要弄清楚为什么会发生这种情况，什么偏见可能会起作用等等。不要应用所有类型的过滤器或不断改变参数，以获得预期的结果。

关于你的第二个问题：

目标必须明确地从产品所有者那里得到，或者从较少的数学目标中导出。例如，您需要根据某些特性来预测列车到达。他们希望模型能在10分钟的误差范围内预测尽可能多的时间。这是相对明确的。

有时候，它不太清楚，他们可能会说，我们需要它尽可能准确。然后，您将不得不决定优化什么，在某些情况下，这只是最小化MSE，但在其他情况下，其他事情可能对您的情况更有意义。通常，从隐含的目标和更多的经验你会变得更好的东西，这是明确的。隐含的和明确的目标都来自于与产品所有者的明确沟通。

票数 10

Data Science用户

发布于 2016-06-01 00:05:28

“如何处理数据集，但没有明确的目标？”

这会很普遍的。

除了上面的建议之外，要理解你所处的业务和你的直接客户的目标是至关重要的。通常，您需要了解使他们比他们更好地使用数据的具体问题。提供数据和来自内部或外部客户的不明确目标是非常常见的--通常您的任务是提供一个可以用数据实现的目标，并解决客户的实际业务问题。需要大量的横向思考才能使数据结果与业务解决方案相匹配。

我将以上总结为：“定义目标太重要了(而且可能太难了！)不能留给客户(单独)”。

在机器学习环境中，learning是一种通过循环迭代来解决这个问题的方法，这样就可以在与客户讨论时使用额外的数据理解来更好地理解原来的问题。因此，例如，他们可能会指出一个不明确的目标，在你做了一些EDA之后的第二次讨论会使它变得更清晰一些。当您稍后生成一个工作良好但目标不太正确的模型时，您将再次接近真正的业务目标。

换句话说，不要对任务的模糊性感到太不安。期待遇到一个真空，并填补它为你的优势。

这是一个轻微的横向变化，但是六西格玛方法试图用DMAIC系统在不同的上下文中解决这个问题(“D”表示“定义”，在“客户的声音”方面)，因此很可能在六西格玛上下文的资源中收集到一些提示(例如，您可以与客户一起进行练习，帮助他们更清楚地表达您想要的东西)。

票数 7

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/12003

复制

相似问题

问给新数据科学家的提示
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问给新数据科学家的提示EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问给新数据科学家的提示
EN