首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何定义探索数据的步骤?

如何定义探索数据的步骤?
EN

Data Science用户
提问于 2016-07-03 07:21:29
回答 2查看 137关注 0票数 2

我爱上了数据科学,我花了很多时间研究它。一个常见的数据科学工作流程似乎是:

  1. 构造问题
  2. 收集数据
  3. 清理数据
  4. 数据方面的工作
  5. 报告结果

当涉及到数据的工作时,我很难把这些点连接起来。我知道第四步是乐趣发生的地方,但我不知道从哪里开始。在处理数据时,采取了哪些步骤?我需要找到中心趋势还是标准差?需要机器学习吗?

Ps:我知道这些都是宽泛的问题,所以请在你自己的专业知识范围内回答。

EN

回答 2

Data Science用户

回答已采纳

发布于 2016-07-03 09:56:19

至于使用数据取决于一个人的教育,专业知识,目标和最喜欢的工具,我会回答它在我的狭窄范围-并试图保持您的跟踪。

  • 框架问题是一个重要的起点,很多人忽视了这一点。尽管这只是个开始,但这应该会导致第一批探索数据的策略。
    1. 将“我想做什么”翻译成“实现它所需要的隐含信息”。
    2. 给定你需要的信息,找出你的方法(把它分解成任务和子任务)和相应的数据来提取它(特定的任务意味着特定的信号(S):结构化数据,图片,电影,声音,文本……)
    3. 除了1.和2.,您应该对将要处理的数据有更清晰的了解,从而了解您可能使用的工具(NLP、图像处理、时间序列、.)。

  • 现在,收集数据变得更容易了,因为它是前一项任务所暗示的。但是,在下面的图表中对您的数据进行分类,以了解如何根据您的个人权衡开始:
  1. 直接数据是那些可以很容易获得的数据。间接是那些需要一些预处理(废弃网站,裁剪图像,计数点击次数,.)
  2. 使用的简单性/复杂性取决于数据:一般来说,数组中的结构化数据更容易处理这些图像。
  3. 点的大小是当你完成这些数据时所获得的奖励,涉及到你的整个项目。
  • 探索和清理数据:这里有不同程度的复杂性。我通常从清理数据的标准过程开始(丢失值的平均值/中位数、规范化和需要时的中心位置)。同时,我开始深入研究数据,通过获取值的直方图、时间序列平均值的演变、文本的单词频率、.这是特定的任务,但是在这里进行探索是为了给您提供有关数据的提示。一旦检查,你应该成熟你的清洁过程。
  • 数据处理:就像你说的,有趣的部分来了。您可以选择您最喜欢的工具,或者通过寻找新的概念(作为未来优秀的数据科学家)来提高您的技能来处理您的数据。你不知道该从哪里开始的原因之一可能是你在之前的点点滴滴上走得太快了--暗示你要做什么还不清楚。回到他们身边,把这个过程写在纸上,直到你清楚地识别出你需要的输入和输出。同样,一般来说,它涉及以下内容:
    1. 降维(特别是对于图像)和特征设计(一个热编码器,浮动或ints,序号或基数范畴,.)
    2. 通过调整超参数来选择您的估计器/模型
    3. 使用验证方法的培训(交叉验证,排除一个,.)
    4. 测试和改进您的结果

  • 报告结果。正如这里所提到的,这并不像听起来那么容易。如果这是为了你自己,有一个完整的项目,从零开始,是一个好的回报。此外,在测试模型时,您可能还记得自己的分数,以及如何改进它(哪个超参数、哪个模型、.)。如果这是一个被广泛讨论的话题,你可以在著名的数据集上与世界顶级团队进行比较。最后,如果是雇主的话,我建议在讨论这个问题之前先开始讨论--时间和麻烦都一样。
票数 2
EN

Data Science用户

发布于 2016-07-03 08:47:43

这是一个很好的框架来解决你的问题。据我所知,它有多个答案。我会给你我所关心的那个。

在清理数据之后,或者更确切地说,在清理数据时,我们必须清楚前面的任务和我们的结果。数据方面的工作主要遵循以下步骤:

  1. 特征检测
  2. 使用上述特性进行培训(有许多机器学习/深度学习模型可以做到这一点),比如分类(这取决于任务)
  3. 如果需要,检查经过培训的验证测试模型,然后检查测试集,这些特性取决于数据集。标准差或寻找中心倾向并不总是一个标准。在大多数情况下,需要机器学习来对数据集进行培训。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12564

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档