首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >统计+计算机科学=数据科学?

统计+计算机科学=数据科学?
EN

Data Science用户
提问于 2014-07-22 08:39:33
回答 3查看 2.3K关注 0票数 11

我想成为一名数据科学家。我学习了应用统计学(精算科学),所以我有一个很好的统计背景(回归、随机过程、时间序列等等)。但现在,我要攻读智能系统的计算机科学硕士学位。

这是我的学习计划:

  • 机器学习
  • 高级机器学习
  • 数据挖掘
  • 模糊逻辑
  • 推荐系统
  • 分布式数据系统
  • 云计算
  • 知识发现
  • 商业智能
  • 信息检索
  • 文本挖掘

最后,凭借我所有的统计和计算机科学知识,我能称自己为数据科学家吗?或者我错了吗?

谢谢你的回答。

EN

回答 3

Data Science用户

回答已采纳

发布于 2014-07-22 09:03:49

我认为你是在正确的轨道上成为一名专家数据科学家。最近,我回答了相关的问题关于数据科学的堆栈交换 (请注意我在这里提到的定义,因为它本质上回答了您的问题,以及实践软件工程和应用知识解决现实世界问题的方面)。我希望你能发现所有这些有用的东西。祝你事业好运!

票数 1
EN

Data Science用户

发布于 2014-07-22 21:12:08

这取决于你想要进入什么样的“数据科学”。对于基本的分析和报告统计当然会有帮助,但是对于机器学习和人工智能,你需要更多的技能

  • 概率论--你必须有一个纯粹概率的坚实背景,这样你才能将任何问题分解成概率原则,不管以前是否见过。统计对于已经解决的问题有很大帮助,但是新的和未解决的问题需要对概率有深入的理解,这样你才能设计出合适的技术。
  • 信息论--这(相对于统计学而言)是一个相当新的领域(尽管仍有几十年的历史),最重要的工作是香农,但在文学中更重要和经常被忽视的是霍布森的工作,它证明了Kullback-莱布勒发散是真正抓住“信息度量”概念的唯一数学定义。现在,人工智能的基础是能够量化信息。建议阅读“统计力学中的概念”-亚瑟霍布森(非常昂贵的书,只有在大学图书馆)。
  • 复杂性理论--许多数据科学家面临的一个大问题是,他们的算法没有规模,或者在大数据上运行非常长的时间,这是没有坚实的复杂性理论背景的。以PCA为例,许多人最喜欢回答的面试问题是“如何减少我们数据集中的特征数量”,但是即使你告诉候选人“数据集真的很大”,他们仍然提出了各种形式的PCA,即O(n^3)。如果你想脱颖而出,你想要自己解决每一个问题,而不是抛出一些教科书解决方案很久以前设计的大数据是如此时髦的事情。要做到这一点,您需要了解运行的时间,不仅在理论上,而且在实际中--因此,如何使用一组计算机来分发算法,或者哪种数据结构占用的内存更少。
  • 沟通技巧-数据科学的一个很大的部分是理解商业。无论是发明由数据科学驱动的产品,还是提供数据科学驱动的业务洞察力,能够与项目经理、产品经理、技术团队和其他数据科学家进行良好的沟通都是非常重要的。你可以有一个很棒的想法,比如一个很棒的人工智能解决方案,但是如果你不能有效地(a)告诉你为什么会赚钱,(b)让你的同事相信它会起作用,(c)向技术人员解释你如何需要他们的帮助来建立它,那么它就不会完成。
票数 9
EN

Data Science用户

发布于 2014-07-22 21:24:33

数据科学家(对我来说)是个大术语。我认为数据科学家能够熟练地使用数据挖掘、机器学习、模式分类和统计等领域的技术。

然而,这些术语是交织在一起的:机器学习与模式分类联系在一起,在数据中发现模式时,数据挖掘也是重叠的。所有的技术都有其基本的统计原则。我总是把它想象成一个有一个巨大交集的Venn图。

计算机科学也与所有这些领域有关。我想说,你需要“数据科学”技术来做计算机科学研究,但是计算机科学知识并不一定隐含在“数据科学”中。然而,编程技能--我认为编程和计算机科学是不同的职业,编程更多地是解决问题的工具--对于处理数据和进行数据分析也很重要。

你有一个非常好的学习计划,这一切都是有意义的。但我不确定你是否“想”称自己为“数据科学家”,我的印象是,“数据科学家”是一个含糊不清的术语,可能意味着一切,也可能毫无意义。我想表达的是,你最终会成为一个更“专业”的人,而不仅仅是一个数据科学家。

票数 6
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/808

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档