在过去的两年里,我一直是一家政府公司的全职数据科学家。作为组织中唯一的数据科学团队,我们的工作是数据科学和机器学习工程的混合体。我们需要为组织的业务问题研究和开发ml解决方案,并在生产环境中实现它们。问题是我觉得自己在知识上停滞不前,我不知道该怎么做。让我解释一下。
我的专业是计算机科学(B.Sc)。尽管我在主修期间修了一些ai/ml课程,但我还是会把我大部分的数据科学教育贡献给“与Scikit一起动手机器学习-学习、Keras和TensorFlow”一书。在过去两年的组织工作中,我在这个领域获得了很多经验:我成功地为该组织的几个业务问题带来了一些公平的解决方案,但远非完美。
但是,唉,我仍然觉得我错过了困扰我前进的一大块谜团。我觉得自己被困在中间数据科学家的初学者中间。我知道基本的毫升模型及其基本的直觉和算法。我知道深入学习的基础知识,以及如何在keras/tensorflow/py手电筒中实现它们。我了解CNN、RNN和其他基本的深度学习架构。我对熊猫、numpy和所有其他常见的数据预处理\wrangling\可视化库相当多产。然而,尽管如此,我还是无法摆脱这样一种感觉:我错过了一些重要的东西。这将使我以前研究的ml问题有所不同,并使专业的数据科学家与我区别开来。有时候,由于缺少一个更好的术语,我觉得自己是一个“堆栈溢出”的数据科学家。我的意思是,对于每一个问题,都是一样的--我对数据进行了一些预处理(不是太花哨,也不是很先进),我尝试了几个基本的ml模型(通常是随机森林\梯度增强最有效),然后我尝试着通过深入学习方法来获得更好的结果。最后,我将进行一些超参数优化,并开始在生产中实现该模型的过程。
我知道主要的嫌疑人是我的数学/统计学知识,但这是真的吗?很明显,我知道模型背后的基本数学(在这一点上我并不认为它是非常重要的),我也知道统计学中的基本概念。在日常工作中,改善这两个领域是否真的会提高我作为一名数据科学家的水平?因为老实说,我不认为这是答案。我不想攻读计算机科学硕士学位。我正在寻找更多有用的书籍,在线课程,或其他可能有帮助的东西。
总结一下:我如何“逃离”这个初学者的领域,成为一个新的数据科学家/毫升工程师?除了为每个问题做一些基本的和明显的事情之外,它还能为表带来一些独特的东西。
我非常感谢你对此提出任何建议。提前谢谢。
发布于 2021-05-30 22:39:01
恐怕你的问题很有可能会结束,但以下是一些想法:
会把专业的数据科学家和我区分开来
专业的数据科学家是以数据科学为生的人,所以你一定属于俱乐部,恭喜!
严肃地说,显然,你至少有一些冒充综合征的症状:你的水平是合适的,你能够做好你的工作,但你觉得自己不够。论学院通常的建议(在学术界非常普遍)是处理心理方面的问题,可以选择使用一些专业的帮助。
现在关于“真正的专业数据科学家”的神话:数据科学已经变得广泛和专业化。对于数据科学的范围甚至没有一个明确的定义,更不用说对数据科学家应该具备哪些知识/技能的共同理解了。此外,场的变化非常快,所以人类不可能知道一切。
人们通常推荐的是获得尽可能多的经验,尤其是在你的情况下,因为你似乎已经很好地了解了这个理论。你可以选择一个你想深入研究的话题,然后再去做。
为了记录在案,我发现在DataScienceSE上浏览和回答问题是一个非常好的方法,可以跟上、发现我不知道的事情,并取得进展。为什么回答是有用的你问?因为它迫使我(1)理解这个问题,并考虑如何解决这个问题。一个智能ML设计练习,它总是有益于实践。(2)用清楚的方式解释事情,这是一项很好的练习,可以检查我脑子里的东西有多清楚。
发布于 2021-05-31 07:01:04
仅仅是做另一门在线课程,在线阅读一些东西,或者添加一些统计知识来填补你的自我感知的空白,并不能解决任何问题。一方面,几乎所有的在线课程都只教授基础知识,可能不会为你添加任何东西。另一方面,额外的统计、知识或诸如自动驾驶汽车之类的花哨东西,在实际应用中往往是有限的。
我的一般建议是从目标开始。也就是说,首先考虑一下你的职业和个人发展道路,然后找到支持这条道路的正确基石。一位导师或好的职业教练(*)可以帮上忙。同样,我也会和你的雇主讨论你的发展计划。
尽管如此,总的来说,我认为挖掘相关领域的最新研究论文或参与数据科学竞赛是2条(并非相互排斥的)潜在途径。然而,请注意,目前的研究可能与您的工作有限的实际相关性,但它使您的速度与先进的方法。虽然竞争有一个强大的特色工程-和模型-重点,他们是高度实用的,可以增加一些东西,你的投资组合/简历。
(*)当心教练市场上充斥着许多未受过良好训练的业余选手。
发布于 2021-05-31 07:51:51
我同意以前的答案,并补充说--作为一个专业的数据科学家,或者说是一个专业的科学家--能够以一种有效的方式带来结果。在这个范围内,它可能意味着几件事-
这些东西可能伴随着经验而来,也可以从别人的经历中学到。
https://datascience.stackexchange.com/questions/95057
复制相似问题