“数据科学家”和“机器学习工程师”有什么区别?
在过去的一年左右的时间里,“机器学习工程师”开始大量出现在工作岗位上。这在旧金山尤为明显,可以说,“数据科学家”一词就是在旧金山诞生的。有一次,“数据科学家”超过了“统计学家”,我想知道现在“数据科学家”是否正在慢慢地发生同样的事情。
在这个网站上,职业建议被列为非主题话题,但我认为我的问题是高度相关的,因为我问的是定义;考虑到我自己的职业轨迹或个人情况,我不是在问建议,就像其他非主题问题一样。
这个问题是主题,因为有一天它可能会对这个网站的许多用户产生重大影响。事实上,如果“统计学家”和“数据科学家”的进化没有发生,这个堆栈交换站点可能就不存在了。从这个意义上说,这是一个相当相关、可能存在的问题。
发布于 2018-02-20 08:57:07
问得好。事实上,在这个问题上有很多混淆,主要是因为两者都是相当新的工作。但是,如果我们关注语义,工作的真正意义就会变得清晰起来。
事先比较苹果和苹果,谈论一个单一的主题,数据。机器学习及其子类型(深度学习等)是数据世界的一个方面,结合统计理论、数据采集(DAQ)、处理(可以是非机器学习驱动)、结果的解释等。
因此,作为我的解释,我将把机器学习工程师的角色扩展到数据工程师的角色。
科学是关于实验、试验和失败、理论建设、现象学理解的。工程是关于科学已经知道的工作,完善它并把它带到“现实世界”。
想想一个代理人:一个核科学家和一个核工程师之间有什么区别?
核科学家是知道原子背后的科学、它们之间的相互作用的人,也是编写允许从原子中获取能量的配方的人。
核工程师是负责把科学家的配方带到现实世界的人。所以,关于原子物理的知识是相当有限的,但是他也知道材料,建筑,经济,以及其他对建造一个合适的核电站有用的东西。
回到数据世界,这里的另一个例子是:开发卷积神经网络(Yann LeCun)的人是数据科学家,将模型部署到图像中识别人脸的人是机器学习工程师。负责整个过程的人,从数据采集到.JPG图像的配准,都是一名数据工程师。
所以,基本上,今天90%的数据科学家实际上是数据工程师或机器学习工程师,90%的职位是数据科学家真正需要的工程师。一个简单的检查:在采访中,您将被问到您在生产中部署了多少个ML模型,而不是关于您发表了多少篇关于新方法的文章。
相反,当你看到关于“机器学习工程师”的公告时,这意味着招聘人员很清楚这种区别,他们真的需要一个能够在生产中投入一些模式的人。
发布于 2018-02-20 15:14:11
在“数据科学”领域寻找工作的过程中,我认为这里有两件事发生了。首先,这些任务是新的,并且没有对各种术语的集合定义,因此没有就术语与职务说明的匹配达成共识。将其与“web developer”或“后端developer.”进行比较。这是两个相似的工作,有相当好的一致和明确的描述。
第二,很多人在招聘职位和初次面试时都不太清楚自己在招聘什么。对于雇用招聘人员为他们寻找申请者的中小型公司来说,情况尤其如此。正是这些中介人在CareerBuilder或其他论坛上发布了职务说明。这并不是说他们中的许多人不知道他们的东西,他们中的许多人对他们所代表的公司和工作场所的要求非常了解。但是,如果没有明确的术语来描述不同的具体工作,模糊的职位往往是结果。
有三个通用的部门
根据我的经验,数据科学的“工作空间”有三个大致的部门。
首先是数学和计算技术的发展,使数据科学成为可能。这包括对新机器学习方法的统计研究,这些方法的实现,以及在现实世界中使用这些方法的计算基础设施的建立。这是离客户最远的部门,也是最小的部门。大部分工作都是由大公司(谷歌、Facebook等)的学者或研究人员完成的。这是为了开发谷歌的TensorFlow,IBM的SPSS神经网络,或者任何下一个大型图形数据库。
第二部分是使用底层工具创建特定于应用程序的包,以执行任何需要进行的数据分析。雇用人员使用Python或R或其他什么工具来构建对某些数据集的分析功能。根据我的经验,这方面的许多工作都涉及到“数据洗衣”,将任何形式的原始数据转化为有用的数据。这项工作的另一个重要部分是数据库化,即如何以一种可以在所需时间线上访问数据的方式来存储数据。这项工作并不是使用工具,而是使用现有的数据库、统计数据和图形分析库来产生一些结果。
第三部门正在根据新组织的和可获取的数据进行分析。这是最面向客户的一面,取决于您的组织。你必须做出分析,商业领袖可以用来做决定。这将是这三个部门中技术含量最低的部门;由于数据科学还处于起步阶段,目前许多工作都是第二部门和第三部门的混合体。但在未来,我强烈怀疑,这两项工作之间会有更清晰的分工,人们赢得第二份工作需要的是技术、计算机科学或统计学教育,而第三份工作只需要通识教育。
一般来说,这三个人都可以称自己为“数据科学家”,但只有前两个人才能合理地将自己描述为“机器学习工程师”。
就目前而言,你必须弄清楚每一份工作需要做些什么。我现在的工作是聘请我做“分析员”,做一些机器学习的事情。但是当我们开始工作的时候,很明显公司的数据库是不够的,现在我大概90%的时间都花在数据库上了。我的机器学习公开现在只是快速运行任何似乎最合适的scikit-学习包,并拍摄csv文件给第三部门的分析师,为客户制作powerpoint演示文稿。
场在流动中。许多组织试图将数据科学决策添加到他们的过程中,但不清楚这意味着什么。这不是他们的错,很难预测未来,一项新技术的后果从来都不是很清楚。在这一领域得到更好的确立之前,许多工作本身就会像用来描述它们的术语一样模糊不清。
发布于 2018-02-20 06:33:50
完全是个人意见
当“数据科学家”一词取代“统计学家”时,它更像是听起来很酷,而不是任何重大区别。同样,“深度学习”这个词。它只是神经网络(这是另一种机器学习算法),有几个层次。没有人能解释什么时候一个特定的神经网络可以被称为DL,而不是ML,因为定义本身是模糊的。因此,“数据科学家”这个术语也是如此。
然而,随着公司在数据科学中采用DevOps思维方式,术语ML Engineer也随之发展。
这是您构建模型、部署模型以及在生产中维护它的地方。这有助于避免软件团队中的许多摩擦。
PS: DevOps是做软件的一种方式,更像是一种哲学所以,用它来命名,再次让我感到困惑。
因此,ML工程师应该知道系统工程、ML和stats的细微差别(很明显)。
一个模糊的概括是数据工程师+数据科学家= ML工程师。
话虽如此,这一领域的称谓却日益模糊,而“统计学家”一词正变得越来越重要(讽刺!)
https://datascience.stackexchange.com/questions/28006
复制相似问题