文章/答案/技术大牛

发布

社区首页 >问答首页 >数据科学家与机器学习工程师

问数据科学家与机器学习工程师
EN

Data Science用户

提问于 2018-02-20 06:15:04

回答 9查看 31.4K关注 0票数 80

“数据科学家”和“机器学习工程师”有什么区别？

在过去的一年左右的时间里，“机器学习工程师”开始大量出现在工作岗位上。这在旧金山尤为明显，可以说，“数据科学家”一词就是在旧金山诞生的。有一次，“数据科学家”超过了“统计学家”，我想知道现在“数据科学家”是否正在慢慢地发生同样的事情。

在这个网站上，职业建议被列为非主题话题，但我认为我的问题是高度相关的，因为我问的是定义；考虑到我自己的职业轨迹或个人情况，我不是在问建议，就像其他非主题问题一样。

这个问题是主题，因为有一天它可能会对这个网站的许多用户产生重大影响。事实上，如果“统计学家”和“数据科学家”的进化没有发生，这个堆栈交换站点可能就不存在了。从这个意义上说，这是一个相当相关、可能存在的问题。

machine-learning

回答 9

Data Science用户

发布于 2018-02-20 08:57:07

问得好。事实上，在这个问题上有很多混淆，主要是因为两者都是相当新的工作。但是，如果我们关注语义，工作的真正意义就会变得清晰起来。

事先比较苹果和苹果，谈论一个单一的主题，数据。机器学习及其子类型(深度学习等)是数据世界的一个方面，结合统计理论、数据采集(DAQ)、处理(可以是非机器学习驱动)、结果的解释等。

因此，作为我的解释，我将把机器学习工程师的角色扩展到数据工程师的角色。

科学是关于实验、试验和失败、理论建设、现象学理解的。工程是关于科学已经知道的工作，完善它并把它带到“现实世界”。

想想一个代理人:一个核科学家和一个核工程师之间有什么区别？

核科学家是知道原子背后的科学、它们之间的相互作用的人，也是编写允许从原子中获取能量的配方的人。

核工程师是负责把科学家的配方带到现实世界的人。所以，关于原子物理的知识是相当有限的，但是他也知道材料，建筑，经济，以及其他对建造一个合适的核电站有用的东西。

回到数据世界，这里的另一个例子是:开发卷积神经网络(Yann LeCun)的人是数据科学家，将模型部署到图像中识别人脸的人是机器学习工程师。负责整个过程的人，从数据采集到.JPG图像的配准，都是一名数据工程师。

所以，基本上，今天90%的数据科学家实际上是数据工程师或机器学习工程师，90%的职位是数据科学家真正需要的工程师。一个简单的检查:在采访中，您将被问到您在生产中部署了多少个ML模型，而不是关于您发表了多少篇关于新方法的文章。

相反，当你看到关于“机器学习工程师”的公告时，这意味着招聘人员很清楚这种区别，他们真的需要一个能够在生产中投入一些模式的人。

票数 63

Data Science用户

发布于 2018-02-20 15:14:11

这些术语很模糊，因为它们是新的

在“数据科学”领域寻找工作的过程中，我认为这里有两件事发生了。首先，这些任务是新的，并且没有对各种术语的集合定义，因此没有就术语与职务说明的匹配达成共识。将其与“web developer”或“后端developer.”进行比较。这是两个相似的工作，有相当好的一致和明确的描述。

第二，很多人在招聘职位和初次面试时都不太清楚自己在招聘什么。对于雇用招聘人员为他们寻找申请者的中小型公司来说，情况尤其如此。正是这些中介人在CareerBuilder或其他论坛上发布了职务说明。这并不是说他们中的许多人不知道他们的东西，他们中的许多人对他们所代表的公司和工作场所的要求非常了解。但是，如果没有明确的术语来描述不同的具体工作，模糊的职位往往是结果。

字段

有三个通用的部门

根据我的经验，数据科学的“工作空间”有三个大致的部门。

首先是数学和计算技术的发展，使数据科学成为可能。这包括对新机器学习方法的统计研究，这些方法的实现，以及在现实世界中使用这些方法的计算基础设施的建立。这是离客户最远的部门，也是最小的部门。大部分工作都是由大公司(谷歌、Facebook等)的学者或研究人员完成的。这是为了开发谷歌的TensorFlow，IBM的SPSS神经网络，或者任何下一个大型图形数据库。

第二部分是使用底层工具创建特定于应用程序的包，以执行任何需要进行的数据分析。雇用人员使用Python或R或其他什么工具来构建对某些数据集的分析功能。根据我的经验，这方面的许多工作都涉及到“数据洗衣”，将任何形式的原始数据转化为有用的数据。这项工作的另一个重要部分是数据库化，即如何以一种可以在所需时间线上访问数据的方式来存储数据。这项工作并不是使用工具，而是使用现有的数据库、统计数据和图形分析库来产生一些结果。

第三部门正在根据新组织的和可获取的数据进行分析。这是最面向客户的一面，取决于您的组织。你必须做出分析，商业领袖可以用来做决定。这将是这三个部门中技术含量最低的部门；由于数据科学还处于起步阶段，目前许多工作都是第二部门和第三部门的混合体。但在未来，我强烈怀疑，这两项工作之间会有更清晰的分工，人们赢得第二份工作需要的是技术、计算机科学或统计学教育，而第三份工作只需要通识教育。

一般来说，这三个人都可以称自己为“数据科学家”，但只有前两个人才能合理地将自己描述为“机器学习工程师”。

结论

就目前而言，你必须弄清楚每一份工作需要做些什么。我现在的工作是聘请我做“分析员”，做一些机器学习的事情。但是当我们开始工作的时候，很明显公司的数据库是不够的，现在我大概90%的时间都花在数据库上了。我的机器学习公开现在只是快速运行任何似乎最合适的scikit-学习包，并拍摄csv文件给第三部门的分析师，为客户制作powerpoint演示文稿。

场在流动中。许多组织试图将数据科学决策添加到他们的过程中，但不清楚这意味着什么。这不是他们的错，很难预测未来，一项新技术的后果从来都不是很清楚。在这一领域得到更好的确立之前，许多工作本身就会像用来描述它们的术语一样模糊不清。

票数 11

Data Science用户

发布于 2018-02-20 06:33:50

完全是个人意见

当“数据科学家”一词取代“统计学家”时，它更像是听起来很酷，而不是任何重大区别。同样，“深度学习”这个词。它只是神经网络(这是另一种机器学习算法)，有几个层次。没有人能解释什么时候一个特定的神经网络可以被称为DL，而不是ML，因为定义本身是模糊的。因此，“数据科学家”这个术语也是如此。

然而，随着公司在数据科学中采用DevOps思维方式，术语ML Engineer也随之发展。

数据科学的DevOps思维是什么？

这是您构建模型、部署模型以及在生产中维护它的地方。这有助于避免软件团队中的许多摩擦。

PS: DevOps是做软件的一种方式，更像是一种哲学所以，用它来命名，再次让我感到困惑。

因此，ML工程师应该知道系统工程、ML和stats的细微差别(很明显)。

一个模糊的概括是数据工程师+数据科学家= ML工程师。

话虽如此，这一领域的称谓却日益模糊，而“统计学家”一词正变得越来越重要(讽刺！)

票数 10

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/28006

复制

相似问题

问数据科学家与机器学习工程师
EN

回答 9

Data Science用户

Data Science用户

这些术语很模糊，因为它们是新的

字段

结论

Data Science用户

数据科学的DevOps思维是什么？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据科学家与机器学习工程师EN

回答 9

Data Science用户

Data Science用户

这些术语很模糊，因为它们是新的

字段

结论

Data Science用户

数据科学的DevOps思维是什么？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据科学家与机器学习工程师
EN