Apache曾经被认为是数据科学家应该拥有的工具之一。在2012年至2014年左右,它在数据科学家中获得了极大的普及,并被视为与Python、R和SQL同舟共济的工具集之一。
但这些天我还没听过它的故事。事实上,谷歌的趋势也符合我的观点。的人气在2015年5月达到顶峰。
为什么Hadoop没有成为数据科学家所必需的工具之一,比如Python或R?
发布于 2017-05-30 06:22:05
我不会说Hadoop没有流行,而是说,它仍然是任何生产大数据系统的基础。
Python或R在一开始就很方便--当您只需要尝试一些东西时,但是当涉及到将其放到生产中时,Hadoop是最好的选择。它没有直接提供任何数据科学家工具,它所提供的是存储、处理数据的基础,并且可以使用Spark应用机器学习算法。
总之,我看到Hadoop在下面的上下文中使用
希望这能有所帮助。
发布于 2017-05-30 08:04:56
你在比较苹果和橘子。Hadoop是大数据平台的后端之一,Python/R是用来建立预测模型和数据管道的编程语言。Hadoop仍然可以用作数据存储,但是更健壮和更快的分布式数据存储框架越来越流行,比如Apache,因此Hadoop失去了它的魅力。
https://datascience.stackexchange.com/questions/19301
复制相似问题