这可能不是要问的问题类型,而只是想知道其他人在大型企业环境中实现机器学习算法时需要考虑哪些因素。
我的目标之一是研究行业机器学习解决方案,可以根据我的公司的具体需要。我是我的团队中唯一有数学背景的人,而且以前读过一些机器学习算法的背景资料,我的任务是解释/比较这个行业的机器学习解决方案。从我在谷歌上收集到的信息来看,似乎:
机器学习和预测分析并不完全一样,所以当一个公司提供预测分析软件和机器学习软件时,有什么本质上的区别呢?(例如IBM预测分析相对于Skytree Server)
很多流行的术语经常被纠缠在一起,特别是关于大数据、Hadoop、机器学习等等。有人能澄清这些术语之间的区别吗?根据我所了解到的,我认为概念上的分离是这样的:
在实现解决方案时,大多数公司是从解决方案公司聘请顾问来帮助实现这些算法,还是大多数算法都是预先构建的,而且任何数据分析员都可以使用它们?或者我们需要一个数据科学家团队,即使有软件,运行算法和理解输出?
我知道这是一个很长的问题,但任何信息都会有帮助。我很难成为唯一一个远程了解这件事的人,所以我很想听听更有经验的技术人员要说些什么。
发布于 2013-04-20 06:51:29
在回答你的问题时,你很难不知道你有多少数据,你的公司需要什么。这将有助于缩小哪些类型的解决方案可以满足您的需要。其中,可能会有开源解决方案(可能是Mahout)、可视化解决方案,以及各种帮助您管理数据的解决方案。
发布于 2017-03-16 09:09:50
关于大数据/Hadoop/ML:大数据是一个术语,它定义了需要处理的数据的本质。大多数情况下,你可以定义大数据相对于“普通”的东西,所谓的3Vs -体积,变化和速度。定义“大数据所需数量”的阈值不是科学定义的,而是更多的可行性考虑:如果您认为数据量会造成维护常规DB (MySql等)的大量开销,那么您可能会考虑大数据解决方案。Hadoop正是为处理大数据而设计的最常用的工具。
机器学习是从统计学和计算机科学发展而来的数据科学的一个子领域。这样做的目的是让机器学习而不用显式编程。简单地说,学习方法的目标是概括过去的数据,以预测新的数据。大数据和机器学习是一起提到的,因为ML技术的本质是需要数据才能学习。工业上有大数据的趋势,大数据的本质要求输入大量的ML算法来学习(非结构化的稀疏数据)。
大多数公司雇用数据科学家来处理这一任务,因为它需要大量的统计、计算机科学、算法等方面的知识,而这是常规数据分析人员所不具备的。大多数数据科学家的工作不是“运行现成的算法”,甚至在您开始考虑算法之前,就有大量的数据准备和静态分析。你不需要事先雇佣一个团队,但这是一个功能,可以随着时间的推移逐步增长,根据需要。
发布于 2017-04-10 14:32:59
关于问题的第三部分:
对于学习一些新的和强大的东西,总是有一个初始的学习曲线。这同样适用于使用机器学习的数据建模。如果您受到预算等约束的限制,则需要您花一些时间学习算法功能的基本原理,然后再学习它的实现。但是,如果您受时间限制,您可能需要雇用一组数据科学家/机器学习工程师。但是,从长远来看,如果您开始了解一些机器学习,以便您可以轻松地与您的团队协作,那么它总是有帮助的。
https://stackoverflow.com/questions/16089013
复制相似问题