正如我在标题中所描述的,我们特别感兴趣的是那些处理大数据-效率和稳定性-的数据,并且在工业中使用,而不是在实验或大学。谢谢!
发布于 2014-08-27 03:41:20
最近几个月我做了一些研究,我可以用Python找到更多的库、内容和活跃的社区。实际上,我正在使用它来处理ETL过程,一些采矿作业,并制作地图/减少。
发布于 2014-08-28 11:24:38
Scala是唯一以大数据为核心的真正语言。您有位于Spark上的MLLib,由于Scala具有功能,它使并行计算变得非常自然。R,Python和Matlab不适合工业生产,有些人会说Python的可怕的动态类型可以用一些特殊的构建工具来处理,但实际上它的类型不安全,没有办法解决这个问题。
https://datascience.stackexchange.com/questions/1044
复制相似问题