我正在从事一个大数据项目,并有几台旧的on服务器运行多种操作系统(Ubuntu、CentOS、Windows 2012、Windows 10)。我想要分布式存储解决方案的一个主要原因是,我正在以非常快的速度收集大量数据,并且试图将所有数据写入单个磁盘会使磁盘不堪重负,这将导致数据丢失。数据收集算法是100% Python。最后,我想使用这些数据在TensorFlow中训练机器学习模型。
我对分布式数据存储的选择感到不知所措,而且在过去的几年里,这个空间似乎发展得很快。
Hadoop似乎一直是大数据的首选解决方案,但它看起来很难配置,特别是在Windows上,而且在Python中似乎也无法正常工作。Databricks看起来很有趣,但我不清楚它在分布式数据存储中是否与Hadoop一样好(或者它是否是Databricks的一种功能)。
我非常感谢对工具和框架的任何建议(我对付费和免费工具开放),以及对上面关于Hadoop和Databricks的理解的任何更正。
https://softwarerecs.stackexchange.com/questions/60891
复制相似问题