首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于Python应用程序的混合操作系统环境中的分布式数据存储建议(Hadoop与其他)

用于Python应用程序的混合操作系统环境中的分布式数据存储建议(Hadoop与其他)
EN

Software Recommendation用户
提问于 2019-05-13 14:56:24
回答 1查看 35关注 0票数 0

我正在从事一个大数据项目,并有几台旧的on服务器运行多种操作系统(Ubuntu、CentOS、Windows 2012、Windows 10)。我想要分布式存储解决方案的一个主要原因是,我正在以非常快的速度收集大量数据,并且试图将所有数据写入单个磁盘会使磁盘不堪重负,这将导致数据丢失。数据收集算法是100% Python。最后,我想使用这些数据在TensorFlow中训练机器学习模型。

我对分布式数据存储的选择感到不知所措,而且在过去的几年里,这个空间似乎发展得很快。

Hadoop似乎一直是大数据的首选解决方案,但它看起来很难配置,特别是在Windows上,而且在Python中似乎也无法正常工作。Databricks看起来很有趣,但我不清楚它在分布式数据存储中是否与Hadoop一样好(或者它是否是Databricks的一种功能)。

我非常感谢对工具和框架的任何建议(我对付费和免费工具开放),以及对上面关于Hadoop和Databricks的理解的任何更正。

EN

回答 1

Software Recommendation用户

发布于 2019-05-13 15:07:01

PySpark亚马逊电子病历并驾齐驱,通过旋转亚马逊EC2来保存数据,可以满足您减少对配置的担忧和存储可靠性的需要。

下面是一个关于设置它的亚马逊文章。请注意,如果您想在大门外试用Amazon,您需要支付一些费用,但是在真正实现它之前,尝试它应该比较便宜。

如果你使用木星笔记本把这个读一下

票数 0
EN
页面原文内容由Software Recommendation提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwarerecs.stackexchange.com/questions/60891

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档