我有一台有6 6GB内存的Windows7笔记本电脑。在这台笔记本电脑上安装pyspark和spark的最有效的内存/资源方法是什么?我不想在实际的大数据上工作,但小数据集是理想的,因为这只是为了学习pyspark & spark。我更喜欢最新版本的Spark。
仅供参考:我没有安装hadoop。
谢谢
发布于 2015-10-14 03:29:58
你基本上有三个选择:
Cloudera从源构建一切
当您选择从源代码构建时,让一切正常运行可能是一件痛苦的事情。你必须安装JDK,构建hadoop和spark (这两个都需要安装额外的软件来构建它们),设置一堆环境变量,然后祈祷没有搞砸任何东西。
VM很不错,特别是来自Cloudera的VM,但您经常会使用较旧版本的Spark,而且它可能会对您所描述的资源造成压力。
我会选择。
一旦你安装了docker,尝试Spark (和许多其他技术)就变得非常容易。我最喜欢的容器使用ipython或jupyter笔记本。
安装Docker:
Jupyter Notebook Python,Spark,Mesos Stack
发布于 2015-10-19 06:04:18
要记住的一件事是,您必须为VM分配一定数量的内存,而剩余的内存仍必须运行Windows。Windows 7对于32位操作系统至少需要1 GB,对于64位操作系统至少需要2 GB。因此,您最终可能只需要大约4 GB的RAM来运行VM,这并不多。
假设您是64位的,请注意,Cloudera至少需要4 GB的RAM才能运行CDH 5,但如果您想运行Cloudera Express,则需要8 GB。
从Windows运行Docker需要使用boot2docker,这会将整个虚拟机保存在内存中。它使用最小的内存(大约27MB)来运行,所以你在那里应该很好。一个比运行VirtualBox更好的解决方案!
另一个要考虑的选择是在Amazon Web Services (http://aws.amazon.com)或Google Cloud (http://cloud.google.com)上启动一台免费的机器。特别是使用后者,您可以获得免费试用额度,您可以使用这些额度来启动一台内存比AWS通常更大的机器。
https://stackoverflow.com/questions/33109989
复制相似问题