首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在资源有限的笔记本电脑上安装学习用的pyspark & spark?

如何在资源有限的笔记本电脑上安装学习用的pyspark & spark?
EN

Stack Overflow用户
提问于 2015-10-14 02:27:21
回答 2查看 1.1K关注 0票数 1

我有一台有6 6GB内存的Windows7笔记本电脑。在这台笔记本电脑上安装pyspark和spark的最有效的内存/资源方法是什么?我不想在实际的大数据上工作,但小数据集是理想的,因为这只是为了学习pyspark & spark。我更喜欢最新版本的Spark。

仅供参考:我没有安装hadoop。

谢谢

EN

回答 2

Stack Overflow用户

发布于 2015-10-14 03:29:58

你基本上有三个选择:

Cloudera从源构建一切

  • 安装Virtualbox并使用预先构建的虚拟机(如Cloudera),然后找到合适的容器

当您选择从源代码构建时,让一切正常运行可能是一件痛苦的事情。你必须安装JDK,构建hadoop和spark (这两个都需要安装额外的软件来构建它们),设置一堆环境变量,然后祈祷没有搞砸任何东西。

VM很不错,特别是来自Cloudera的VM,但您经常会使用较旧版本的Spark,而且它可能会对您所描述的资源造成压力。

我会选择

一旦你安装了docker,尝试Spark (和许多其他技术)就变得非常容易。我最喜欢的容器使用ipython或jupyter笔记本。

安装Docker:

Jupyter Notebook Python,Spark,Mesos Stack

票数 1
EN

Stack Overflow用户

发布于 2015-10-19 06:04:18

要记住的一件事是,您必须为VM分配一定数量的内存,而剩余的内存仍必须运行Windows。Windows 7对于32位操作系统至少需要1 GB,对于64位操作系统至少需要2 GB。因此,您最终可能只需要大约4 GB的RAM来运行VM,这并不多。

假设您是64位的,请注意,Cloudera至少需要4 GB的RAM才能运行CDH 5,但如果您想运行Cloudera Express,则需要8 GB。

从Windows运行Docker需要使用boot2docker,这会将整个虚拟机保存在内存中。它使用最小的内存(大约27MB)来运行,所以你在那里应该很好。一个比运行VirtualBox更好的解决方案!

另一个要考虑的选择是在Amazon Web Services (http://aws.amazon.com)或Google Cloud (http://cloud.google.com)上启动一台免费的机器。特别是使用后者,您可以获得免费试用额度,您可以使用这些额度来启动一台内存比AWS通常更大的机器。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33109989

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档