我有很多100K+存储在S3中的图像,我有一些代码使用pySpark来处理其中的一些图像。我正在使用Anaconda,因此已经正确安装了大量的库,我正在使用库scipy、PIL进行图像处理。
我正计划使用电子病历,但以下是我的选择:
对于Python应用程序,只需传递一个.py文件而不是JAR,然后使用-py- file将Python .zip、.egg或.py文件添加到搜索路径中。-火花文件
- download anacondaxxx.sh
- bash anacondaxxx.sh
- #answer 4 or 5 questions interactively
- ..
有人能指出正确的方向吗?用安装了Spark和Anaconda Python (或者至少是PIL和PIL)的集群,什么是更好的方法。
发布于 2015-10-17 15:21:57
你能用EMR引导动作做隐式安装吗?
您还可以考虑Lambda,因为它现在支持Python (2.7)。考虑到文件已经在S3中,您需要为它们编写Lambda事件脚本。
https://stackoverflow.com/questions/33188080
复制相似问题