首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法从EMR notebook访问python模块

无法从EMR notebook访问python模块
EN

Stack Overflow用户
提问于 2020-06-20 04:08:17
回答 2查看 946关注 0票数 0

我正在使用连接到我的集群的EMR笔记本进行一些实验。我需要安装一些python模块进行测试,特别是spacy和它的数据模块en_core_web_sm。

我ssh进入了主节点和核心节点,并分别下载了模块。但是,我无法从我的电子病历笔记本导入。我得到以下错误:

代码语言:javascript
复制
An error was encountered:
No module named 'spacy'
Traceback (most recent call last):
ModuleNotFoundError: No module named 'spacy'

我知道有一种方法可以安装它们,但这在生产场景中是不够的,所以请避免回答本指南中提到的建议安装笔记本的问题:https://aws.amazon.com/blogs/big-data/install-python-libraries-on-a-running-cluster-with-emr-notebooks/

如果我错过了一些设置步骤,请告诉我。感谢您的回复。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-06-23 01:07:44

通过将bootstrap脚本更改为使用sudo而不是--user,我能够解决此问题。(您也可以手动更改运行以下脚本)

在我开始跑步之前

代码语言:javascript
复制
pip3 install spacy --user
python3 -m spacy download en --user

我将该脚本更改为

代码语言:javascript
复制
sudo pip3 install spacy
sudo python3 -m spacy download en

要快速验证此解决方案,请从EMR笔记本中发出以下命令(比较前后)

代码语言:javascript
复制
sc.list_packages()

您应该会看到类似以下内容的输出

代码语言:javascript
复制
SparkSession available as 'spark'.
Package                    Version   
-------------------------- ----------
beautifulsoup4             4.9.0     
blis                       0.4.1     
boto                       2.49.0    
catalogue                  1.0.0     
certifi                    2020.4.5.2
chardet                    3.0.4     
cymem                      2.0.3     
en-core-web-sm             2.3.0     
idna                       2.9       
importlib-metadata         1.6.1     
jmespath                   0.9.5     
lxml                       4.5.0     
murmurhash                 1.0.2     
mysqlclient                1.4.2     
nltk                       3.4.5     
nose                       1.3.4     
numpy                      1.16.5    
pip                        9.0.1     
plac                       1.1.3     
preshed                    3.0.2     
py-dateutil                2.2       
python37-sagemaker-pyspark 1.3.0     
pytz                       2019.3    
PyYAML                     5.3.1     
requests                   2.24.0    
setuptools                 28.8.0    
six                        1.13.0    
soupsieve                  1.9.5     
spacy                      2.3.0     
srsly                      1.0.2     
thinc                      7.4.1     
tqdm                       4.46.1    
urllib3                    1.25.9    
wasabi                     0.6.0     
wheel                      0.29.0    
windmill                   1.6       
zipp                       3.1.0

这不是最好的解决方案,因为在使用sudo之后显示的第一个警告是

代码语言:javascript
复制
WARNING: Running pip install with root privileges is generally not a good idea. Try `pip3 install --user` instead.

如果有人有更好的解决方案,请自由张贴。

票数 0
EN

Stack Overflow用户

发布于 2020-06-20 04:12:24

在创建电子病历https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-bootstrap.html时,您可以使用引导程序安装其他模块

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62477872

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档