首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ScrapingHub环境变量未加载

ScrapingHub环境变量未加载
EN

Stack Overflow用户
提问于 2019-06-18 03:41:56
回答 1查看 821关注 0票数 3

我正在ScrapingHub上部署一群蜘蛛。蜘蛛本身起作用了。我想根据爬行器是在本地运行还是在ScrapingHub上运行来更改提要输出(如果它在本地运行,那么输出到临时文件夹,如果它在ScrapingHub输出上运行到S3)。我的想法是,我可以使用一个环境变量作为两者之间的开关。但是,尝试从settings.py (在Scrapy项目中)打印使用ScrapingHub接口设置的环境变量会返回None。下面有一个代码片段,它显示了我试图做的事情。

奇怪的是,如果我只默认S3的提要(没有基于env的切换),S3上传就能工作。S3凭据也是在使用环境变量加载的。尝试打印它们也会返回None。然而,更改AWS键会导致上传失败,因此这些值在某个时候会传递到Scrapy,只是在文件最初加载时没有。在项目级别或爬行器级别上设置环境变量不会更改任何内容。

我的问题是,在将部署到ScrapingHub上的Scrapy项目中使用环境变量的正确方法是什么?

代码语言:javascript
复制
# In settings.py

# Get the AWS credentials from the environment
AWS_ACCESS_KEY_ID = os.environ.get('AWS_ACCESS_KEY_ID')
AWS_SECRET_ACCESS_KEY = os.environ.get('AWS_SECRET_ACCESS_KEY')

# Print the credentials
print(AWS_ACCESS_KEY_ID)      # Outputs None
print(AWS_SECRET_ACCESS_KEY)  # Outputs None

FEED_URI = 's3://my-bucket/%(name)s/{}.json'.format(today.strftime('%Y-%m-%d'))
FEED_FORMAT = 'json'

编辑:

我找到了一个ScrapingHub上的支持票,其中提出了一个相同的问题。问题似乎在于UI接口中设置被覆盖的顺序。似乎没有关于这方面的任何文件。此外,S3问题与scrapy:1.4堆栈一起消失。使用最新的scrapy:1.6堆栈会出现问题。目前仍未找到令人满意的解决办法。

EN

回答 1

Stack Overflow用户

发布于 2019-06-18 05:19:17

您可以在python中检查boto3库。

示例代码

代码语言:javascript
复制
import boto3

# s3 region
sts_client = boto3.client('sts')
assumed_role_object = sts_client.assume_role(
    RoleArn="Roleproperty",
    RoleSessionName="SessionProperty"
)

#s3 cli credentials
credentials = assumed_role_object['Credentials']


aws_access_key_id=credentials['AccessKeyId']
aws_secret_access_key=credentials['SecretAccessKey']
aws_session_token=credentials['SessionToken']

参考

https://dluo.me/s3databoto3 https://boto3.amazonaws.com/v1/documentation/api/latest/guide/configuration.html

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56641464

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档