我想直接抓取互联网上的一个文件,然后把它放到一个S3桶中,然后复制到一个猪集群中。由于文件的大小和我不太好的互联网连接,首先下载文件到我的电脑,然后上传到亚马逊可能不是一个选择。
有什么办法可以让我抓取互联网上的文件并将其直接粘贴到S3中吗?
发布于 2013-10-08 13:43:10
发布于 2017-10-29 16:45:08
通过curl下载数据,并将内容直接输送到S3。数据直接流到S3,而不是本地存储,从而避免了任何内存问题。
curl "https://download-link-address/" | aws s3 cp - s3://aws-bucket/data-file正如上面所建议的,如果本地计算机上的下载速度太慢,那么启动一个EC2实例ssh并在那里执行上面的命令。
发布于 2015-04-03 23:02:04
对于没有经验的人(像我一样),下面是通过EC2对这个过程进行更详细的描述:
wget。(例如,要通过FTP下载整个目录,可以使用wget -r ftp://name:passwd@ftp.com/somedir/。)aws s3 cp myfolder s3://mybucket/myfolder --recursive (用于整个目录)。(在此命令开始工作之前,您需要将S3安全凭据添加到配置文件中,如Amazon文档所述。)https://stackoverflow.com/questions/19241671
复制相似问题