首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用curl下载youtube-8m数据集

如何使用curl下载youtube-8m数据集
EN

Stack Overflow用户
提问于 2017-11-02 14:58:49
回答 1查看 1.6K关注 0票数 1

Youtube-800万下载网页提供以下卷曲说明:

代码语言:javascript
复制
mkdir -p ~/data/yt8m_video_level; cd ~/data/yt8m_video_level 

curl data.yt8m.org/download.py | partition=1/video_level/train mirror=us python 
curl data.yt8m.org/download.py | partition=1/video_level/validate mirror=us python 
curl data.yt8m.org/download.py | partition=1/video_level/test mirror=us python

我已经制作了目录,现在正在尝试下载培训数据。

当我执行:

代码语言:javascript
复制
curl data.yt8m.org/download.py | partition=1/video_level/train mirror=us python

我收到以下错误消息:

“分区”不被识别为内部或外部命令、可操作的程序或批处理文件。

如果我使用插入符号来转义像这样:

代码语言:javascript
复制
curl data.yt8m.org/download.py ^| partition=1/video_level/train mirror=us python

然后命令提示符打印http://data.yt8m.org/download.py的整个内容,然后是:

curl:(6)无法解析主机: curl:(6)无法解析主机: partition=1 curl:(6)无法解析主机: mirror=eu curl:(6)无法解析主机: python

如何使用curl将此数据集下载到Windows 10?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-02 15:42:47

该脚本打算在*nix中运行(Unixlinux或.)环境。

您安装了windows的bash吗?如果是这样,这就是快速解决方案,只需在该环境中运行脚本/cmds(并确保which python返回正确的/path/to/preferred/version_of/python)。

为了解释/扩展该代码的功能,*nix允许设置特定于行尾运行的命令的env。“说”与您在*nix中包含的代码相同的另一种方法是

代码语言:javascript
复制
export partition=1/video_level/test
export mirror=us 
curl data.yt8m.org/download.py | python

因此,您希望|作为管道,而不想转义它。

在旧的DOS .bat文件中等效的是

代码语言:javascript
复制
set partition = 1/video_level/test
set mirror = us 
curl data.yt8m.org/download.py | python

但是,旧版本的dos过去对“存储”在| (管道)中的数量有限制。我不知道Windows提示符中当前的限制是什么,所以您可能需要创建自己的临时文件,然后输入它们,例如

代码语言:javascript
复制
set partition = 1/video_level/test
set mirror = us 
curl data.yt8m.org/download.py > %TEMP%\mytempFile
python < %TEMP%\mytempFile

我不是python程序员,所以我可能遗漏了一些对pythonistas来说非常明显的东西。

刚刚查看了download.py的源代码。你注意到了吗

代码语言:javascript
复制
print ('Starting fresh download in this directory. Please make sure you '
    'have >2TB of free disk space!')

IHTH

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47078364

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档