首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >AzureML列出大量文件

AzureML列出大量文件
EN

Stack Overflow用户
提问于 2022-03-17 08:29:32
回答 1查看 110关注 0票数 1

我在AzureML笔记本中有一个目录,其中我有300000个文件,需要列出它们的名字。下面的方法可以工作,但需要1.5h才能执行:

代码语言:javascript
复制
from os import listdir
from os.path import isfile, join
mypath = "./temp/"
docsOnDisk = [f for f in listdir(mypath) if isfile(join(mypath, f))]

怎样才能快速列出这些文件?(笔记本和这个目录都在FileShare中)。

我也知道,下面的方法会带来一些好处,但它仍然不是这样做的蔚蓝的方式。

代码语言:javascript
复制
docsOnDisk = [f.name for f in scandir(mypath) ] # shall be 2-20x faster
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-30 14:47:46

尝试使用glob模块和过滤器方法来代替列表理解。

代码语言:javascript
复制
import glob
from os.path import isfile
mypath = "./temp/*"
docsOnDisk = glob.glob(mypath)
verified_docsOnDisk = list(filter(lambda x:isfile(x), docsOnDisk))

glob应该只提供现有的文件。不需要使用isfile()来验证它们。但是,如果您需要尝试它,那么您可以使用筛选方法,而不是列表理解。若要跳过验证,可以对最后一行进行注释。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71509160

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档