文章/答案/技术大牛

发布

问AzureML列出大量文件
EN

Stack Overflow用户

提问于 2022-03-17 08:29:32

回答 1查看 110关注 0票数 1

我在AzureML笔记本中有一个目录，其中我有300000个文件，需要列出它们的名字。下面的方法可以工作，但需要1.5h才能执行：

from os import listdir
from os.path import isfile, join
mypath = "./temp/"
docsOnDisk = [f for f in listdir(mypath) if isfile(join(mypath, f))]

怎样才能快速列出这些文件？(笔记本和这个目录都在FileShare中)。

我也知道，下面的方法会带来一些好处，但它仍然不是这样做的蔚蓝的方式。

docsOnDisk = [f.name for f in scandir(mypath) ] # shall be 2-20x faster

azure-machine-learning-service

azure-notebooks

python

azure

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-30 14:47:46

尝试使用glob模块和过滤器方法来代替列表理解。

import glob
from os.path import isfile
mypath = "./temp/*"
docsOnDisk = glob.glob(mypath)
verified_docsOnDisk = list(filter(lambda x:isfile(x), docsOnDisk))

glob应该只提供现有的文件。不需要使用isfile()来验证它们。但是，如果您需要尝试它，那么您可以使用筛选方法，而不是列表理解。若要跳过验证，可以对最后一行进行注释。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71509160

复制

相似问题

问AzureML列出大量文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AzureML列出大量文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AzureML列出大量文件
EN