首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用regex模式从目录中读取文件

使用regex模式从目录中读取文件
EN

Stack Overflow用户
提问于 2021-01-06 07:22:48
回答 1查看 519关注 0票数 0

我有具有以下名称的目录:

代码语言:javascript
复制
s3://bucket/elig_date=2020-06-01/
s3://bucket/elig_date=2020-06-02/
....
s3://bucket/elig_date=2020-09-30/
s3://bucket/elig_date=2020-10-01/
...
s3://bucket/elig_date=2020-12-31/

当我想从2020-06-01到2020-09-30期间读取所有目录中的所有文件时,我使用以下方法并使用它工作:

代码语言:javascript
复制
import dask.dataframe as dd
all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]-*/*")

但是,我想将其扩展到目录2020-12-31,我正在尝试以下操作,但不起作用:

代码语言:javascript
复制
all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]|1[0-2]-*/*")

这会引发以下错误:

代码语言:javascript
复制
---------------------------------------------------------------------------
IndexError                                Traceback (most recent call last)
<ipython-input-61-60da829cf51e> in <module>
----> 1 all_data = dd.read_parquet("s3://bucket/elig_date=2020-0[6-9]|1[0-2]-*/*") 

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/core.py in read_parquet(path, columns, filters, categories, index, storage_options, engine, gather_statistics, split_row_groups, read_from_paths, chunksize, **kwargs)
    333         index = [index]
    334 
--> 335     meta, statistics, parts, index = engine.read_metadata(
    336         fs,
    337         paths,

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in read_metadata(cls, fs, paths, categories, index, gather_statistics, filters, split_row_groups, read_from_paths, engine, **kwargs)
    497             split_row_groups,
    498             gather_statistics,
--> 499         ) = cls._gather_metadata(
    500             paths,
    501             fs,

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in _gather_metadata(cls, paths, fs, split_row_groups, gather_statistics, filters, index, read_from_paths, dataset_kwargs)
   1647 
   1648         # Step 1: Create a ParquetDataset object
-> 1649         dataset, base, fns = _get_dataset_object(paths, fs, filters, dataset_kwargs)
   1650         if fns == [None]:
   1651             # This is a single file. No danger in gathering statistics

~/anaconda3/envs/3.8.1/lib/python3.9/site-packages/dask/dataframe/io/parquet/arrow.py in _get_dataset_object(paths, fs, filters, dataset_kwargs)
   1600         if proxy_metadata:
   1601             dataset.metadata = proxy_metadata
-> 1602     elif fs.isdir(paths[0]):
   1603         # This is a directory.  We can let pyarrow do its thing.
   1604         # Note: In the future, it may be best to avoid listing the

IndexError: list index out of range
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-06 07:33:09

我只在regExr上测试它,因为我没有您的文件。但这件事在那起了作用:

代码语言:javascript
复制
s3://bucket/elig_date=2020-(0[6-9])|(1[0-2])-*/*

和你一样,只是括号

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65591711

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档