我有一个内部带有通配符的URL列表,如何将其传递给FileIO.match().filepattern(XXXX)
以下是代码
PCollectionTuple decompressOut =
pipeline
.apply(TextIO.read("dict.txt"))
.apply("MatchFile(s)", FileIO.match().filepattern())
.apply(
"DecompressFile(s)",
ParDo.of(new Decompress(options.getOutputDirectory()))
.withOutputTags(
DECOMPRESS_MAIN_OUT_TAG,
TupleTagList.of(DEADLETTER_TAG)));在dict.txt中,我有要传递给XXX的URL列表
发布于 2019-07-10 18:25:49
我相信您可以使用matchAll来读取包含文件名的PCollection。
来自Link to Beam Java doc中标题为"Example: Matching a PCollection of filepatterns From Kafka“的部分
PCollection<String> filepatterns = p.apply(KafkaIO.read()...);
PCollection<Metadata> matches = filepatterns.apply(FileIO.matchAll()
.withEmptyMatchTreatment(DISALLOW));将KafkaIO.read()替换为TextIO。
https://stackoverflow.com/questions/56956986
复制相似问题