我有6500个csv文件,有250个不同的模式,即这些文件来自F.D.I.C (美国银行监管机构)数据集。它们已经上传到谷歌的云存储桶中:

每个财政季度有250个不同的csv。每个csv在一个金融季度内有一个不同的模式:

有250个独特的模式。模式在每个金融季度重复自己。csv的档案可以追溯到1992年的100个财政季度:

具有相同模式的多个CSV可以使用外卡上传。例如gs/path/*.csv。但是,每个表名都不是从文件名自动生成的。UI需要一个表名作为输入:

如何将具有不同模式的多个csv文件加载到bigquery中?
发布于 2019-02-12 17:50:27
我实现自动化的方法基本上是从给定的桶(或其子文件夹)读取所有文件,并(假设)使用它们的“文件名”作为目标表名。以下是如何:
gsutil ls gs://mybucket/subfolder/*.csv | xargs -I{} echo {} | awk '{n=split($1,A,"/"); q=split(A[n],B,"."); print "mydataset."B[1]" "$0}' | xargs -I{} sh -c 'bq --location=US load --replace=false --autodetect --source_format=CSV {}'确保用所需的值替换location、mydataset。此外,请注意以下假设:
--replace=false标志编写,这意味着每次运行该命令时都会追加数据。如果您想要重写,只需将其转换为true,所有表的数据都将在每次运行时被重写。.csv之前的部分用作表名。您可以修改awk脚本以将其更改为任何其他选项。https://stackoverflow.com/questions/54652651
复制相似问题