我有两个TSV文件(header.tsv和data.tsv),header.tsv保存1000+列名,data.tsv保存大约50K条记录(也有NULL列值)。我想通过将data.tsv文件附加到header.tsv来创建一个新的TSV文件(比方说combined.tsv)。这样做的原因是要创建最后一个TSV文件,它可以将列名和数据保存在一起,并尝试在创建Apache Arrow表时避免出现错误。
**header.tsv**
field1 field2 field3 field4 ... field1000
**data.tsv**
eng-en 1er2p NULL ert,yu1 ... 2020-09-16
frnch-fr 2er3p NULL ert,yu2 ... 2020-09-16
.
.
.
ltn-lt 50Ker NULL ert,yu50K ... 2020-09-16所需的TSV
**combined.tsv**
field1 field2 field3 field4 ... field1000
eng-en 1er2p NULL ert,yu1 ... 2020-09-16
frnch-fr 2er3p NULL ert,yu2 ... 2020-09-16
.
.
.
ltn-lt 50Ker NULL ert,yu50K ... 2020-09-16我使用过SHELL命令,比如
paste header.tsv data.tsv > combined.tsv然后尝试创建一个pyarrow表。
import pyarrow as pa
import pyarrow.csv as csv
combined = csv.read_csv('combined.tsv',parse_options=csv.ParseOptions(delimiter="\t"))我在执行上面的代码时遇到了下面的错误
ArrowInvalid: CSV parse error: Expected 2010 columns, got 1006header.tsv文件正好有1005列,可以解析该header.tsv文件来创建一个pyarrow表,但不能创建data.tsv文件。
import pyarrow as pa
import pyarrow.csv as csv
header = csv.read_csv('headers.tsv',parse_options=csv.ParseOptions(delimiter="\t"))
head_show=header.to_pandas()
head_show.head()我甚至尝试通过执行以下操作来使用pyarrow中的concat_tables方法
import pyarrow as pa
final_combined = pa.concat_tables(header,data)错误
TypeError: Cannot convert pyarrow.lib.ChunkedArray to pyarrow.lib.Table如果我的方法是错误的,请纠正我。
发布于 2020-09-17 15:08:18
要创建组合的CSV,您需要连接报头和数据:
cat header.csv data.csv > combined.csv使用“粘贴”将执行“水平”连接-合并第一,第二,第三,...每个文件中的行,形成长行。
https://stackoverflow.com/questions/63929798
复制相似问题