我想使用cpython从DataTap读取数据。
在火花中,我可以做这样的事情:
df = spark.read.csv("dtap://MaprClus2/tmp/airline-safety.csv")如果我使用的是cpython,那么我又如何做到这一点呢?例如,当我没有吡火花木星内核的时候?
发布于 2020-10-14 19:58:34
一种选择是使用子进程调用hadoop cli命令:
from subprocess import check_output
import pandas as pd
from io import BytesIO
def hdfs_read(fpath):
out = check_output(['hadoop', 'fs', '-cat', fpath])
return BytesIO(out)
data = hdfs_read("dtap://MaprClus2/tmp/airline-safety.csv")
# row 1 contains hadoop cli warning so remove it
pd.read_csv(data, sep=",", skiprows=1) https://stackoverflow.com/questions/64360661
复制相似问题