我已经安装了pyarrow,并希望连接到Hadoop集群中的hdfs文件。我有下面一行,这会给我带来错误。
fs = pa.hdfs.connect(host='...', 50057, user='...', kerb_ticket='/tmp/krb5cc_0')这是我收到的错误信息
ArrowIOError: Unable to load libhdfs我应该如何安装libhdfs?我还需要做什么其他的依赖/设置?
发布于 2019-06-24 20:48:00
pyarrow.hdfs.connect(host='default', port=0, user=None, kerb_ticket=None, driver='libhdfs', extra_conf=None)您必须确保libhdfs.so是在$HADOOP_HOME/lib/native中,也在$ARROW_LIBHDFS_DIR中。
对于HADOOP
bash-3.2$ ls $ARROW_LIBHDFS_DIR
examples libhadoop.so.1.0.0 libhdfs.a libnativetask.a
libhadoop.a libhadooppipes.a libhdfs.so libnativetask.so
libhadoop.so libhadooputils.a libhdfs.so.0.0.0 libnativetask.so.1.0.0我知道的最后一个版本是Hadoop 3.2.0
可以使用DistributedCache加载任何本机共享库,用于分发和符号链接库文件。
此示例向您展示了如何分发共享库mylib.so,并从MapReduce任务加载它。见资料
bin/hadoop fs -copyFromLocal mylib.so.1 /libraries/mylib.so.1System.loadLibrary("mylib.so");注意:如果下载或构建了本机hadoop库,则不需要使用DistibutedCache使库可用于MapReduce任务。
https://stackoverflow.com/questions/56743635
复制相似问题