直到上周,kedro和kedrospark.SparkDataSet pip库都安装在集群上。但由于过去3-4天,他们将不会一起安装在集群上。它显示它是一个重复的库,但是我的代码也失败了,因为它找不到闪烁数据集。如果我只安装kedro,就会得到错误,如下面的屏幕截图错误所示
发布于 2022-05-25 12:10:40
要安装kedro,请遵循以下安装先决条件
要从(PyPI)中安装Kedro,只需运行:
pip install kedro样本代码-
from pyspark.sql import SparkSession
from pyspark.sql.types import (StructField, StringType,
IntegerType, StructType)
from kedro.extras.datasets.spark import SparkDataSet
schema = StructType([StructField("name", StringType(), True),
StructField("age", IntegerType(), True)])
data = [('Alex', 31), ('Bob', 12), ('Clarke', 65), ('Dave', 29)]
spark_df = SparkSession.builder.getOrCreate().createDataFrame(data, schema)
data_set = SparkDataSet(filepath="test_data")
data_set.save(spark_df)
reloaded = data_set.load()
reloaded.take(4)


发布于 2022-05-25 13:25:57
您不需要安装两个pip install kedro["spark.SparkDataSet"]==0.16.3都是pip install kedro==0.16.3的超集
https://stackoverflow.com/questions/72376493
复制相似问题