我正在使用Automated运行一个时间序列预测管道。
当AutoMLStep被触发时,我得到这个错误:Non numeric value(s) were encountered in the target column。
在将OutputTabularDatasetConfig ()应用于read_delimited_files()之后,该步骤的数据将通过OutputFileDatasetConfig传递。我检查了前面的步骤,数据由一个“日期”列和一个名为“Place”的数字列组成,每月频率为+80。
列类型或数据似乎没有什么问题。我还在数据准备端应用了许多技术,例如pd.to_numeric()、astype(浮点),以确保它是数字的。
我也尝试通过FeaturizationConfig() add_column_purpose('Place','Numeric')强制这样做,但是在本例中,我得到了另一个错误:Expected column(s) Place in featurization config's column purpose not found in X.
对如何解决有什么想法吗?
发布于 2021-09-30 21:36:16
因此,我们学习了一些与星光机器学习工程团队互动的知识。
read_delimited_files()方法时,请确保输出文件夹没有多个输入或文件。例如,如果将所有中间输出保存到公共文件夹中,它可能会将所有先前的输入读入该文件夹,并根据数据的形状,从第一个文件借用架构,或将它们全部混淆在一起。这可能导致不一致和错误。在我的例子中,我将许多文件转储到相同的位置,因此这给这个方法造成了混乱。修复方法要么是清楚地标记输出文件夹(例如用UUID),要么给出不同的路径。read_delimiter_files()的数据可能将所有列视为对象类型,这可能导致数据类型检查失败(即label_column需要是数字的)。若要减轻损失,请明确声明类型。例如:from azureml.data import DataType
prepped_data = prepped_data.read_delimited_files(set_column_types={"Place":DataType.to_float()})https://stackoverflow.com/questions/69245175
复制相似问题