我不确定这是否是特定于ML.NET的,但它确实发生在它的上下文中。
我正在使用ML.NET对一些图像进行分类。我意识到,无论我是否在结果IEnumerable上调用.ToArray(),都会造成严重的差异。前一种方法会导致所有数组元素与最后一个元素完全相同。
IEnumerable<ImageData> dataCollection = imagePaths.Select(path => new ImageData(path));
IDataView targetDataView = _mlContext.Data.LoadFromEnumerable(dataCollection);
IDataView predictionView = _transformerModel.Transform(targetDataView);
return _mlContext.Data.CreateEnumerable<ImagePrediction>(predictionView, true).ToArray();在上面显示的示例中,结果预测都将其图像路径设置为imagePaths中的最后一个图像路径。
我不相信这是故意的行为。是什么导致了这种情况,我如何安全地防止这种情况发生?目前,我决定不打电话给.ToArray(),但我想了解更多关于这个问题的信息。
发布于 2020-03-29 04:49:14
这个问题似乎是在预测引擎中,在哪里限制内存使用,根据reuseRowObject重用row。因此,当调用ToList()或ToArray()方法时,只使用最后一项来投影列表/数组。
public IEnumerable<TDst> RunPipe(bool reuseRowObject)
{
var curCounter = _counter;
using (var cursor = _cursorablePipe.GetCursor())
{
TDst row = null;
while (cursor.MoveNext())
{
if (!reuseRowObject || row == null)
row = new TDst();
cursor.FillValues(row);
yield return row;
if (curCounter != _counter)
throw Contracts.Except("An attempt was made to keep iterating after the pipe has been reset.");
}
}
}调用方是CreateEnumerable(),其中显式地将reuseRowObject设置为true。
public IEnumerable<TRow> CreateEnumerable<TRow>(IDataView data, bool reuseRowObject,
bool ignoreMissingColumns = false, SchemaDefinition schemaDefinition = null)
where TRow : class, new()
{
_env.CheckValue(data, nameof(data));
_env.CheckValueOrNull(schemaDefinition);
var engine = new PipeEngine<TRow>(_env, data, ignoreMissingColumns, schemaDefinition);
return engine.RunPipe(reuseRowObject);
}将reuseRowObject设置为false应该可以解决您的问题。
https://stackoverflow.com/questions/60906438
复制相似问题