我正在为我的暑期实习做一个机器学习项目,希望有人能帮忙。我是新领域的ML和仍然在学习,所以请容忍我的尝试,以一个解释。
给我输入多个生物反应器(20)的连续数值数据(x值/特征),包括PH、搅拌速率、葡萄糖水平等。每个生物反应器的数据间隔30分钟,收集11天。这产生了大约500-600行数据,每个生物反应器。每个生物反应器只有一个对应的输出(y值)来代表产品质量(最终效价)。所以每个生物反应器只有一行作为输出,总共有20行。
如何训练输入和输出关系为多对一的ML模型?换句话说,如何用连续11天的数据训练我的模型来预测每个生物反应器的产品质量?任何与此相关的资源都会很有帮助!
发布于 2021-06-19 08:30:13
如果我正确理解,您得到了20个timeseries数据集(每个反应堆1个),在一个timespan t之后,将为整个timeseries签名一个质量标签。
从这里开始你可以采取很多不同的方法。首先做一些探索性分析可以帮助您更好地理解基础数据。
换句话说:您的质量标签是由单变量特性决定的,还是由您的系列中的值随时间的发展而确定的。
为每个生物反应器的每一行指定质量标签,并进行一些绘图,例如使用海运散射图,并在一段时间内用色调=目标变量x绘制每个特征y,或者使用盒图/配对图检查数据,而不考虑时间因素。
如果时间因素与预测你的标签无关,只需移除这个柱,将你的y应用于每一个观察到的反应堆行。
https://datascience.stackexchange.com/questions/96828
复制相似问题