我有一个多感官数据集,用于日常生活的活动。它包含10名志愿者的数据,每个志愿者执行9项活动。每位志愿者身上都装有6个传感器,记录的数据类型为四元数、加速度和角速度。对于每个志愿者,我总共有7个CSV文件I-e6为每个传感器和一个用于注释。
现在,我想将7名志愿者的数据分为培训和验证,其余3名进行测试。对于7名志愿者,我总共有将近49个CSV文件。
应该采取什么必要的方法将这些划分为培训和验证集?我可以找到很多关于一个CSV文件的信息,但不是关于这些文件。
我期待着得到一些建议。
发布于 2021-06-15 10:32:07
如果每个志愿者的数据具有相同的格式,那么您可以按照以下方式进行。
第一步
将每个志愿者的7个CSV合并成一个CSV。按列合并这些CSV(不要附加行)。我假设传感器数据列是特性(X),注释列/列是目标(y)。现在你有10辆CSV,每个志愿者一辆。
第二步
合并CSV以创建最终的培训和验证集。现在,您可以将7名CSV(7名志愿者)和3名CSV(3名志愿者)(按行排列)合并(按行排列)。这就是你将如何得到一个单一的CSV的培训和一个单一的CSV测试。
这两个步骤都可以很容易地使用python大熊猫库中的各种功能来完成。
https://datascience.stackexchange.com/questions/96623
复制相似问题