为什么在联邦学习任务中,我们不将数据集分割为训练、测试和验证,而只进行训练和测试。
发布于 2020-12-27 05:53:29
如何拆分数据集的选择实际上取决于评估者以及他们试图实现的目标。TFF中的预处理数据集(来自tff.simulation.datasets)通常只被一分为二,但它们可以按所需的任何方式重新连接和再次拆分。
需要考虑的一件事是:对于联邦学习,(至少)有两个维度可能是有趣的。
此外,这两者都可以是基于时间的(如果有时间的概念),例如将每个客户端数据集分为“前一天”(火车)和“第二天”(测试)。或者,就像在跨设备FL的实践中经常出现的情况一样,按一天中的时间进行划分(用户在晚上可以进行训练,可能与白天不同),Eichner 2019使用这种设置进行了一些实验。
注意:tff.simulation.datasets.stackoverflow.load_data确实有三个拆分,分别命名为train、held_out和test。请仔细阅读文档,因为它利用了上面提到的两种类型的拆分。
https://stackoverflow.com/questions/65458032
复制相似问题