我是一个使用deeplearning4j的新手。我在一个包括标记和未标记数据的数据集上运行段落向量分类器,并得到了一个结果。当我使用相同的配置在相同的数据集上再次运行它时,我会得到另一个结果!新的结果与之前的结果很接近,但为什么它产生的结果略有不同?!我所说的略有不同的结果就像在第一次运行时,它检测到两个测试样本并将其分配给我们拥有的第一个类,而在第二次运行中,它将这两个样本或可能其中之一分配给另一个类。通常只有一两个或三个样本会发生这种情况。也许我需要提前通知你们,我们有三个类,它们都与癌症类型的疾病有关。任何提示/帮助/建议都将不胜感激。
我使用下面这样的配置:
paragraphVectors = new ParagraphVectors.Builder()
.learningRate(0.2)
.minLearningRate(0.001)
.windowSize(2)
.iterations(3)
.batchSize(500)
.workers(4)
.stopWords(stopWords())
.minWordFrequency(10)
.layerSize(100)
.epochs(1)
.iterate(iterator)
.trainWordVectors(true)
.tokenizerFactory(tokenizerFactory)
.build();发布于 2016-07-25 20:03:33
问题原来是记号赋予器的错误输入。
https://stackoverflow.com/questions/38554198
复制相似问题