我创建了一些文档嵌入,然后在文本分类任务中进一步使用它们。在重新查看我的代码之后,我不确定我用来训练文档嵌入的工作流。
目前,我正在基于培训时可用的完整语料库创建文档嵌入。在完成培训之后,我通过查看模型是否在文档嵌入之间创建了有用的相似之处来评估模型。然后在机器学习模型中使用这些嵌入,然后将嵌入划分为火车、测试和验证集。
现在我的问题是:数据分割的合适时机在哪里?在创建文档嵌入之前是否应该这样做以防止数据泄漏?我使用了上述方法,因为我将文档嵌入的创建视为预处理步骤,因此计算机可以处理文本数据。然而,在我对它进行了一些思考之后,我认为这是错误的做法。我想从更有经验的NLP从业者那里了解他们是如何处理这项任务的。很抱歉回答这个基本的问题。
谢谢。
发布于 2019-12-12 07:31:39
博士
如果您正在训练文档嵌入模型,那么在将文本转换为嵌入之前,将数据拆分。
如果您使用的是经过预先培训的文档嵌入模型,那么它将无关紧要,而执行它时并不重要,这是预处理步骤。
时
https://datascience.stackexchange.com/questions/64651
复制相似问题