首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本嵌入与数据分割

文本嵌入与数据分割
EN

Data Science用户
提问于 2019-12-11 14:17:50
回答 1查看 984关注 0票数 2

我创建了一些文档嵌入,然后在文本分类任务中进一步使用它们。在重新查看我的代码之后,我不确定我用来训练文档嵌入的工作流。

目前,我正在基于培训时可用的完整语料库创建文档嵌入。在完成培训之后,我通过查看模型是否在文档嵌入之间创建了有用的相似之处来评估模型。然后在机器学习模型中使用这些嵌入,然后将嵌入划分为火车、测试和验证集。

现在我的问题是:数据分割的合适时机在哪里?在创建文档嵌入之前是否应该这样做以防止数据泄漏?我使用了上述方法,因为我将文档嵌入的创建视为预处理步骤,因此计算机可以处理文本数据。然而,在我对它进行了一些思考之后,我认为这是错误的做法。我想从更有经验的NLP从业者那里了解他们是如何处理这项任务的。很抱歉回答这个基本的问题。

谢谢。

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-12-12 07:31:39

TL;

博士

如果您正在训练文档嵌入模型,那么在将文本转换为嵌入之前,将数据拆分。

如果您使用的是经过预先培训的文档嵌入模型,那么它将无关紧要,而执行它时并不重要,这是预处理步骤。

管道在培训您自己的文档嵌入模型

  1. 将文本数据拆分为训练/验证/测试集。
  2. 使用您的训练集来训练文档嵌入模型。
  3. 使用您受过训练的文档嵌入模型来转换训练和验证集来训练你的其他模型(例如分类模型)。
  4. 通过使用经过训练的文档嵌入模型来转换测试集并测试经过训练的最终(分类)模型来测试您的最终模型。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/64651

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档