首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >FastText窗口大小

FastText窗口大小
EN

Stack Overflow用户
提问于 2021-07-14 07:06:28
回答 1查看 671关注 0票数 1

我目前正在从事fastText无优势的学习。我想澄清fastText文档中的上下文窗口。

在用于训练https://github.com/facebookresearch/fastText/tree/master/python模型的python fasttext的快速文本库的描述中,有不同的参数,其中一个参数是,

  • ws:上下文窗口的大小

我的输入文件包含有2-3标记的行。

例如,

高级数据库Administrator

  • Senior programmer

  • Network administrator

  • Head程序员(大型机)

默认窗口大小5。在上面的示例中,我有一些行的令牌计数小于窗口大小。如果窗口大小大于文档长度,会发生什么情况?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-14 14:29:30

FastText (&相关算法,如word2vec)将尽可能多地使用上下文窗口。

例如,假设窗口大小为5,输入令牌:

代码语言:javascript
复制
['Senior', 'Database', 'Administrator']

当使用“中心”字'Senior'进行训练时,该算法将准备在任意方向上协商最多5个单词。

但是,在'Senior'之前有0个单词,而在'Senior'之后只有2个单词,因此只有以下两个单词将被视为邻居。

(“插头值”不会像空白邻居一样使用,也不会出现任何“贯穿”到令人厌烦的文本的现象。)

另外两个相关说明要记住:

  • 这些算法确实需要相邻的词才能进行任何训练,所以任何只有一个单词的文本本质上都是不操作的。(如果碰巧有一个单词单独出现过,那么在培训结束时,你可能仍然会看到一个向量,但在我熟悉的实现中,它只是一个随机初始化的起始向量,完全没有经过实际使用的训练,examples.)
  • Most实现将模拟一个相邻单词的加权,而不是总是使用您声明的窗口大小,而是,对于每一个经过特定目标中心的单词,选择一个随机窗口大小,从1到您选择的窗口大小。这样,近邻总是训练的一部分,而离得更远的话往往会被跳过。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68373533

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档