我目前正在从事fastText无优势的学习。我想澄清fastText文档中的上下文窗口。
在用于训练https://github.com/facebookresearch/fastText/tree/master/python模型的python fasttext的快速文本库的描述中,有不同的参数,其中一个参数是,
我的输入文件包含有2-3标记的行。
例如,
高级数据库Administrator
默认窗口大小5。在上面的示例中,我有一些行的令牌计数小于窗口大小。如果窗口大小大于文档长度,会发生什么情况?
发布于 2021-07-14 14:29:30
FastText (&相关算法,如word2vec)将尽可能多地使用上下文窗口。
例如,假设窗口大小为5,输入令牌:
['Senior', 'Database', 'Administrator']当使用“中心”字'Senior'进行训练时,该算法将准备在任意方向上协商最多5个单词。
但是,在'Senior'之前有0个单词,而在'Senior'之后只有2个单词,因此只有以下两个单词将被视为邻居。
(“插头值”不会像空白邻居一样使用,也不会出现任何“贯穿”到令人厌烦的文本的现象。)
另外两个相关说明要记住:
https://stackoverflow.com/questions/68373533
复制相似问题