问快速文本无监督模型丢失
EN

Stack Overflow用户

提问于 2021-07-21 09:10:36

回答 1查看 688关注 0票数 1

我想为1GB大小的文本数据创建一个无监督的fastText模型。我正在使用fastText命令行工具来实现模型培训过程。

./fasttext skipgram -input PlainText.txt -output FastText-PlainText- -dim 50 -epoch 50

以上是我用来创建单词表示的几个参数。

Read 207M words
Number of words:  501986
Number of labels: 0
Progress:  97.5% words/sec/thread:   87224 lr:  0.001260 avg.loss:  0.089536 ETA:   0h 4m 9s

在这里，在fastText命令的输出中，我看到了这个avg.loss，学习速率已经从默认的(0.5)降到了0.001。我真的不明白，这个avg.loss是什么意思，为什么学习率会下降？

我应该增加一个时代来使fastText更好地学习我的数据吗？
我可以使用任何损失函数来改善损失吗？如果是，什么样的损失功能会更好？
我如何评估我的fastText模型的学习是好还是坏？
只是出于兴趣，我能不能用单词图让我的模型在无监督的学习环境中学习得更好？

word-embedding

fasttext

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-21 14:31:14

我不能深入回答你的所有问题，但我试着给你一些建议。

你可以更好地理解avg.loss，阅读这条线
根据lrUpdateRate选项(read 这)更新学习速率。
一般来说，增加时代的数量可以改善学习。但是，正如您可以在本论文中看到的那样，最流行的语言模型有许多在10到100之间的时代。
默认损失函数为softmax。您也可以选择hs (层次化软件)或ns。您可以在官方教程中阅读更多内容。
如果您想了解更多关于ws和wordngram参数的影响，可以阅读这个答案。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/68466879

复制

相似问题

问快速文本无监督模型丢失
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问快速文本无监督模型丢失EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问快速文本无监督模型丢失
EN