发布于 2019-03-06 04:57:26
你嵌入的是什么类型的句子,它与生成fastText嵌入的那个域是同一个域吗?
尝试在标记中获得数据的表示,即所有标记的集合,或者使用fastText嵌入的句子中出现的最常见标记的一些表示。
计算你的标记与fastText中标记的重叠,从fastText中删除那些没有出现在你的数据表示中的标记。
我最近做到了这一点,并从一个带有一些预训练单词嵌入的1.4 MB文件增加到200MB,主要是因为与我的语料库的重叠度约为10%。
https://stackoverflow.com/questions/55008804
复制相似问题