首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在存储库中不保留fastText矢量文件的情况下创建word嵌入

在存储库中不保留fastText矢量文件的情况下创建word嵌入
EN

Stack Overflow用户
提问于 2019-03-06 01:52:23
回答 1查看 127关注 0票数 1

我正在尝试在Infersent的帮助下嵌入一个句子,而Infersent使用fastText向量来嵌入单词。fastText向量文件接近5 GiB。

当我们将fastText向量文件与代码存储库一起保存时,它会使存储库变得巨大,并使代码难以共享/部署(甚至创建docker容器)。

有没有什么方法可以避免将向量文件与存储库一起保留,而是重复使用它来嵌入新句子?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-06 04:57:26

你嵌入的是什么类型的句子,它与生成fastText嵌入的那个域是同一个域吗?

尝试在标记中获得数据的表示,即所有标记的集合,或者使用fastText嵌入的句子中出现的最常见标记的一些表示。

计算你的标记与fastText中标记的重叠,从fastText中删除那些没有出现在你的数据表示中的标记。

我最近做到了这一点,并从一个带有一些预训练单词嵌入的1.4 MB文件增加到200MB,主要是因为与我的语料库的重叠度约为10%。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55008804

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档