文章/答案/技术大牛

发布

社区首页 >问答首页 >对非英语数据集进行培训。

问对非英语数据集进行培训。
EN

Stack Overflow用户

提问于 2019-01-25 18:11:39

回答 1查看 221关注 0票数 0

我进入了一个新的项目，我想把单词表示成向量，我读了关于Fasttext库的文章，我发现他们有经过预先训练的语言模型，而不是英语。目的是预测不同单词之间的亲密程度。

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是，我能不能对非英语数据和新闻网站的文章进行快速文本模式的培训，以达到更好的效果，比如政治和现在的话题等等。

我能把它训练成非英语数据集吗？
训练一个10 GB的文本模型需要多长时间？够大了吗？
有更好的解决办法吗？

，提前谢谢！

nlp

fasttext

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-01-25 19:13:41

我能把它训练成非英语数据集吗？

当然，你可以。Fasttext在其webiste上提供了157个不同语言的可用预培训模型列表，您也可以下载它们。

训练一个10 GB的文本模型需要多长时间？

这取决于您的系统和实现。例如，在Mac上使用16 10的内存，加上facebook的实现，大约需要8-10个小时。

够大了吗？

如果10 is是经过清洗和预处理后的文件大小，是的，那就足够公平了。

有更好的解决办法吗？

什么是更好的解决方案？如果我是你的话，我先试试看那些受过训练的模特。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54370750

复制

相似问题

问对非英语数据集进行培训。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对非英语数据集进行培训。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对非英语数据集进行培训。
EN