首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对非英语数据集进行培训。

对非英语数据集进行培训。
EN

Stack Overflow用户
提问于 2019-01-25 18:11:39
回答 1查看 221关注 0票数 0

我进入了一个新的项目,我想把单词表示成向量,我读了关于Fasttext库的文章,我发现他们有经过预先训练的语言模型,而不是英语。目的是预测不同单词之间的亲密程度。

https://fasttext.cc/docs/en/crawl-vectors.html

我想知道的是,我能不能对非英语数据和新闻网站的文章进行快速文本模式的培训,以达到更好的效果,比如政治和现在的话题等等。

  1. 我能把它训练成非英语数据集吗?
  2. 训练一个10 GB的文本模型需要多长时间?够大了吗?
  3. 有更好的解决办法吗?

,提前谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-01-25 19:13:41

我能把它训练成非英语数据集吗?

当然,你可以。Fasttext在其webiste上提供了157个不同语言的可用预培训模型列表,您也可以下载它们。

训练一个10 GB的文本模型需要多长时间?

这取决于您的系统和实现。例如,在Mac上使用16 10的内存,加上facebook的实现,大约需要8-10个小时。

够大了吗?

如果10 is是经过清洗和预处理后的文件大小,是的,那就足够公平了。

有更好的解决办法吗?

什么是更好的解决方案?如果我是你的话,我先试试看那些受过训练的模特。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54370750

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档