我进入了一个新的项目,我想把单词表示成向量,我读了关于Fasttext库的文章,我发现他们有经过预先训练的语言模型,而不是英语。目的是预测不同单词之间的亲密程度。
我想知道的是,我能不能对非英语数据和新闻网站的文章进行快速文本模式的培训,以达到更好的效果,比如政治和现在的话题等等。
,提前谢谢!
发布于 2019-01-25 19:13:41
我能把它训练成非英语数据集吗?
当然,你可以。Fasttext在其webiste上提供了157个不同语言的可用预培训模型列表,您也可以下载它们。
训练一个10 GB的文本模型需要多长时间?
这取决于您的系统和实现。例如,在Mac上使用16 10的内存,加上facebook的实现,大约需要8-10个小时。
够大了吗?
如果10 is是经过清洗和预处理后的文件大小,是的,那就足够公平了。
有更好的解决办法吗?
什么是更好的解决方案?如果我是你的话,我先试试看那些受过训练的模特。
https://stackoverflow.com/questions/54370750
复制相似问题