首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >加载预训练的单词嵌入

加载预训练的单词嵌入
EN

Stack Overflow用户
提问于 2017-10-27 01:11:55
回答 1查看 489关注 0票数 0

我想从谷歌新闻中加载预先训练好的单词嵌入

代码语言:javascript
复制
model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
print (model.wv.vocab)

但是错误显示如下:

代码语言:javascript
复制
UnicodeEncodeError: 'ascii' codec can't encode character '\u2022' in position 62425: ordinal not in range(128)

我该如何解决这个问题?因为我想列出单词嵌入中的所有单词,并计算句子嵌入的平均值。

EN

回答 1

Stack Overflow用户

发布于 2018-02-01 08:19:28

我以同样的方式加载它们,并且没有这个问题--我怀疑是print语句。可能你的stdout是只为ascii设置的,不管它是在jupyter中还是在终端上。为了避免这个问题,我建议使用如下编码打开一个文件

代码语言:javascript
复制
with open("vocab.txt", "w", encoding="utf8") as vocab_out:
    for word in model.wv.vocab:
        vocab_out.write(word + "\n")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46960119

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档