首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >尝试运行Word Embeddings基准测试并获取UnicodeDecodeError

尝试运行Word Embeddings基准测试并获取UnicodeDecodeError
EN

Stack Overflow用户
提问于 2019-11-16 09:48:09
回答 1查看 87关注 0票数 0

我正在尝试在我创建的word2vec嵌入上运行Github:Word Embeddings Benchmarks Github的单词嵌入基准测试。我已经添加了一张嵌入文件的图片。

我一直收到这个错误:

代码语言:javascript
复制
Traceback (most recent call last):
  File "./evaluate_on_all.py", line 75, in <module>
    load_kwargs=load_kwargs)
  File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embeddings.py", line 39,     in load_embedding
    w = Embedding.from_word2vec(fname, binary=False)
  File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embedding.py", line 482,  in from_word2vec
    words, vectors = Embedding._from_word2vec_text(fname)
  File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embedding.py", line 340,  in _from_word2vec_text
    header = fin.readline()
  File "/share/software/user/open/python/3.6.1/lib/python3.6/codecs.py", line 321, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 16: invalid start byte

我只想让基准测试能够正确地与我的嵌入一起工作。

标头的十六进制转储结果:

EN

回答 1

Stack Overflow用户

发布于 2019-11-17 03:07:04

看起来你在读取文件的第一个标题行时遇到了错误(这表明它并不像后面的一个有挑战性的单词):

https://github.com/kudkudak/word-embeddings-benchmarks/blob/2b56c401ea4bba335ebfc0c8c5c4f8ba6394f2cd/web/embedding.py#L340

您确定指定的是正确的纯文本文件吗?

文件的开头会不会有额外的隐藏字符,比如'Byte Order Mark'?(看看hexdump -C YOUR_FILE_NAME | head可能会给出一些线索。)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58886815

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档