问尝试运行Word Embeddings基准测试并获取UnicodeDecodeError
EN

Stack Overflow用户

提问于 2019-11-16 09:48:09

回答 1查看 87关注 0票数 0

我正在尝试在我创建的word2vec嵌入上运行Github：Word Embeddings Benchmarks Github的单词嵌入基准测试。我已经添加了一张嵌入文件的图片。

我一直收到这个错误：

Traceback (most recent call last):
  File "./evaluate_on_all.py", line 75, in <module>
    load_kwargs=load_kwargs)
  File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embeddings.py", line 39,     in load_embedding
    w = Embedding.from_word2vec(fname, binary=False)
  File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embedding.py", line 482,  in from_word2vec
    words, vectors = Embedding._from_word2vec_text(fname)
  File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embedding.py", line 340,  in _from_word2vec_text
    header = fin.readline()
  File "/share/software/user/open/python/3.6.1/lib/python3.6/codecs.py", line 321, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 16: invalid start byte

我只想让基准测试能够正确地与我的嵌入一起工作。

标头的十六进制转储结果：

word2vec

回答 1

Stack Overflow用户

发布于 2019-11-17 03:07:04

看起来你在读取文件的第一个标题行时遇到了错误(这表明它并不像后面的一个有挑战性的单词)：

https://github.com/kudkudak/word-embeddings-benchmarks/blob/2b56c401ea4bba335ebfc0c8c5c4f8ba6394f2cd/web/embedding.py#L340

您确定指定的是正确的纯文本文件吗？

文件的开头会不会有额外的隐藏字符，比如'Byte Order Mark'？(看看hexdump -C YOUR_FILE_NAME | head可能会给出一些线索。)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58886815

复制

相似问题

问尝试运行Word Embeddings基准测试并获取UnicodeDecodeError
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问尝试运行Word Embeddings基准测试并获取UnicodeDecodeErrorEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问尝试运行Word Embeddings基准测试并获取UnicodeDecodeError
EN