我正在尝试在我创建的word2vec嵌入上运行Github:Word Embeddings Benchmarks Github的单词嵌入基准测试。我已经添加了一张嵌入文件的图片。

我一直收到这个错误:
Traceback (most recent call last):
File "./evaluate_on_all.py", line 75, in <module>
load_kwargs=load_kwargs)
File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embeddings.py", line 39, in load_embedding
w = Embedding.from_word2vec(fname, binary=False)
File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embedding.py", line 482, in from_word2vec
words, vectors = Embedding._from_word2vec_text(fname)
File "/home/groups/gdarmsta/word-embeddings-benchmarks-master/scripts/web/embedding.py", line 340, in _from_word2vec_text
header = fin.readline()
File "/share/software/user/open/python/3.6.1/lib/python3.6/codecs.py", line 321, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 16: invalid start byte我只想让基准测试能够正确地与我的嵌入一起工作。
标头的十六进制转储结果:

发布于 2019-11-17 03:07:04
看起来你在读取文件的第一个标题行时遇到了错误(这表明它并不像后面的一个有挑战性的单词):
您确定指定的是正确的纯文本文件吗?
文件的开头会不会有额外的隐藏字符,比如'Byte Order Mark'?(看看hexdump -C YOUR_FILE_NAME | head可能会给出一些线索。)
https://stackoverflow.com/questions/58886815
复制相似问题