我试图使用sentence_transformers来获取伯特嵌入,但它不能处理例如300个文档,我一直得到错误IndexError: list索引超出了范围。怎么解决这个问题?
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('distilbert-base-nli-mean-tokens')
embeddings = model.encode(tokenized_docs_smaller, show_progress_bar=True)发布于 2022-07-04 02:58:37
必须用BertTokenizer标记文本,而不仅仅是使用split()
https://stackoverflow.com/questions/72776921
复制相似问题