首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >利用空间符号id提取张量

利用空间符号id提取张量
EN

Stack Overflow用户
提问于 2021-07-29 09:54:23
回答 1查看 214关注 0票数 1

我使用spacy 3.0来用转换器模型向量化文本。由于数据隐私的原因,矢量化必须在与训练模型的机器不同的机器上进行。为了减少生成的数据量并在机器之间进行传输,我提取文本的令牌ids如下所示:

代码语言:javascript
复制
import spacy
nlp = spacy.load("de_dep_news_trf")
doc = nlp("Eine Bank steht im Park.")
print(doc._.trf_data.tokens["input_ids"])

回传

代码语言:javascript
复制
tensor([[    3,   917,  2565,  1302,   106,  3087, 26914,     4]])

现在就有ids了,是否可以使用spacy从语言模型(de_dep_news_trf)中提取正确的张量?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-29 12:53:50

不幸的是,这是不可能的。问题是转换器模型为上下文上的单个令牌生成它们的嵌入。意思是,如果在两个不同的句子中有相同的token_id,它们可能有(显著的)不同的嵌入。唯一的方法是返回与每个令牌相关联的张量,但是不能仅仅基于input_ids生成它们。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68573795

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档