假设您指的是oov_token of tf.keras.preprocessing.text.Tokenizer，那么您应该看看源代码，以了解在引擎盖下发生了什么。在text_to_sequence方法中，您可以看到oov_token的索引为oov_token=True添加了两次

当在word_index中找不到序列中的单词时，这是映射到唯一整数值的词汇表中每个单词的字典。
当您设置要保持的最大单词数时，使用num_words和i作为某个单词的索引时，等于或高于num_words。

以下是相关代码：

vect = []
for w in seq:
    i = self.word_index.get(w)
    if i is not None:
        if num_words and i >= num_words:
            if oov_token_index is not None:
                vect.append(oov_token_index)
        else:
            vect.append(i)
    elif self.oov_token is not None:
        vect.append(oov_token_index)
yield vect

另外，这里您可以看到，如果oov_token设置为True，则它总是得到索引1。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71925661

复制

相似问题

问keras oov_token=True是如何工作的
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问keras oov_token=True是如何工作的EN