文章/答案/技术大牛

发布

社区首页 >问答首页 >NLP中的单词总数(列表长度)与列表或文件的词汇量之间的差异？

问NLP中的单词总数(列表长度)与列表或文件的词汇量之间的差异？
EN

Stack Overflow用户

提问于 2018-09-25 14:00:37

回答 2查看 513关注 0票数 0

如何计算在python中存储为列表的语料库的单词和词汇量？这两个术语的主要区别是什么？

假设，我使用以下列表。单词总数或列表长度可以由len(L1)计算。然而，我有兴趣知道如何计算以下清单的词汇表。

 L1 = ['newnes', 'imprint', 'elsevier', 'elsevier', 'corporate', 'drive', 'suite', 
'burlington', 'usa', 'linacre', 'jordan', 'hill', 'oxford', 'uk',
'elsevier', 'inc', 'right', 'reserved', 'exception', 'newness', 'uk', 'military',
'organization', 'summary', 'task', 'definition', 'system', 'definition',
'system', 'engineering', 'military', 'project', 'military', 'project', 
'definition', 'input', 'output', 'operation', 'requirement', 'development',
'overview', 'spacecraft', 'development', 'architecture', 'design']

python-3.x

list

nlp

vocabulary

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-09-26 10:30:30

这就是你要找的吗？

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
list_of_tokens = ['cat', 'dog','cats', 'children','dog']
unique_tokens = set(list_of_tokens)
### {'cat', 'cats', 'children', 'dog'}

tokens_lemmatized = [ lemmatizer.lemmatize(token) for token in unique_tokens]
#### ['child', 'cat', 'cat', 'dog']

unique_tokens_lemmatized = set(tokens_lemmatized)
#### {'cat', 'child', 'dog'}

print('Input tokens:',len(list_of_tokens) , 'Lemmmatized tokens:', len(unique_tokens_lemmatized)
#### Input tokens: 5 Lemmmatized tokens: 3

票数 1

Stack Overflow用户

发布于 2018-09-25 15:13:28

如果您的问题是如何获取列表中的唯一单词数，可以使用布景。实现(根据我从NLP中的记忆，语料库的词汇表应该意味着该语料库中唯一单词的集合)。

使用set()方法将列表转换为一组，然后调用该方法的len()。在您的例子中，您将得到列表L1中的唯一单词数，如下所示：

len(set(L1))     #number of unique words in L1

编辑:你现在提到了词汇是一组令人迷惑的词。在本例中，除了从NLTK或您正在使用的任何NLP库中导入狐猴外，您还将执行相同的操作，将您的列表或其他任何内容运行到柠檬池中，并将输出转换为一个集合并继续进行上面的操作。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52500060

复制

相似问题

问NLP中的单词总数(列表长度)与列表或文件的词汇量之间的差异？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NLP中的单词总数(列表长度)与列表或文件的词汇量之间的差异？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NLP中的单词总数(列表长度)与列表或文件的词汇量之间的差异？
EN