我正在为语料库的分析做准备,首先使用命令'lexicalize',该命令返回一个术语-文档矩阵,如果没有预先指定,还会返回一个在语料库中出现的具有唯一标记的词汇表。出于研究目的,我想使用从另一个语料库推断出的词汇表对语料库进行词汇化(让我们称其为'corpusA'),这是一件应该很容易完成的事情。然而,它并没有起作用。I have a major headache")
B1
$documents[[1]
我试图从语料库中删除较长(>25个标记)和较短(<4个标记)的句子,并删除包含出现次数少于8次的罕见单词的句子。我试图删除它,但每次尝试都会收到错误消息或空列表。语料库是棕色语料库。lens = [w for w in corpus.sents() if len(w)>=25 and len(w)<= 4]out: []
我也不知道如何在这份清单中加入稀有单词的理解