我找到了这个参考:https://www.safaribooksonline.com/library/view/regular-expressions-cookbook/9781449327453/ch05s07.html有没有可能将它与quanteda包中的kwic函数一起使用,以便能够在语料库中找到文档,其中包含的单词不是“卡住”的,而是彼此接近的,中间可能还有一些其他单词?
例如,如果我在函数中给出两个单词,我希望在语料库中找到这两个单词出现的文档,但可能中间有一些单词。例如,你告诉我“引擎”和“电气”,我也会得到“电气同步引擎”出现的报告,但不会得到“引擎”和“电气”出现在完全不同的上下文中的报告。
发布于 2018-04-20 19:02:45
quanteda没有NEAR运算符,但您可以使用tokens_select()的window参数来做同样的事情。在本例中,我从uisng kwic()中搜索"america*“中的五个单词
require(quanteda)
toks <- tokens(data_corpus_inaugural)
toks_america <- tokens_select(toks, "america*", window = 5)
kwic(toks_america, "econom*")
# [2013-Obama, 45] has been tested by crises | economic | recovery has begun. America's
kwic(toks_america, "power")
# [1997-Clinton, 85] it can give Americans the | power | to make a government ishttps://stackoverflow.com/questions/49907577
复制相似问题