我一直在测试不同的柠檬化方法,因为它将用于一个非常大的语料库。下面是我的方法和结果。有谁有任何技巧来加速这些方法吗?空间是最快的,包括部分语音标记(首选),其次是柠檬。我是不是走错路了?这些函数被应用于包含文本的数据模型上的熊猫.apply()。 lemmatizer = WordNetLemmatizer() if len(x)==0: tok
我有一个熊猫数据帧。有一列,让我们把它命名为:'col‘这一列的每个条目都是一个单词列表。'word1‘、'word2’等。import nltk我希望能够为pandas数据集中某一列中所有单元格的所有单词找到一个引理。import pandas as pd
data = [[['walked','am','stressed',