from nltk.stem import WordNetLemmatizer
import pandas as pd 
your_dataframe = pd.DataFrame({
    'Text_Tweet':['rocks corpora', 'corpora rocks']
})
lemmatizer = WordNetLemmatizer()
your_dataframe['Processed_Tweet'] = your_dataframe['Text_Tweet'].apply(lambda item:' '.join([lemmatizer.lemmatize(word) for word in item.split()]))
your_dataframe

输出：

      Text_Tweet Processed_Tweet
0  rocks corpora     rock corpus
1  corpora rocks     corpus rock

票数 1

Stack Overflow用户

发布于 2021-11-30 08:43:06

试试这个：

import nltk
w_tokenizer = nltk.tokenize.WhitespaceTokenizer()
lemmatizer = nltk.stem.WordNetLemmatizer()

def lemmatize_text(text):
    return [lemmatizer.lemmatize(w) for w in w_tokenizer.tokenize(text)]

#example of datasets
df = pd.DataFrame(['I am a boy', 
                   'He likes these books', 
                   'There were four columns'], columns=['Text_Tweet'])

df['lemm'] = df.Text_Tweet.apply(lemmatize_text)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70164699

复制

相似问题

问如何将一列替换为仅包含所有标记的词元的字符串？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将一列替换为仅包含所有标记的词元的字符串？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将一列替换为仅包含所有标记的词元的字符串？
EN