首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将一列替换为仅包含所有标记的词元的字符串?

如何将一列替换为仅包含所有标记的词元的字符串?
EN

Stack Overflow用户
提问于 2021-11-30 05:25:08
回答 2查看 44关注 0票数 0

我在dataframe中有一个列名为“Text_Tweet”的列,其中每一行都包含一条tweet。

如何将每行推文替换为仅包含每行推文词条的字符串?

EN

回答 2

Stack Overflow用户

发布于 2021-11-30 06:26:02

nltk包中有一个内置的实用程序,它允许我们以最简单的方式对单词进行词条分类。最后,我们将会是孤军奋战:

代码语言:javascript
复制
from nltk.stem import WordNetLemmatizer
import pandas as pd 
your_dataframe = pd.DataFrame({
    'Text_Tweet':['rocks corpora', 'corpora rocks']
})
lemmatizer = WordNetLemmatizer()
your_dataframe['Processed_Tweet'] = your_dataframe['Text_Tweet'].apply(lambda item:' '.join([lemmatizer.lemmatize(word) for word in item.split()]))
your_dataframe

输出:

代码语言:javascript
复制
      Text_Tweet Processed_Tweet
0  rocks corpora     rock corpus
1  corpora rocks     corpus rock
票数 1
EN

Stack Overflow用户

发布于 2021-11-30 08:43:06

试试这个:

代码语言:javascript
复制
import nltk
w_tokenizer = nltk.tokenize.WhitespaceTokenizer()
lemmatizer = nltk.stem.WordNetLemmatizer()

def lemmatize_text(text):
    return [lemmatizer.lemmatize(w) for w in w_tokenizer.tokenize(text)]

#example of datasets
df = pd.DataFrame(['I am a boy', 
                   'He likes these books', 
                   'There were four columns'], columns=['Text_Tweet'])

df['lemm'] = df.Text_Tweet.apply(lemmatize_text)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70164699

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档