首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何解决nltk.corpus.words.words()中缺少的单词?

如何解决nltk.corpus.words.words()中缺少的单词?
EN

Stack Overflow用户
提问于 2022-05-03 12:49:29
回答 1查看 191关注 0票数 3

我试着从课文中删除非英语单词。问题:在NLTK语料库中,还有许多词是不存在的。

我的代码:

代码语言:javascript
复制
import pandas as pd
    
lst = ['I have equipped my house with a new [xxx] HP203X climatisation unit']
df = pd.DataFrame(lst, columns=['Sentences'])
    
import nltk 
nltk.download('words')
words = set(nltk.corpus.words.words())
    
df['Sentences'] = df['Sentences'].apply(lambda x: " ".join(w for w in nltk.wordpunct_tokenize(x) if w.lower() in (words)))
df

输入:I have equipped my house with a new [xxx] HP203X climatisation unit

结果:I have my house with a new unit

应该是:I have equipped my house with a new climatisation unit

我不知道如何完成nltk.corpus.words.words(),以避免像equippedclimatisation这样的词从句子中被改写。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-05-12 09:41:04

您可以使用

代码语言:javascript
复制
words.update(['climatisation', 'equipped'])

在这里,words是一个集合,这就是为什么.extend(word_list)不能工作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72099620

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档