首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用NLTK对自己的文本数据进行情感分类

用NLTK对自己的文本数据进行情感分类
EN

Stack Overflow用户
提问于 2012-05-19 19:38:18
回答 1查看 1.8K关注 0票数 1

我要问的问题听起来可能非常类似于post 用NLTK python分析句子时使用样本数据还是webservice?,但我已经完成了对文本中句子的解析和令牌化。我的问题是

  1. 到目前为止,我在NLTK电影评论示例中看到的任何示例似乎都与我的问题非常相似,但是对于movie_review,培训文本已经以一种形式存在,因为它有两个文件夹pos和neg,文本存储在那里。如何对我的大型文本进行分类,是否手动读取数据并将其存储到两个文件夹中。这是否构成了语料库。在此之后,我可以像示例中的movie_review数据那样处理它们吗?

2.如果对上述问题的回答是肯定的,是否有任何手段可以加快这项任务。例如,我只想处理包含"Monty“内容的文本。然后我将它们手动分类,然后将它们存储在pos和neg文件夹中。那有用吗?

请帮帮我

EN

回答 1

Stack Overflow用户

发布于 2012-05-20 23:52:55

是的,你需要一个训练语料库来训练分类器。或者你需要其他方法来检测情绪。

要创建培训语料库,您可以手工分类,也可以让其他人为您分类(机械土耳其语很受欢迎),或者您可以使用语料库引导。对于情感,这可能涉及创建两个关键字列表,积极的词和消极的词。使用这些,你可以创建一个初始训练语料库,用手纠正它,然后训练一个分类器。这是一个迭代过程,需要记住的关键是“垃圾进入,垃圾输出”。换句话说,如果你的训练语料库是错误的,你不能期望你的分类器是正确的。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10668307

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档