我要问的问题听起来可能非常类似于post 用NLTK python分析句子时使用样本数据还是webservice?,但我已经完成了对文本中句子的解析和令牌化。我的问题是
2.如果对上述问题的回答是肯定的,是否有任何手段可以加快这项任务。例如,我只想处理包含"Monty“内容的文本。然后我将它们手动分类,然后将它们存储在pos和neg文件夹中。那有用吗?
请帮帮我
发布于 2012-05-20 23:52:55
是的,你需要一个训练语料库来训练分类器。或者你需要其他方法来检测情绪。
要创建培训语料库,您可以手工分类,也可以让其他人为您分类(机械土耳其语很受欢迎),或者您可以使用语料库引导。对于情感,这可能涉及创建两个关键字列表,积极的词和消极的词。使用这些,你可以创建一个初始训练语料库,用手纠正它,然后训练一个分类器。这是一个迭代过程,需要记住的关键是“垃圾进入,垃圾输出”。换句话说,如果你的训练语料库是错误的,你不能期望你的分类器是正确的。
https://stackoverflow.com/questions/10668307
复制相似问题