我希望编写一个脚本来解析用户的tweet并将其分类到以前指定的类别中。例如:
“埃德米利班德将失去选举,如果他是‘诱惑’布莱尔说,工会主席http://bit.ly/145CRAD说
将在领域政治中进行分类。
亲爱的萨钦,你40岁了。买一辆跑车,和20岁的金发女郎一起玩。享受你的中年危机。把IPL留给男孩--你的粉丝
将分类在领域板球。
做这件事最好的方法是什么?
发布于 2013-04-24 17:53:53
你在找一个'主题模型‘。技术包括潜在的Dirichlet分配和其他。维基百科的文章包含了一些资源的链接,比如马勒,这应该对你有帮助。
你没有具体说明你想使用哪种语言,或者什么是“最好”的意思?最容易实现,最快,还是最好的结果?
另一种选择是使用人类(例如亚马逊( Amazon )机械土耳其人),它可能给你的推文带来“最佳”的结果,因为考虑到所有的缩写、讽刺和哈希标签……#notAnEasyProblem,这些推文都是众所周知的很难分类的。
发布于 2013-04-24 17:43:27
这份文件将是一个很好的开始寻找..。http://dl.acm.org/citation.cfm?id=1835643 http://www.tmrfindia.org/ijcsa/v9i15.pdf
发布于 2013-04-25 17:40:40
这是自然语言处理领域的一个复杂问题,称为文档分类。最好的开源库之一是由斯坦福NLP集团维护的。祝好运!
https://stackoverflow.com/questions/16198508
复制相似问题