我目前正在从事我的最后一年的研究项目,该项目是一个应用程序,通过进行方面层次的情感分析,分析在线发现的旅游评论,并给出特定旅游景点的情感评分。
我有一个新刮的数据集从一个著名的旅游网站,不允许使用他们的API用于研究/学术目的。(令人沮丧)
我的主管说,我可能需要对这个数据集进行注释,然后再将它用于上述目的。在这种情况下,数据注释意味着什么,我有点困惑。有人能解释一下,当一个数据集被注释时到底发生了什么,以及它如何帮助完成情感分析?
有人告诉我,我可能需要得到两个/三个人工注释器,并对数据进行注释,以减少数据的偏倚。我的日程很紧,我想知道是否有什么工具可以帮我完成这件事?如果是这样的话,使用这些工具对人工注释器会产生什么影响?我也希望你能推荐这样的工具。
我非常希望对我的问题有一个详细的解释,因为我被困在我的项目进展到下一个步骤,因为这一点。
提前谢谢你。
发布于 2016-01-29 21:34:43
首先,机器学习算法(例如,情感分析算法)是通过收集许多执行任务的人的例子来学习执行人类当前执行的任务,然后模仿它们。当你的主管谈到“注释”时,他们说的是收集一个人做情感注释任务的例子:为情感注释一个句子。也就是说,收集由人类判断的句子对和他们的情感。没有这个,这个程序就没有什么可学的了,你只能希望这个程序能给你从任何东西中得到一些东西--这是永远不会的。
尽管如此,还是有收集这类数据的工具,或者至少有帮助。亚马逊、机械、土耳其和其他众包平台是这种数据收集的好资源。您还可以查看类似的内容:http://www.crowdflower.com/type-sentiment-analysis。
https://stackoverflow.com/questions/35087563
复制相似问题