我每天收集数以百万计的体育相关推文。我想处理那些推文中的文字。我想要识别这些实体,找到句子的情感,并在这些推文中找到事件。
实体承认:
例如:“鲁尼将在他们的下一场比赛中为英格兰效力”。
从这条推文中,我想承认个人实体“鲁尼”和“英格兰”。
情绪分析:
我想找到一个句子的情感。例如
第一句应为“否定句”,后一句应为“肯定”句。
事件识别:
我想从推特上找到“进球事件”。像“梅西上半场进球”和“杰拉德的精彩进球”这样的句子应该被标记为“进球事件”。
我知道实体识别和情感分析工具是可用的,我需要为事件识别编写规则。我见过很多工具,比如Stanford NER,alchemy api,open calais,meaning cloud api,ling pipe,illinois等等。我真的很困惑我应该选择哪种工具?是否有免费工具可供使用,不受每日收费限制?我想每天处理数百万条推文,java是我最喜欢的语言。
谢谢。
发布于 2015-04-20 13:20:02
考虑到您喜欢的语言是Java,我强烈建议从Stanford项目开始。你的大部分基本需求,如清洗,块状,NER,都可以在此基础上完成。请点击这里。
在情感分析方面,您可以使用简单的分类器,比如朴素贝叶斯,然后添加复杂性。更多的这里。
对于事件提取,您可以使用语言方法来识别动词及其与本体的关联。
只要记住,这只是为了让你开始,不可能得到一个广泛的答案。
发布于 2015-04-20 13:24:54
对于NER,您也可以使用TwitIE,这是一个门管道,所以您可以使用Java。
发布于 2015-04-20 13:36:27
无API与无限调用可用。如果您想坚持使用java,请根据需要使用带有自定义的斯坦福软件包。
如果您对python很满意,请看nltk。
那么,对于person,organization斯坦福大学将适用于您的输入查询:
Rooney will play for England in their next match
[Text=Rooney CharacterOffsetBegin=0 CharacterOffsetEnd=6 PartOfSpeech=NNP Lemma=Rooney NamedEntityTag=PERSON] [Text=will CharacterOffsetBegin=7 CharacterOffsetEnd=11 PartOfSpeech=MD Lemma=will NamedEntityTag=O] [Text=play CharacterOffsetBegin=12 CharacterOffsetEnd=16 PartOfSpeech=VB Lemma=play NamedEntityTag=O] [Text=for CharacterOffsetBegin=17 CharacterOffsetEnd=20 PartOfSpeech=IN Lemma=for NamedEntityTag=O] [Text=England CharacterOffsetBegin=21 CharacterOffsetEnd=28 PartOfSpeech=NNP Lemma=England NamedEntityTag=LOCATION] [Text=in CharacterOffsetBegin=29 CharacterOffsetEnd=31 PartOfSpeech=IN Lemma=in NamedEntityTag=O] [Text=their CharacterOffsetBegin=32 CharacterOffsetEnd=37 PartOfSpeech=PRP$ Lemma=they NamedEntityTag=O] [Text=next CharacterOffsetBegin=38 CharacterOffsetEnd=42 PartOfSpeech=JJ Lemma=next NamedEntityTag=O] [Text=match CharacterOffsetBegin=43 CharacterOffsetEnd=48 PartOfSpeech=NN Lemma=match NamedEntityTag=O]如果您也想添加event识别,则需要使用具有基于event的数据集的校外类重新培训斯坦福包。它可以帮助您对基于事件的输入进行分类。
NER使用词类标签吗? 默认情况下,我们当前的模型中没有一个使用pos标记。这很大程度上是因为Stanford标签所使用的特性与NER系统中使用的特性非常相似,因此使用POS标记的好处很小。 然而,它当然有可能训练新的模式,使用POS标签。培训数据需要有一个带有标记信息的额外列,然后将tag=X添加到map参数中。
check - http://nlp.stanford.edu/software/crf-faq.shtml
https://stackoverflow.com/questions/29747350
复制相似问题