我正在使用stanford core NLP,并使用下面这行代码加载一些模块来处理我的文本:
props.put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref");有没有一个我可以加载的模块来分块文本?
或者有什么建议可以用另一种方式使用斯坦福的核心来分块一些文本?
谢谢
发布于 2012-11-13 09:20:08
我认为解析器的输出可以用来获得NP块。看看Stanford Parser website上的上下文无关表示,它提供了示例输出。
发布于 2013-04-23 10:07:51
要在Stanford NLP中使用分块,您可以使用以下软件包:
对拉姆肖和马库斯(1995)的重新实现。
来源:http://www-nlp.stanford.edu/links/statnlp.html#NPchunk
发布于 2019-05-12 11:15:16
你需要的是constituency in CoreNLP的输出,它会给你块的信息,例如动词短语(VP),名词短语(NP)等等。但据我所知,CoreNLP中没有方法给你一个块列表。这意味着您必须解析成分分析的实际输出,以提取组块。
例如,这是CoreNLP的成分解析器对一个示例句子的输出:
(ROOT (S ("" "") (NP (NNP Anarchism)) (VP (VBZ is) (NP (NP (DT a) (JJ political) (NN philosophy)) (SBAR (WHNP (WDT that)) (S (VP (VBZ advocates) (NP (NP (JJ self-governed) (NNS societies)) (VP (VBN based) (PP (IN on) (NP (JJ voluntary) (, ,) (JJ cooperative) (NNS institutions))))))))) (, ,) (S (VP (VBG rejecting) (NP (JJ unjust) (NN hierarchy))))) (. .)))正如您所看到的,字符串中有NP和VP标记,现在您必须通过解析此字符串来提取块的实际文本。让我知道你是否可以找到一个方法,给你的块列表?!
https://stackoverflow.com/questions/8299897
复制相似问题