根据这篇文章的标题,我想知道是否可以使用StanfordCoreNLP来获得文本的选区解析,同时使用预先存在的、可能外部提供的文本标记。我希望在用法语编写的文本中这样做。我猜想,如果可能的话,只有包含令牌描述的文件才是必需的,因为文本的一个版本可以从这个文件中重构。我想,如果用java编程并直接使用java类,可能是可能的,但是由于我不太懂java,所以我想知道这样的事情是否可以使用命令行指令。有人知道这种事吗?
我通过谷歌搜索这个问题的答案,并浏览StanfordCoreNLP站点(https://nlp.stanford.edu/),特别是这个页面https://nlp.stanford.edu/software/,但没有找到我要找的东西。在寻找获取软件信息的方法时,我发现我们被告知在StackOverflow上问一个问题。
现在,对于我的问题的精确表述:是否有一种方法使用带有命令行接口的StanfordCoreNLP,以便在用法语编写的文本上获得选区解析信息,同时迫使StanfordCoreNLP尊重该文本的预先存在的输入标记化?如果答案是肯定的,我在哪里可以将这种方式记录在案呢?
编辑:示例:我将提供一个示例,说明在用英语编写的文本上所做的事情:
原稿:“约翰去旅行了,真不错。”»
代记文字:约翰去旅行了,这是相当不错的。(在这里,与原始文本的不同之处是标点符号与它们各自的前一个单词分开)
文本的选区分析:(根(S (NP (NNP John)) (VP (VBD RB) (PP (IN )) (NP (NP (DT a) (NN trip)) (:;) (SBAR (WHNP (WDT WDT)) (S (VP (VBD )) (ADJP (RB ROOT) (JJ Nice)。))
如您所见,选区解析可以看作是标记化步骤结果的注释。我目前知道如何通过提供原始文本来使用StanfordCoreNLP套件来计算选区解析信息以及其他类型的信息,但我想,为了实现这一点,StanfordCoreNLP套件执行了自己的标记化步骤。
我想知道是否有一种方法可以强迫StanfordCoreNLP套件使用/尊重法语文本的预定义标记。
编辑2:
谢谢你的回答。顺便说一句,这让我了解了如何使用命令行上的"{annotator_name}.{option_name}“格式,将StanfordCoreNLP的管道过程中使用的不同注释器参数化;因此,下次我将能够更好地理解StanfordCoreNLP的文档。
发布于 2017-10-19 19:38:06
使用tokenize.whitespace选项,并提供由空格标记的文本。该选项将只创建由空格分隔的单词。
https://stackoverflow.com/questions/46832933
复制相似问题