我遇到了一些关于标注德语语料库的问题,而英语语料库是正常的。例如:
原句: ( Foto unten )国际扶轮社长kesson(施韦登),Mitglied des NID-茶小姐,北der Impfung eines Kindes in Indien。
注释句:
在这种情况下,字符“奥尔”将引起变化,并导致换行符,因此,整个语料库将增加4000行。
顺便说一下,我的程序命令如下:
java -mx8g -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -tokenize false -sentenceDelimiter newline -model models/german-hgc.tagger -textFile /data/mmyin/wmt17_de_en/test_1 > /data/mmyin/wmt17_de_en/test_pos发布于 2018-07-20 08:10:45
嗨,我建议使用完整的管道。
你可以在这里下载:
https://stanfordnlp.github.io/CoreNLP/
下面是一个在德文文本上运行的示例命令:
java -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-german.properties -annotators tokenize,ssplit,pos -file example.txt -outputFormat text发布于 2018-07-21 13:32:35
@StanfordNLPHelp
谢谢你的回复!这对me.But很有帮助,有一些问题要问我。首先,该工具包用于处理约500万行德语语料库,但语料库句子中含有一些结束标点符号或一些句子缺少结束标点符号。因此,可能会出现一些mistakes.For示例:
原句:
“伊丁带来欧罗巴·沃兰!”knüpft die Kamp涅und das Jahr der Kreativit t und an。
注释句:
句子#1 (11标记):“Ideen bringen voran!”
第二句(12个代币):knüpft die Kamp涅an das Jahr der Kreativit t und Innovation an .
在这种情况下,我不希望把一句分成两句。
最后,输出格式如下所示
Text=unter CharacterOffsetBegin=0 CharacterOffsetEnd=5 PartOfSpeech=APPR.
我只想得到一个句子中每个单词的PartOfSpeech,然后输出到一行。
我能做什么?
https://stackoverflow.com/questions/51437842
复制相似问题