首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用POS Taggers会在德语中产生错误的格式

使用POS Taggers会在德语中产生错误的格式
EN

Stack Overflow用户
提问于 2018-07-20 08:02:20
回答 2查看 61关注 0票数 0

我遇到了一些关于标注德语语料库的问题,而英语语料库是正常的。例如:

原句: ( Foto unten )国际扶轮社长kesson(施韦登),Mitglied des NID-茶小姐,北der Impfung eines Kindes in Indien。

注释句:

  1. (_XY Foto_NN unten_ADV )_CARD RI_NE Director_NE Kjell-胈NE
  2. ke_XY胈XY
  3. kesson_NE (_VVFIN Schweden_NE )NE,$,Mitglied_NN des_ART NID_NN,_$,be i_APPR der_ART Impfung_NN eines_ART Kindes_NN in_APPR Indien_NE ._$.

在这种情况下,字符“奥尔”将引起变化,并导致换行符,因此,整个语料库将增加4000行。

顺便说一下,我的程序命令如下:

代码语言:javascript
复制
java -mx8g -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -tokenize false -sentenceDelimiter newline -model models/german-hgc.tagger -textFile /data/mmyin/wmt17_de_en/test_1 > /data/mmyin/wmt17_de_en/test_pos
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-07-20 08:10:45

嗨,我建议使用完整的管道。

你可以在这里下载:

https://stanfordnlp.github.io/CoreNLP/

下面是一个在德文文本上运行的示例命令:

代码语言:javascript
复制
java -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-german.properties -annotators tokenize,ssplit,pos -file example.txt -outputFormat text
票数 0
EN

Stack Overflow用户

发布于 2018-07-21 13:32:35

@StanfordNLPHelp

谢谢你的回复!这对me.But很有帮助,有一些问题要问我。首先,该工具包用于处理约500万行德语语料库,但语料库句子中含有一些结束标点符号或一些句子缺少结束标点符号。因此,可能会出现一些mistakes.For示例:

原句:

“伊丁带来欧罗巴·沃兰!”knüpft die Kamp涅und das Jahr der Kreativit t und an。

注释句:

句子#1 (11标记):“Ideen bringen voran!”

第二句(12个代币):knüpft die Kamp涅an das Jahr der Kreativit t und Innovation an .

在这种情况下,我不希望把一句分成两句。

最后,输出格式如下所示

Text=unter CharacterOffsetBegin=0 CharacterOffsetEnd=5 PartOfSpeech=APPR.

我只想得到一个句子中每个单词的PartOfSpeech,然后输出到一行。

我能做什么?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51437842

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档