文章/答案/技术大牛

发布

社区首页 >问答首页 >德国小说“与DkPro”

问德国小说“与DkPro”
EN

Stack Overflow用户

提问于 2020-05-28 09:13:24

回答 1查看 106关注 0票数 1

我试过德国小说“与DkPro”。我的示例输入文件是一个XHTML文件。如何根据XHTML获得PosTagger输出。

脚本：

 PACKAGE com.github.uima.ruta.novel;
 ENGINE utils.HtmlAnnotator;
 ENGINE utils.HtmlConverter;
 ENGINE utils.ViewWriter;
 TYPESYSTEM utils.HtmlTypeSystem;
 TYPESYSTEM utils.TypeSystem;

 IMPORT PACKAGE de.tudarmstadt.ukp.dkpro.core.api.lexmorph.type.pos FROM desc.type.POS;
 IMPORT de.tudarmstadt.ukp.dkpro.core.api.segmentation.type.Lemma FROM desc.type.LexicalUnits;

 UIMAFIT org.dkpro.core.opennlp.OpenNlpSegmenter;
 UIMAFIT org.dkpro.core.stanfordnlp.StanfordPosTagger;

 CONFIGURE(HtmlAnnotator, "onlyContent" = false);
 Document{-> EXEC(HtmlAnnotator)};
 Document { -> CONFIGURE(HtmlConverter, "inputView" = "_InitialView","outputView" = "plain"),
 EXEC(HtmlConverter,{TAG})};

 "<\\?xml version=\"1.0\" encoding=\"UTF-8\"\\?>"->MARKUP;
 uima.tcas.DocumentAnnotation{-CONTAINS(POS)} -> {
 uima.tcas.DocumentAnnotation{-> SETFEATURE("language", "de")};
 EXEC(OpenNlpSegmenter);
 EXEC(StanfordPosTagger, {POS});
 };

样本输入

 <?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml"><head xmlns="http://www.w3.org/1999/xhtml"><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><meta name="viewport" content="width=device-width, initial-scale=1.0" /><style></style><title></title></head><link xmlns="http://www.w3.org/1999/xhtml" src="./ckeditor.css" /><body xmlns="http://www.w3.org/1999/xhtml"><div class="WordSection1"><p class="Normal" data-name="Normal"><span data-bkmark="para10000"></span><span style="font-size:9pt">Der Idiot</span><span data-bkmark="para10000"></span></p>
 <p class="Normal" data-name="Normal"><span data-bkmark="para10001"></span><span style="font-size:9pt">Ein Roman in vier Teilen.</span><span data-bkmark="para10001"></span></p>
 </div>
 <hr align="left" size="1" width="33%" /></body>
 </html>

在示例脚本中，uima.tcas.DocumentAnnotation被发送到PosTagger进程。此注释中的标记会影响准确性。我需要做些什么才能获得精确性。

uima

ruta

dkpro-core

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-01 13:27:48

HtmlAnnotator可用于隐藏附加标记，使规则不受它们的影响。HtmlConverter能够在不使用html/xml标记的情况下创建新的文档文本，但只能在新的CAS视图中创建，因为CAS中的初始文本是静态的，不能更改。EXEC操作能够在当前CAS对象上应用外部分析引擎，并且可以将其配置为应用于不同的CAS视图。但是，外部分析引擎应用于包括标记在内的整个CAS。没有新的CAS是动态创建的。

你可以做几个选择。

您可以在“平原”视图上应用pos标记，但不能使用规则访问这些注释，因为注释将出现在不同的视图中。
您设置了一个多视图设置，例如，通过两个阶段的过程。首先将文本转换为不带标记的纯文本，然后在新文本上应用pos标记。
根据外部分析引擎的不同，您也可以通过重新定义令牌是什么来解决这个问题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62061065

复制

相似问题

问德国小说“与DkPro”
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问德国小说“与DkPro”EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问德国小说“与DkPro”
EN