鲁塔新手来了。我正在使用RUTA处理一个文档,在开始注释之前,我需要做大量的规范化工作。我正在试图找到最好的方法来使用RUTA中的原始文档中的正则表达式和组来查找和替换字符序列。本质上,我试图了解如何在RUTA中执行类似于String.replaceAll的操作。
例如,在Java中,
inputString = inputString.replaceAll( "(?i)7\\s*\\(SEVEN\\)", "7");但我想不出一个简单的方法在鲁塔实现这一点。
谢谢
发布于 2014-03-24 12:10:21
一般来说,这并不简单,因为您不能在CAS中更改文档文本。
UIMA中有一些修改文档的功能,但是需要将结果存储在另一个CAS视图或其他文件中。以下是一些一般性意见:
下面是您问题中示例的脚本:
ENGINE utils.Modifier;
ENGINE utils.ViewWriter;
TYPESYSTEM utils.SourceDocumentInformation;
DECLARE ToReplace;
// just create an annotation
"(?i)7\\s*\\(SEVEN\\)" -> ToReplace;
// replace the text covered by all annotations with the string "7"
ToReplace{-> REPLACE("7")};
//... the annotation should be removed again with UNMARK before different replacements are performed...
// it is also possible to do this in a more generic way with features and variables
// ... either store the changed text in the "modified" view and in an additional html file
Document{-> CONFIGURE(Modifier, "outputLocation" = "D:/modified/"), EXEC(Modifier)};
// ... or store the changed text in the "modified" view and in an additional xmiCAS
Document{-> EXEC(Modifier), CONFIGURE(ViewWriter, "inputView" = "modified", "output" = "../modified/"), EXEC(ViewWriter)};值得一提的是: Modfier有一些小错误,导致空白空间加倍。
对替代者进行建模的一种更通用的方法可以是:
DECLARE Annotation ToReplace(STRING r);
"(?i)(7)\\s*\\(SEVEN\\)" -> ToReplace ("r" = 1);
ToReplace{-> REPLACE(ToReplace.r)};ToReplace注释现在有了一个额外的字符串特性,它存储应该替换注释覆盖文本的值。regexp表达式有一个额外的捕获组,用于指定注释中的字符串(使用捕获组的数量分配值)。替换规则现在更通用了,因为实际值不需要在操作中给出,但是特性的值是应用的。因此,最后一条规则可以用于其他规则指定的任何替换。
在修改后的文本上操作的连续替换通常需要在管道中指定,因为以后的规则需要对不同的视图进行操作。在中,可以在单独的脚本文件中定义查找/替换,然后对每个脚本文件使用一个启动配置。启动配置能够指定输入和输出文件夹。结合ViewWriter,用户可以构建一个脚本文件链,这些脚本文件可以在以前的脚本文件的输出文件夹中操作。
连续的替换也可以在一个脚本文件中完成,但有一些限制。替换操作实际上将新文本存储在每个RutaBasic注释的替换特性中。第一个RutaBasic获得完整的新字符串,另一个RutaBasic被设置为空字符串。当修饰符创建新文本时,Ruta基本注释的覆盖文本将被功能的值替换,因此第一个令牌被完全替换字符串替换,而另一个令牌被删除。了解此过程后,规则可以操作依赖于先前的替换,并更改各自的特征值。总的来说,连续的替换是可能的,但不是简单的。
https://stackoverflow.com/questions/22578101
复制相似问题