我们有一个需求,需要使用Apache UIMA跟踪非结构化文档中的“地址”数据。地址可以来自任何地理位置。英国地理位置的一些示例地址如下所示。PE10 1LW林肯郡伯恩桑基街6 6CM 227号士丹利路190号
如果您能分享用于从非结构化文档中标识地址数据的可能注释,将会很有帮助。
发布于 2014-06-10 22:11:27
我建议您使用RUTA workbench编写规则来提取地址。它将真的加速,并简化您的工作与UIMA。
发布于 2014-06-11 16:57:36
有两种方法(示例参考特定于UIMA的工具):
哪种方法最适合您取决于您的需求。许多人认为统计模型总体上优于基于规则的方法。然而,有时编写一些规则要比注释足够多的示例更快。
(我是UIMA Ruta的开发者)
https://stackoverflow.com/questions/24137312
复制相似问题