我们可以通过上传pdf完整的文档,标记简单实体和训练来实现简单的命名实体识别。
但是,谷歌云AutoML平台是否支持嵌套命名实体识别(n)?
发布于 2020-03-17 17:21:16
不是默认的。据我所知,也没有实现嵌套命名实体识别的标准化方法,这可能是不支持嵌套命名实体识别的原因之一。我设想在一个过程中这样做,每个注释都需要在其中包含多个注释,这是不可能的:
每个注释最多可以覆盖10个标记(单词)。它们不能重叠;注释的start_offset不能在同一文档中注释的start_offset和end_offset之间。[文档]
但是,您可以根据对嵌套NER的理解亲自实现这一点。训练一个通用模型来提取主要实体(较大的包含实体)。然后,训练一个辅助模型来提取次要实体(主实体中的实体)。只对主模型的输出运行辅助模型。您可能还应该实现一些条件,比如令牌的数量。
https://stackoverflow.com/questions/60638539
复制相似问题