我正在进行一个训练分类器以识别文本中引文的项目。我们所处理的引文往往是非常混乱的。以下是一些引用的例子:
我们已经确定了少数实体往往出现在这些引文中。例如,“书名”、“章号”、“章名”、“段号”。
该项目分为两个阶段:
Spacy (我们正在使用v3)是否有可能有两个连续的NER管道?我希望分类器首先标记引文,然后标记每个引文中的实体。
我能够用下面的代码用两个NER管道实例化一个模型:
from spacy.lang.en import English
nlp = English()
nlp.add_pipe("ner", name="ner1", last=True)
ner1 = nlp.get_pipe("ner1")
ner1.add_label("Citation")
nlp.add_pipe("ner", name="ner2", last=True)
ner2 = nlp.get_pipe("ner2")
for label in ["Book Title", "Chapter Number", "Chapter Name", "Paragraph Number"]:
ner2.add_label(label)我的问题是如何分别训练每根管子。通常,Spacy需要以下形状的数据来训练NER:
{
"text": <TEXT>,
"spans": [<LIST OF NAMED ENTITY SPANS>]
}如何区分培训数据中每个管道的数据?
发布于 2021-04-26 04:36:24
这其中有几个部分。
我希望分类器首先标记引文,然后标记每个引文中的实体。
您是否确实需要单独使用整个引文标签,还是将其设计为一个两阶段的过程,以提高性能?如果是后者,我会先试着进行第二阶段详细注释的培训,看看您是否真的有问题;我怀疑两个阶段的过程实际上会使事情变得更简单。
如果您实际上需要整个“引文”,那么您只需将详细实体的链提取到单个跨度中,就不需要有单独的模型了。
我建议您仔细看看文档中关于模型与规则相结合的部分。它有一些例子,比如将个人姓名扩展到包括or .或or .这样的标题,或者使用依赖解析信息,这些都似乎适用于您的问题。
https://stackoverflow.com/questions/67250719
复制相似问题