在spaCy (https://spacy.io/usage/linguistic-features#named-entities)的“命名实体识别”特征文档中,文档规定spaCy可以识别“PERSON”、“LOC”、“PRODUCT”(https://spacy.io/api/annotation#named-entities)等命名实体的“各种类型”。
我的问题是:我也可以用我的自定义实体来训练数据吗?例如,我希望对发票数据进行重新分类,例如IBAN / BIC或发票编号。。这也是可能的,还是这个特性仅限于一个固定的实体列表?
发布于 2020-03-30 21:46:14
它确实支持自定义实体,cf 本节标题为“培训额外的实体类型”。
例如,要添加一个名为MY_ANIMAL的标签,可以使用这样的培训数据:
TRAIN_DATA = [
(
"Horses are too tall and they pretend to care about your feelings",
{"entities": [(0, 6, MY_ANIMAL)]},
),
("Do they bite?", {"entities": []}),
(
"horses are too tall and they pretend to care about your feelings",
{"entities": [(0, 6, MY_ANIMAL)]},
),
]并将其输入现有的NER模型作为额外的培训,或者是新创建的NER管道。
但是,请注意: ML模型是为识别命名实体而优化的,命名实体通常是大写名词,如"John“、"London”或"The Times“。你也可以试着把它训练成更通用的东西,比如数字,但它可能也不起作用。
https://stackoverflow.com/questions/60939415
复制相似问题