首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >spaCy是否支持用于命名实体识别的自定义类型?

spaCy是否支持用于命名实体识别的自定义类型?
EN

Stack Overflow用户
提问于 2020-03-30 20:58:50
回答 1查看 216关注 0票数 2

在spaCy (https://spacy.io/usage/linguistic-features#named-entities)的“命名实体识别”特征文档中,文档规定spaCy可以识别“PERSON”、“LOC”、“PRODUCT”(https://spacy.io/api/annotation#named-entities)等命名实体的“各种类型”。

我的问题是:我也可以用我的自定义实体来训练数据吗?例如,我希望对发票数据进行重新分类,例如IBAN / BIC或发票编号。。这也是可能的,还是这个特性仅限于一个固定的实体列表?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-30 21:46:14

它确实支持自定义实体,cf 本节标题为“培训额外的实体类型”。

例如,要添加一个名为MY_ANIMAL的标签,可以使用这样的培训数据:

代码语言:javascript
复制
TRAIN_DATA = [
    (
        "Horses are too tall and they pretend to care about your feelings",
        {"entities": [(0, 6, MY_ANIMAL)]},
    ),
    ("Do they bite?", {"entities": []}),
    (
        "horses are too tall and they pretend to care about your feelings",
        {"entities": [(0, 6, MY_ANIMAL)]},
    ),
]

并将其输入现有的NER模型作为额外的培训,或者是新创建的NER管道。

但是,请注意: ML模型是为识别命名实体而优化的,命名实体通常是大写名词,如"John“、"London”或"The Times“。你也可以试着把它训练成更通用的东西,比如数字,但它可能也不起作用。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60939415

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档