首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >管道中的Spacy包含规则匹配器

管道中的Spacy包含规则匹配器
EN

Stack Overflow用户
提问于 2018-02-23 23:41:56
回答 1查看 580关注 0票数 3

我的语料库中有一些短语需要spacy来忽略(希望避免过度匹配)。它们是相当简单的正则表达式公式,我也可以用Spacy's基于规则的匹配like here的格式来编写。

在进入NER和TextCat管道之前,我希望在我的模型中将匹配标记为停用词。我看到了如何编写匹配器,但我不确定如何将其合并到我的模型中?我只是将其添加为管道吗?

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2019-01-26 09:14:14

聪明的想法。在管道中添加规则匹配器应该相当简单。自定义组件只是将doc对象作为参数并返回可能修改过的doc对象的函数。所以基本上,你可以这样做: def my_component( doc ):# matcher work So here return doc

但是请记住,Token的is_stop属性是不可写的,这只是意味着您无法更改它。当然,您可以设置自定义令牌扩展,但这绝不会被考虑用于NER标签预测。

解决这个问题的一种更简单的方法是在创建doc对象之前忽略这些单词。如果您说表达式只是正则表达式,那么Matcher不会对您做任何进一步的好处。

希望它能有所帮助:)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48951471

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档