首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >spacy通过正则表达式或模式添加特殊情况标记化规则

spacy通过正则表达式或模式添加特殊情况标记化规则
EN

Stack Overflow用户
提问于 2017-06-17 01:17:51
回答 1查看 3.1K关注 0票数 3

我想根据documentation为空格中的标记化添加特殊情况。该文档显示了如何将特定单词视为特例。我希望能够指定一种模式(例如后缀)。例如,我有一个这样的字符串

text = "A sample string with <word-1> and <word-2>"

其中<word-i>指定单个单词。

我知道我可以通过下面的代码一次只处理一个特殊情况。但是我如何为它指定一个模式呢?

代码语言:javascript
复制
import spacy
from spacy.symbols import ORTH
nlp = spacy.load('en', vectors=False,parser=False, entity=False) 
nlp.tokenizer.add_special_case(u'<WORD>', [{ORTH: u'<WORD>'}])
EN

回答 1

Stack Overflow用户

发布于 2017-06-19 14:03:51

您可以使用正则表达式匹配来查找特殊情况字符串的界限,然后使用spacy's merge method将它们合并为单个令牌。add_special_case仅适用于已定义的单词。下面是一个示例:

代码语言:javascript
复制
>>> import spacy
>>> import re
>>> nlp = spacy.load('en')
>>> my_str = u'Tweet hashtags #MyHashOne #MyHashTwo'
>>> parsed = nlp(my_str)
>>> [(x.text,x.pos_) for x in parsed]
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#', u'NOUN'), (u'MyHashOne', u'NOUN'), (u'#', u'NOUN'), (u'MyHashTwo', u'PROPN')]
>>> indexes = [m.span() for m in re.finditer('#\w+',my_str,flags=re.IGNORECASE)]
>>> indexes
[(15, 25), (26, 36)]
>>> for start,end in indexes:
...     parsed.merge(start_idx=start,end_idx=end)
... 
#MyHashOne
#MyHashTwo
>>> [(x.text,x.pos_) for x in parsed]
[(u'Tweet', u'PROPN'), (u'hashtags', u'NOUN'), (u'#MyHashOne', u'NOUN'), (u'#MyHashTwo', u'PROPN')]
>>> 
票数 12
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/44594759

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档