我查看了crfsuite-python文档中提供的示例代码,其中包含以下用于定义特性的代码。
def word2features(sent, i):
word = sent[i][0]
postag = sent[i][1]
features = [
'bias',
'word.lower=' + word.lower(),
'word[-3:]=' + word[-3:],
'word[-2:]=' + word[-2:],
'word.isupper=%s' % word.isupper(),
'word.istitle=%s' % word.istitle(),
'word.isdigit=%s' % word.isdigit(),
'postag=' + postag,
'postag[:2]=' + postag[:2],
]
if i > 0:
word1 = sent[i-1][0]
postag1 = sent[i-1][1]
features.extend([
'-1:word.lower=' + word1.lower(),
'-1:word.istitle=%s' % word1.istitle(),
'-1:word.isupper=%s' % word1.isupper(),
'-1:postag=' + postag1,
'-1:postag[:2]=' + postag1[:2],
])
else:
features.append('BOS')
if i < len(sent)-1:
word1 = sent[i+1][0]
postag1 = sent[i+1][1]
features.extend([
'+1:word.lower=' + word1.lower(),
'+1:word.istitle=%s' % word1.istitle(),
'+1:word.isupper=%s' % word1.isupper(),
'+1:postag=' + postag1,
'+1:postag[:2]=' + postag1[:2],
])
else:
features.append('EOS')
return features我知道像isupper()这样的特征可以是0也可以是1,但是像word-2这样的特征是字符,它们是如何转换成数字术语的?
发布于 2021-07-01 12:12:12
CRF对输入数据序列进行训练,以学习从一种状态(标签)到另一种状态的转换。要启用这样的算法,我们需要定义考虑不同转换的功能。在下面的函数word2features()中,我们将每个单词转换为描述以下属性或特征的特征字典:
lower case of word
suffix containing last 3 characters
suffix containing last 2 characters
flags to determine upper-case, title-case, numeric data and POS tag我们还附加了与前一个和下一个单词或标签相关的属性,以确定句子的开头(BOS)或句子的结尾(EOS)
https://stackoverflow.com/questions/61972579
复制相似问题