首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >nltk不正确地分析括号

nltk不正确地分析括号
EN

Stack Overflow用户
提问于 2013-09-13 21:09:38
回答 1查看 185关注 0票数 2

我正在标记文本以搜索名词和形容词:

代码语言:javascript
复制
text = u"""Developed at the Vaccine and Gene Therapy Institute at the Oregon Health and Science University (OHSU), the vaccine proved successful in about fifty percent of the subjects tested and could lead to a human vaccine preventing the onset of HIV/AIDS and even cure patients currently on anti-retroviral drugs."""
nltk.pos_tag(nltk.word_tokenize(text))

这导致:

(“已开发”、“NNP”)、(“at”、“IN”)、(“the”、“DT”)、(“疫苗”、“NNP”)、(“and”、“CC”)、(“基因”、“NNP”)、(“治疗”、“NNP”)、(“研究所”、“NNP”)、(“at”、“IN”)、(“the”、“DT”)、(“the”、“DT”)、(俄勒冈)‘NNP ',('Health','NNP'),('and','CC'),('Science','NNP'),(’大学','NNP'),(‘’,'NNP'),('OHSU','NNP'),(‘'),’NNP‘,’NNP‘,(',’),('the','DT'),(‘the’,‘DT’),(“疫苗”、“NN”)、(“证明”、“VBD”)、(“成功”、“JJ”)、(“IN”、“IN”)、(“约”、“IN”)、(“50”、“JJ”)、(“百分比”、“NN”)、(“of”、“IN”、“IN”、“the”、“DT”、(“受试者”、“NNS”)、(“测试”)、'VBG'),('and','CC'),(‘能’,'MD'),(‘铅’,'VB'),('to','TO'),('a','DT'),(‘人’,'NN'),(‘疫苗’,'NN'),(‘预防’,‘VBG’),('the','DT'),(‘开始’,'NN'),('of','IN'),('HIV/AIDS','NNS'),('and','CC'),(‘偶数’,'RB'),(‘疗法’,'NN'),(‘病人’,'NNS'),(‘当前’,'RB'),('on','IN'),(‘抗逆转录病毒’,'JJ'),(‘药物’,'NNS'),(“.”,“.”)

在标注句子时是否有一种正确检测括号的方法?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-09-15 18:19:35

如果您知道要返回什么作为父母的标记值,那么您可以使用RegexpTagger来匹配父母,并返回到所有其他的首选标签。

代码语言:javascript
复制
import nltk
from nltk.data import load
_POS_TAGGER = 'taggers/maxent_treebank_pos_tagger/english.pickle'
tagger = load(_POS_TAGGER)  # same tagger as using nltk.pos_tag

regexp_tagger = nltk.tag.RegexpTagger([(r'\(|\)', '--')], backoff = tagger)

regexp_tagger.tag(nltk.word_tokenize(text))

结果:

(U‘’Developed‘,'NNP'),(u’‘at’,'IN'),(u‘’the‘,'DT'),(u’疫苗‘,'NNP'),(u’‘and’,'CC'),(u‘’Gene‘,'NNP'),(u’治疗‘,'NNP'),(u’‘Institute’,'NNP'),(u‘’at‘,'IN'),(u’‘,'DT'),(u’‘,’DT‘),(U‘俄勒冈“,'NNP'),(u’健康','NNP'),(u‘和','CC'),(u’科学‘,'NNP'),(u’大学‘,'NNP'),(u',’‘- '),(u’‘OHSU’,'NNP'),(u‘u’)‘,’‘-’),(u‘’,‘’,‘’),(u‘’,‘’,‘’),(u‘,’‘,'DT'),(u‘约’,'IN'),(u‘约’,'IN'),(u‘50’,'JJ'),(u‘%’,'NN'),(u‘’of‘,'IN'),(u’‘of’,'DT'),(u‘’of‘,’DT‘),(U‘’subjects‘,'NNS'),(u'to','VBD'),(u’和‘,CC’),(u‘’and‘,'MD'),(u’铅‘,'VB'),(u’TO‘,'TO'),(u’,'DT'),(u‘人’,'NN'),(u‘疫苗’,'NN'),(u‘预防’),‘'VBG'),(u’‘the’,'DT'),(u‘起始’,'NN'),(u‘’of‘,'IN'),(u’‘HIV/AIDS’,'NNS'),(u‘’and‘,'CC'),(u’‘even’,'RB'),(u‘’cure‘,'NN'),(u’病人‘,'NNS'),(u’当前‘,'RB'),(U‘IN’,'IN'),(u‘抗逆转录病毒’,'JJ'),(u‘药物’,'NNS'),(u‘,’))

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18795306

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档