文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用NLTK软件包在文本中获取有关人口/国家的信息

问如何使用NLTK软件包在文本中获取有关人口/国家的信息
EN

Stack Overflow用户

提问于 2019-07-11 07:30:43

回答 1查看 30关注 0票数 0

我有一段文字，里面有关于人口和国家的信息，我想了解一下这个国家和人口的情况。

我的案文如下：

text_sent =动脉闭塞性疾病的抗原-- nih标准淋巴细胞毒性试验，BJW22.2在48例闭塞性血栓性血管炎患者中17例(35.4 %)，在15例大动脉炎患者中有5例(33.3 %)，11例正常人(9.7 %)。

我试过用这个

word_tokenize，pos_tag，ne_chunk ne_chunk(pos_tag(word_tokenize(text_sent )

我得到了标记，但是没有得到任何GPE标记的单词。

(S抗原/NNS在动脉/JJ闭塞/JJ疾病/NNS在日本/在日本使用/VBG a/DT nih/JJ标准/JJ淋巴细胞毒性/NN试验/NN，/，a/DT可能/JJ/JJ特异性/JJ抗原/NN，/，bjw/JJ 22.2/CD IN/VBN在/IN 17/CD out/ in /IN 48/CD患者/NNS伴/内血栓血管炎/NN闭塞症/NNS (/( 35.4/CD per/IN %/NN )/)，/，in/IN 5/CD out/IN of/IN 15/CD患者/NNS与/IN takayasu/NN 's/POS大动脉炎/NN (/( 33.3/CD %/IN%/NN )/)和/CC in/IN 11/CD out/IN /IN 113/CD正常/JJ对照/NNS( 9.7/CD %/IN%/NN)。

python-3.x

nltk

named-entity-recognition

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-11 13:10:29

因为"japan.using“不是地理位置的名称，而是应该由日本使用

我试过用受过训练的spacy模型

import spacy 
nlp = spacy.load("en_core_web_sm")

doc = nlp(u"antigens in arterial occlusive diseases in japan.using a nih standard lymphocytotoxicity test, a possible japanese specific antigen, bjw 22.2 was identified in 17 out of 48 patients with thromboangiitis obliterans (35.4 per cent), in 5 out of 15 patients with takayasu's arteritis (33.3 per cent) and in 11 out of 113 normal controls (9.7 per cent).")

for ent in doc.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)

#o/p
japanese 106 114 NORP
22.2 137 141 CARDINAL
17 160 162 CARDINAL
48 170 172 CARDINAL
35.4 per cent 215 228 MONEY
5 234 235 CARDINAL
15 243 245 CARDINAL
33.3 per cent 282 295 MONEY
11 304 306 CARDINAL
113 314 317 CARDINAL
9.7 per cent 335 347 MONEY

但是当你用日语修改'japan.using‘时，你会得到GPE标签

Japan 43 48 GPE
japanese 107 115 NORP
22.2 138 142 CARDINAL
17 161 163 CARDINAL
48 171 173 CARDINAL
35.4 per cent 216 229 MONEY
5 235 236 CARDINAL
15 244 246 CARDINAL
33.3 per cent 283 296 MONEY
11 305 307 CARDINAL
113 315 318 CARDINAL
9.7 per cent 336 348 MONEY

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56983821

复制

相似问题

问如何使用NLTK软件包在文本中获取有关人口/国家的信息
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用NLTK软件包在文本中获取有关人口/国家的信息EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用NLTK软件包在文本中获取有关人口/国家的信息
EN