我有一段文字,里面有关于人口和国家的信息,我想了解一下这个国家和人口的情况。
我的案文如下:
text_sent =动脉闭塞性疾病的抗原-- nih标准淋巴细胞毒性试验,BJW22.2在48例闭塞性血栓性血管炎患者中17例(35.4 %),在15例大动脉炎患者中有5例(33.3 %),11例正常人(9.7 %)。
我试过用这个
word_tokenize,pos_tag,ne_chunk ne_chunk(pos_tag(word_tokenize(text_sent )
我得到了标记,但是没有得到任何GPE标记的单词。
(S抗原/NNS在动脉/JJ闭塞/JJ疾病/NNS在日本/在日本使用/VBG a/DT nih/JJ标准/JJ淋巴细胞毒性/NN试验/NN,/,a/DT可能/JJ/JJ特异性/JJ抗原/NN,/,bjw/JJ 22.2/CD IN/VBN在/IN 17/CD out/ in /IN 48/CD患者/NNS伴/内血栓血管炎/NN闭塞症/NNS (/( 35.4/CD per/IN %/NN )/),/,in/IN 5/CD out/IN of/IN 15/CD患者/NNS与/IN takayasu/NN 's/POS大动脉炎/NN (/( 33.3/CD %/IN%/NN )/)和/CC in/IN 11/CD out/IN /IN 113/CD正常/JJ对照/NNS( 9.7/CD %/IN%/NN)。
发布于 2019-07-11 13:10:29
因为"japan.using“不是地理位置的名称,而是应该由日本使用
我试过用受过训练的spacy模型
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(u"antigens in arterial occlusive diseases in japan.using a nih standard lymphocytotoxicity test, a possible japanese specific antigen, bjw 22.2 was identified in 17 out of 48 patients with thromboangiitis obliterans (35.4 per cent), in 5 out of 15 patients with takayasu's arteritis (33.3 per cent) and in 11 out of 113 normal controls (9.7 per cent).")
for ent in doc.ents:
print(ent.text, ent.start_char, ent.end_char, ent.label_)
#o/p
japanese 106 114 NORP
22.2 137 141 CARDINAL
17 160 162 CARDINAL
48 170 172 CARDINAL
35.4 per cent 215 228 MONEY
5 234 235 CARDINAL
15 243 245 CARDINAL
33.3 per cent 282 295 MONEY
11 304 306 CARDINAL
113 314 317 CARDINAL
9.7 per cent 335 347 MONEY但是当你用日语修改'japan.using‘时,你会得到GPE标签
Japan 43 48 GPE
japanese 107 115 NORP
22.2 138 142 CARDINAL
17 161 163 CARDINAL
48 171 173 CARDINAL
35.4 per cent 216 229 MONEY
5 235 236 CARDINAL
15 244 246 CARDINAL
33.3 per cent 283 296 MONEY
11 305 307 CARDINAL
113 315 318 CARDINAL
9.7 per cent 336 348 MONEYhttps://stackoverflow.com/questions/56983821
复制相似问题