你好,我用NLTK下载了一个语料库
phrase = nltk.corpus.conll2002.iob_sents('esp.testb')[0]这一回报:
[('La','DA',‘B’),(‘Coru a ','NC',’I‘),(',’,'Fc','O'),('23','Z','O'),(‘可能’,'NC','O'),(‘’,‘平安’,'O'),('EFECOM','NP','B-ORG'),
这些问题是关于如何获得我使用以下代码的完整句子:
' '.join([w[0] for w in phrase])
phrase = ' '.join([w[0] for w in phrase])但我明白
'La Coru a,5月23日(欧洲经济共同体)。
而不是
'La Coru a,5月23日(欧洲经济共同体)。
我怎样才能得到第二句?
谢谢
发布于 2021-12-20 05:22:46
CoNLL语料库通常不包含关于空间的信息,因此不可能完美地重构原始句子。
您可以使用启发式方法,不要将空格放在逗号之前,也可以在句号或其他字符之前加上空格,但通常情况下,用空格分隔所有内容就更容易了。
https://stackoverflow.com/questions/70407083
复制相似问题