我正在使用spacy,我想生成一个法语文本的noun_chunks:
import spacy
nlp = spacy.load('fr_core_news_sm')
text4='''Depuis quelques décennies, afin d'alléger le travail des agents de conduite et de télécommander la fonction de freinage d'immobilisation, on a généralisé l'utilisation des freins à ressort qui ont remplacé les freins à main même dans les applications ferroviaires. Ces freins à ressort paraissent de plus assurer une fonction de sécurité car ils sont généralement desserrés par une pression d'air comprimé qu'il suffit de laisser s'échapper de façon graduée pour déclencher le frein de secours modérable, le frein d'immobilisation étant obtenu par un échappement total de la pression d'air comprimé que l'on est pratiquement sûr d'obtenir. En matière ferroviaire, on a même réalisé des freins de service modérables commandés directement par des ressorts avec échappement de la pression d'air comprimé en fonction de l'effort de freinage souhaité pour le véhicule et de la charge de celui-ci, de manière à obtenir la décélération souhaitée quelle que soit la charge du véhicule, le freinage de parc ou d'immobilisation étant obtenu automatiquement par surcroît en cas d'échappement total de la pression d'air comprimé.'''
doc = nlp(text4)
for chunk in doc.noun_chunks:
print(chunk.text)结果非常奇怪:
le travail
des agents de conduite et de télécommander la fonction de freinage d'immobilisation
on
l'utilisation des freins à ressort qui ont remplacé les freins à main même dans les applications ferroviaires
Ces freins à ressort
une fonction de sécurité
ils
d'air
il
...etc...这个问题是代码/语言的混合问题
在上面的列表中,一些noun_chunks非常长,实际上应该进一步划分。为何不是这样呢?使用__ fr_core_news_sm __模型(14MB)代替更大的模型是否有任何含义?模型是否会影响名词块分离的质量?
发布于 2020-07-03 14:36:40
名词块依赖于词性标签和依存关系解析,对于较大的模型,这通常会略有改善,特别是在sm和md之间。法语的noun_chunks迭代器也可能需要一些改进。
https://stackoverflow.com/questions/62703614
复制相似问题