来自SpaCy和NLTK的句子者没有注意到一个事实,即典型的缩略语(例如,德语中Million的Mio. )和由此产生的句子分裂是不正确的。我明白,哨兵应该是简单而迅速的,但我想知道是否有一个更好的,考虑到更多的东西,而不是高感知词和标点符号?或者,如何使SpaCy / NLTK /.句子员为这样的句子工作?
Million
Mio.
我主要对Python的哨兵感兴趣。
发布于 2020-10-13 09:31:37
对通用依存体进行训练的神经工具使用已学习的标记化和分句模型。我知道的两个是:
然而,与基于正则表达式的分句相比,它们是相当慢的.
https://datascience.stackexchange.com/questions/83934
相似问题