文章/答案/技术大牛

发布

社区首页 >问答首页 >智能句切分不分裂缩略语

问智能句切分不分裂缩略语
EN

Data Science用户

提问于 2020-10-13 06:29:48

回答 1查看 414关注 0票数 3

来自SpaCy和NLTK的句子者没有注意到一个事实，即典型的缩略语(例如，德语中Million的Mio. )和由此产生的句子分裂是不正确的。我明白，哨兵应该是简单而迅速的，但我想知道是否有一个更好的，考虑到更多的东西，而不是高感知词和标点符号？或者，如何使SpaCy / NLTK /.句子员为这样的句子工作？

我主要对Python的哨兵感兴趣。

python

nlp

preprocessing

nltk

spacy

回答 1

Data Science用户

回答已采纳

发布于 2020-10-13 09:31:37

对通用依存体进行训练的神经工具使用已学习的标记化和分句模型。我知道的两个是：

UDPipe -在布拉格查尔斯大学开发。获得非常好的结果(至少对于解析而言)，但是有一些不直观的API。
节 -在斯坦福大学开发。API非常类似于Spacy。

然而，与基于正则表达式的分句相比，它们是相当慢的.

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/83934

复制

相似问题

问智能句切分不分裂缩略语
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问智能句切分不分裂缩略语EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问智能句切分不分裂缩略语
EN