首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >智能句切分不分裂缩略语

智能句切分不分裂缩略语
EN

Data Science用户
提问于 2020-10-13 06:29:48
回答 1查看 414关注 0票数 3

来自SpaCy和NLTK的句子者没有注意到一个事实,即典型的缩略语(例如,德语中MillionMio. )和由此产生的句子分裂是不正确的。我明白,哨兵应该是简单而迅速的,但我想知道是否有一个更好的,考虑到更多的东西,而不是高感知词和标点符号?或者,如何使SpaCy / NLTK /.句子员为这样的句子工作?

我主要对Python的哨兵感兴趣。

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-10-13 09:31:37

通用依存体进行训练的神经工具使用已学习的标记化和分句模型。我知道的两个是:

  • UDPipe -在布拉格查尔斯大学开发。获得非常好的结果(至少对于解析而言),但是有一些不直观的API。
  • -在斯坦福大学开发。API非常类似于Spacy。

然而,与基于正则表达式的分句相比,它们是相当慢的.

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/83934

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档