首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何对相似类别进行分组?

如何对相似类别进行分组?
EN

Stack Overflow用户
提问于 2019-05-09 05:06:18
回答 2查看 132关注 0票数 1

我有大约1200个电视节目类别..像戏剧,新闻,体育,体育-非事件,戏剧医疗,戏剧犯罪..等

我如何使用NLP,以便我得到的组,如戏剧,戏剧医疗和戏剧犯罪组在一起,体育,体育-非事件等组在一起,等等…基本上,最终目标是将1200个类别减少到很少的几个大类别。

到目前为止,我已经用词袋构建了一本有146个单词的词典。

EN

回答 2

Stack Overflow用户

发布于 2019-05-09 05:28:12

使用预先训练的模型生成嵌入,然后可以使用t-SNE或UMAP等聚类算法对嵌入进行聚类。我推荐fasttextspacyspacey是最容易使用的。

票数 0
EN

Stack Overflow用户

发布于 2019-05-09 05:32:25

如果你正在寻找NLP包,有几个模块可以查看,第一个是:

SciKit-Learn

它有大量的类和有序且易于理解的文档,但没有使用神经网络进行文本处理。还有:

Natural Language Toolkit

它有一个明显的优势,那就是它是最发达和全面的,但它相当慢。

SpaCy

它相当快,但速度的代价是不像我前面提到的其他库那样灵活。到目前为止,它已经支持了7种语言,我相信,但这可能足以作为一个起点。

尽管如此,对于您使用NLP实现的目标,您的最佳选择可能是NLTK。有一个great tutorial playlist from sentdex。祝好运!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56049055

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档