我有大约1200个电视节目类别..像戏剧,新闻,体育,体育-非事件,戏剧医疗,戏剧犯罪..等
我如何使用NLP,以便我得到的组,如戏剧,戏剧医疗和戏剧犯罪组在一起,体育,体育-非事件等组在一起,等等…基本上,最终目标是将1200个类别减少到很少的几个大类别。
到目前为止,我已经用词袋构建了一本有146个单词的词典。
发布于 2019-05-09 05:28:12
使用预先训练的模型生成嵌入,然后可以使用t-SNE或UMAP等聚类算法对嵌入进行聚类。我推荐fasttext或spacy,spacey是最容易使用的。
发布于 2019-05-09 05:32:25
如果你正在寻找NLP包,有几个模块可以查看,第一个是:
它有大量的类和有序且易于理解的文档,但没有使用神经网络进行文本处理。还有:
它有一个明显的优势,那就是它是最发达和全面的,但它相当慢。
它相当快,但速度的代价是不像我前面提到的其他库那样灵活。到目前为止,它已经支持了7种语言,我相信,但这可能足以作为一个起点。
尽管如此,对于您使用NLP实现的目标,您的最佳选择可能是NLTK。有一个great tutorial playlist from sentdex。祝好运!
https://stackoverflow.com/questions/56049055
复制相似问题