首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何为scikit和NLTK使用不同的数据集?

如何为scikit和NLTK使用不同的数据集?
EN

Stack Overflow用户
提问于 2015-03-17 05:02:56
回答 1查看 138关注 0票数 0

我正在尝试为我拥有的原始数据实现Scikit和NLTK的内置朴素贝叶斯分类器。我的数据是以制表符分隔的行,每个行都有一些标签、段落和其他一些属性。我对段落的分类很感兴趣。我需要将这些数据转换为适合Scikit/ NLTK内置分类器的格式。我想为所有段落实现高斯,伯努利和多项式朴素贝叶斯。

问题1:对于scikit,example给定导入虹膜数据。我检查了虹膜数据,它已经根据数据集预先计算出了值。如何将数据转换为这样的格式并直接调用高斯函数?有没有这样做的标准方法?

问题2:对于NLTK,NaiveBayesClassifier.classify函数需要输入什么?它是带有布尔值的字典吗?如何使其成为多项式或高斯?

EN

回答 1

Stack Overflow用户

发布于 2015-03-17 17:22:37

@问题2:

nltk.NaiveBayesClassifier.classify期望一个所谓的“功能集”。featureset是一个以特征名称为关键字,以特征值为值的字典,例如{'word1':True, 'word2':True, 'word3':False}。Nltks的朴素贝叶斯分类器不能用作多项式方法。但是,您可以安装scikit学习并使用nltk.classify.scikitlearn包装器模块来部署scikit的多项式分类器。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29086886

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档