我想实现邮件过滤;在WEKA应用程序中通过机器学习将电子邮件分类为垃圾邮件或合法(文本分类)。
如何通过WEKA的应用来获取数据集的“特征向量”?这个向量应该包括100个出现频率最高、权重最高的垃圾邮件单词。
数据集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff
发布于 2015-12-18 22:57:53
我没有使用WEKA,但作为coursera提供的机器课程的一部分,我每年都使用Matlab做同样的事情。coursera由斯坦福大学的Andrew NG博士在第7周提供。要创建特征向量,您可以搜索电子邮件,查看每个单词是否存在。然后,特征向量将是0和1的向量,其中1表示存在相应的单词,而0表示不存在。
https://stackoverflow.com/questions/34350287
复制相似问题