总的来说,我在机器学习和文本挖掘方面还是个新手。这引起了我的注意,一个叫Liblinear https://github.com/tomz/liblinear-ruby-swig的ruby库出现了。
到目前为止,我想要做的是训练软件来识别文本是否提到任何与自行车有关的内容。
有人可以强调我应该遵循的步骤(即:预处理文本和如何),分享资源,并理想地分享一个简单的例子,让我继续下去。
任何帮助都可以,谢谢!
发布于 2011-05-25 05:01:07
经典的方法是:
<代码>G211
现在,要对文档进行分类,请按照步骤4对其进行矢量化,并将其提供给分类器以获得相关/不相关的标签。将此标签与实际标签进行比较,看看是否正确。使用这种简单的方法,您应该能够获得至少80%的准确率。
要改进这种方法,可以将布尔值替换为术语计数,并按文档长度进行标准化,或者更好地替换为tf-idf分数。
https://stackoverflow.com/questions/6116718
复制相似问题