我尝试用向量空间模型在SVM光照下构造一个SVM分类器。我有1000个文档和一个术语字典,我将使用它来向量化每个文档。在1000份文件中,600份将用于我的培训集,其余400份将平均分配(200份)用于交叉验证集和测试集。
现在假设我要用我的600训练集训练我的支持向量机分类器(用train向量化),以便生成一个分类模型。
当我将模型应用到我的交叉验证集时,我是使用相同的以色列国防军(因为模型对应于我的训练集),还是需要根据交叉验证集计算一个新的以色列国防军?此外,如果我要将模型应用于单个文档,我将如何应用以色列国防军,因为这套文件将只包含一个文档?
发布于 2013-12-12 16:38:09
你在你的训练文档中构建了以色列国防军,并在新的测试文档出现时使用它。对于每个测试文档,您可以使用查询中每个术语的以色列国防军为查询创建一个单词列表。如果以色列国防军中没有包含一个单词,查询将返回0。分类是根据建立的以色列国防军进行的。
发布于 2013-12-12 16:04:55
你应该使用相同的以色列国防军作为你的训练集,因为你建立了与那个以色列国防军相对应的分类器,因此你的结果将与一个新的以色列国防军不同。
https://stackoverflow.com/questions/20547540
复制相似问题