这是我的任务:
我有一组层次化的类(例如。“对象/建筑/建筑/住宅/房屋/农舍”)--我写了两种分类方法:
还需要注意的是,我有大约290 k训练样本和~150 k(目前/大部分)布尔特性(用1.0或0.0表示)--尽管它非常稀疏,所以我使用了use的稀疏矩阵。此外,还有~6500个独立类(尽管方法2中每个节点的类较少)。
使用方法1,使用scikit的sgdclassifier(loss=hinge),我获得了大约75-76%的准确度,而线性and则得到了76-77% (尽管速度慢了8-9倍)。
然而,对于第二种方法(我认为这可以/最终表现得更好),这两种分类器都不会产生真正的概率,尽管我试图对他们的.decision_functions()产生的信心分数进行评估,但效果并不好(准确率为10-25%)。因此,我切换到logisticregression(),这使我得到了62-63%的准确性。而且,基于NB的分类器的性能似乎要差得多。
最后,我有两个问题:
logisticregression()更好),能够(i)处理稀疏矩阵,(ii)产生(接近)概率,(iii)处理多类分类?发布于 2019-04-24 13:17:39
一些你可以尝试的想法:
https://stackoverflow.com/questions/17725461
复制相似问题