我正在努力建立和训练一种机器学习数据科学算法,它能正确地预测总统在哪个县获胜。我有以下培训数据的信息。
总人口、年龄中位数%、BachelorsDeg或更高失业率、人均收入失业率、家庭平均规模百分比、业主自住住房百分比、租住住房百分比、空置住房、住房价值中值、人口增长率、人均收入增长赢家
我是数据科学的新手。我知道朴素贝叶斯是一个很好的分类器,用于尝试多属性预测的算法。然而,我读到了第一步,因为朴素贝叶斯分类器需要一个频率表。我的问题是,上述所有属性都是连续的数值性质,不属于“是”或“否”的类别。那么,我不使用朴素的Bayes分类器吗?
我也考虑过使用k最近邻算法,但这看起来并不是最精确的,而且对我来说,对属性的权重也是最正确的……我正在寻找一个监督的算法,因为我有训练数据。有人能给我推荐使用哪种算法吗?此外,作为一个新的领域,我如何才能弄清楚我自己在未来使用什么样的算法。
发布于 2015-12-21 07:16:06
您可以使用人工神经网络。
论文
工具/图书馆
要创建、训练、测试和评估神经网络,您可以使用以下几个库:
发布于 2015-12-21 07:58:26
对于朴素贝叶斯,你可以离散你的连续数值性质。
例如,对于"%所有者自用住房“,您将所有100%的比例分割成10个分区(0-10%,10-20%,.,90-100%),并得到频率表。
对于某些属性,您可以移动到二进制值:失业率< 30% -是/否。
学习机器祝你好运:)
https://stackoverflow.com/questions/34390336
复制相似问题