我有两个特征:“Contact_Last_Name”和“Account_Last_Name”,我想根据这两个特征对我的数据进行分类:逻辑是,如果这两个特征相同,即Contact_Last_Name与Account_Last_Name相同,那么结果就是“成功”,否则就是“拒绝”。所以。例如:如果Contact_Last_Name是'Johnson‘,而Account_Last_Name是'Eigen’,则结果被分类为'Denied‘。如果两者相等,比如'Edison‘,那么结果就是'Success’。如何,我可以对这组数据有一个分类算法?请注意,通常我们会丢弃高相关性列,但在这里,列之间的相关性似乎具有分类的逻辑
我尝试在R中使用决策树(c5.0)和朴素贝叶斯(NaiveBayes),但这两种方法都无法正确地对数据集进行分类。
发布于 2017-07-28 14:06:05
首先,这不是机器学习的好用例,因为这可以通过字符串匹配来完成,但是如果你想给一个分类算法,那么创建一个值为'Contact_Last_Name‘,'Account_Last_Name’和'Result‘的表,并将其用于决策树并预测第三列。
请注意,您对数据进行了分区以进行训练和测试。
https://stackoverflow.com/questions/45365896
复制相似问题