一旦我们知道这个问题需要用监督学习来解决,我们如何知道是否要用回归分析或分类算法来解决这个问题呢?有什么可以使用的拇指规则吗?
大部分资源在线给出了标准房价的回归模型和恶性/良性肿瘤地块的分类模型。这对我没多大帮助。
是否有概念方法来分析给定的问题?
发布于 2016-12-21 09:14:16
一个好的经验法则是查看目标/响应变量的测量水平。如果在标称尺度上测量响应,那么这个问题就是分类问题。例如,名义上的价值是一个类别的标签,这些类别没有自然秩序,比如政治学中的政党,生物学中的物种,或者语法中的词类。
如果以比率或间隔尺度衡量响应,则存在回归问题。区间尺度上的值是指可以比较值之间的差值程度的值,但不能比较它们之间的比率,例如温度(在Farenheit或摄氏尺度上,但不能用开尔文),或者日历中的日期值。比例尺上的数值可以与差别程度和比率相比较,就像开尔文尺度上的质量、速度或温度等大多数物理量一样。
序数尺度更难放置在任何一个角落。我通常会说,你有一个排序问题的顺序反应。然而,排序问题可以使用两种分类,例如使用比较器,和回归,如序数回归。序数尺度上的值是有序的,或者是排序的,但是对于任何两个值之间的差异程度,你不能说任何有意义的东西,例如在一场比赛中赛车手的排名。
发布于 2016-12-21 16:29:51
从一组示例中学习到x到y的映射可以概念化为查找函数f,这样:
y = f(x)
x is vector of features, for e.g., car_model, car_version, city as vector of features for price prediction of used car.
y is output variable, for e.g., price of car x sold at.如果y是连续的,则该问题是一个回归问题,如果y是离散的,则该问题是一个分类问题。
连续隐含y可以取实尺度上的任意值我,j,离散隐含y可以取{a,b,…,d}集合的值。
https://datascience.stackexchange.com/questions/15847
复制相似问题