在TA会议上,我的助教声称,回归问题通常应该通过将输出范围划分为回收箱,然后使用多损失,因为我们有比回归算法更好的分类问题。
根据我的理解,这在本质上是错误的,因为它抛弃了这个属性,即“接近正确比正确得多”。所有错误的课程都是同样错误的。我问我的教授,但他只是说,有一些申请是有意义的,不想再讨论它了。
我说错了吗?什么时候应该将回归问题转换为分类问题?
编辑:我不知道我的助教是否提到过,但这里有一条来自A.卡洛普:https://twitter.com/karpathy/status/708480082831024128的推特
不广为人知的protip:除非你绝对有必要,否则不要在神经网络中使用L2损失(回归)。软件很可能会更好的工作。
发布于 2021-03-05 16:00:35
原则上的陈述似乎很模糊,怎么能说有比回归算法更好的分类呢?
话虽如此,但我要将声明改写为:
有时,由于问题本身的原因,将回归转化为分类问题是可行的,因此预测范围/bin而不是连续值是有意义的。
当我们这样做时,我们必须小心,因为我们没有面临一个“常见”的分类问题,但是我们有一个顺序分类问题,在这个问题中,我们有一个来自新目标(回收箱)的自然顺序。
供参考:
发布于 2021-03-05 19:19:24
这真的可以归结为统计建模和决策。但我总体上同意你的看法,即这种做法是没有好处的;至少我认为你的TAs的“经常”一词是不正确的。
在TA会议上,我的助教声称,回归问题通常应该通过将输出范围划分为回收箱,然后使用多损失.
这似乎不对。如果您使用两个以上的垃圾箱,那么问题仍然应该被视为序号而不是平面分类。
...since比回归算法具有更好的分类能力。
这似乎也是错误的,尽管很难证明消极的一面。你能问一下你的助教吗?
根据我的理解,这在本质上是错误的,因为它抛弃了这个属性,即“接近正确比正确得多”。所有错误的课程都是同样错误的。
没错,并再次考虑将序数回归作为一种中间方法。但是,原始的回归是更多的信息。然而,
有些应用是有意义的..。
现在这可能是真的。作为一个例子,从回复你的链接推文,说你是建模的温度,但最终你关心的是你是否应该穿外套。最好的温度模型是回归,但是如果你真的想把所有的东西都绑在一个模型上,比如说你在5摄氏度时离散化。现在,如果你的回归距离预测温度为40摄氏度的情况,比如说30摄氏度,它实际上并不会影响你的决策。事实上,你会更喜欢接近临界值的模型。但是在另一个方向上,4.5C被“错误分类”为5.5C也许不是你想要的.
而且,鉴于这条推特的作者几乎没有回应,我不愿意相信他们的话(尽管他们有资历)。
另请参阅:
https://datascience.stackexchange.com/questions/90297
复制相似问题