Logistic regression, despite its name, is a linear model for classification rather than regression. Logistic regression is also known in the literature as logit regression, maximum-entropy classification (MaxEnt) or the log-linear classifier. In this model, the probabilities describing the possible outcomes of a single trial are modeled using a logistic function.
对于生活中常见的二分类问题,我们可以通过建立一个回归方程来解决,我们希望有一个函数h(x)的输入在[0,1]之间(二分类问题一般将类标签定义为0和1,因此[0,1]以外的值会给分类带来很多麻烦。下边介绍一个比较常用的函数:





似然函数取最大值意味着一阶导数为0,也就是说我们需要找一阶导数的零点这样我们就可以利用下边的迭代原则:


老师说,LR最完美的地方在于建立了一个很完整的概率框架–分类问题再也不是以前那种0-1的问题,而是通过函数形式化了样本输入某一类的概率(模糊值)。借助这个完整的概率框架,LR从两类到类的推广的实现也有了新的可能。


同样的可以通过极大似然估计来刻画损失函数,这里给出一种另外一个角度的解释

对于每一个训练样本,我们可以假设它的类别判断为q,除了q所属的真实的类别以外,q属于其他类的值我们都设为0。这样我们相当于得到了训练样本真实的概率分布状况。然后我们可以用相同的办法来定义pip_ipi表示训练样本属于某一个类别的概率大小,这样我们就可以借助交叉熵的概念来构造多类别逻辑回归的损失函数(如图中所示),其实损失函数刻画的就是伪概率与真实概率的相近程度,我们分类的目的其实是希望两者越接近越好! 接着其实可以进行进一步的优化,在我们标注时,我们或许可以对q进行优化,不是分成0-1的hard label,而是能够建立一种soft label,即对样本实际归属某一类的概率进行估计。
一个最主要的缺点是我们不能用它解决非线性问题,因为它的决策面是线性的。
从逻辑回归的一些假设能看出二者的明显不同:
其他假设则与线性模型相近: