在压缩和信息论中,源的熵是源符号所能传递的平均信息量(以位为单位)。非正式地说,如果我们确定一个事件的结果,那么熵就会变小。
J. Principe, D. Xu, and J. Fisher, “Information theoretic learning,” in Unsupervised Adaptive Filtering, S. Haykin, Ed. New York: Wiley, 2000, vol. I, pp. 265–319.熵(Shannon和Renyis)作为目标函数而不是均方误差,被应用于学习中。
我的问题是
发布于 2014-07-27 22:47:14
这是一个更适合在CS堆栈溢出,可能,但只要我们有一个计算机科学标签,我不愿意否决它。(注:不是 CS理论栈溢出,这是为了研究级别的讨论,但这不是。他们将立即否决投票并关闭。)
无论如何,直觉的答案几乎和你所说的完全一样:当你最小化某物的熵时,你就增加了预测它的能力。如果将模型与结果之间的误差的熵降到最小,那么您就是在增加模型的预测能力。
为了在数学上强化这一直觉,开始研究诸如期望最大化算法这样的东西,直到你将它内化为止。如果你发现EM很难,那就继续研究像贝叶斯概率这样的东西,直到EM变得有意义为止。
https://stackoverflow.com/questions/24967401
复制相似问题