在分类/监督学习上下文中,我看到许多机器学习文本使用以下表示法来表示Shannon熵:
其中,p_i是给定点属于i类的概率。我只是不明白什么是S,因为没有提供关于它的进一步解释。它与数据集中的特性S有关吗?
S似乎再次出现在信息增益公式中:
我知道信息增益和熵的概念,我只是想了解数学形式主义。
发布于 2021-10-19 06:48:21
为了回答你的问题,
下面是维基百科的信息
Shannon熵:wiki链接
给出一个离散随机变量X,具有可能的结果x_{1} ,x_{2} ,....x_{n}
,它发生在概率{\displaystyle \mathrm {P} (x_{1}),...,\mathrm {P} (x_{n}),}{\displaystyle \mathrm {P} (x_{1}),...,\mathrm {P} (x_{n}),}中,X的熵正式定义为:
信息增益:wiki链接
让{\displaystyle T}表示一组训练示例,每个表单{\displaystyle ({\textbf {x}},y)=(x_{1},x_{2},x_{3},...,x_{k},y)},其中{\displaystyle x_{a}\in vals(a)}是示例{\displaystyle {\textbf {x}}}的{\displaystyle a^{\text{th}}}属性或特性的值,y是相应的类标签。属性{\displaystyle a}的信息增益用Shannon熵{\displaystyle \mathrm {H} (-)}定义如下。对于属性{\displaystyle v}获取的值{\displaystyle a},让
{\displaystyle S_{a}{(v)}=\{{\textbf {x}}\in T|x_{a}=v\}}被定义为属性{\displaystyle a}等于{\displaystyle v}的{\displaystyle T}的训练输入集。然后,{\displaystyle T}对于属性{\displaystyle a}的信息增益是训练集的先验Shannon熵{\displaystyle \mathrm {H} (T)}与条件熵{\displaystyle \mathrm {H} (T|a)}之间的区别。
https://datascience.stackexchange.com/questions/103261
复制相似问题