VFDT (http://www.cs.washington.edu/dm/vfml/vfdt.html)中C4.5的当前实现,或者任何其他实现都使用C4.5格式的文件来提供用于构造决策树的输入。根据这一点,属性可以有以下格式:
如果属性具有连续值,则为连续。
--单词‘离散’,后面跟着一个整数,它指示属性可以接受多少值。
标识符列表----这是一个具有枚举值的离散属性(这是用于离散属性的首选方法)。标识符应该用逗号分隔。
忽略意味着属性应该被忽略-它不会被使用。
有谁知道如何指定离散值属性,这些属性的全部可能值集太大,无法列出?
例如,“IP地址”属性可以具有Math.Pow(255,4)可能的离散值;"QueryString“属性可以有无穷多的可能值.等。
C4.5算法能否处理属性具有100,000个离散不同值的情况,或不知道确切的界限,但只知道一个近似的情况?
谢谢。
发布于 2013-05-02 14:02:51
通常的选择是枚举训练集中出现的离散特性的所有值。由于该算法永远无法为在培训过程中看不到的值收集足够的统计信息,因此无论如何实现这些统计信息都将被忽略。
请注意,无论如何都很难为这些特性收集统计数据,所以您可能需要考虑不同的表示形式。特别是,多字字符串的文本可以被标记和处理为一袋袋的文字。
https://stackoverflow.com/questions/16186900
复制相似问题