首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >具有无界属性的C4.5算法

具有无界属性的C4.5算法
EN

Stack Overflow用户
提问于 2013-04-24 08:19:18
回答 1查看 373关注 0票数 0

VFDT (http://www.cs.washington.edu/dm/vfml/vfdt.html)中C4.5的当前实现,或者任何其他实现都使用C4.5格式的文件来提供用于构造决策树的输入。根据这一点,属性可以有以下格式:

如果属性具有连续值,则为连续

--单词‘离散’,后面跟着一个整数,它指示属性可以接受多少值。

标识符列表----这是一个具有枚举值的离散属性(这是用于离散属性的首选方法)。标识符应该用逗号分隔。

忽略意味着属性应该被忽略-它不会被使用。

有谁知道如何指定离散值属性,这些属性的全部可能值集太大,无法列出?

例如,“IP地址”属性可以具有Math.Pow(255,4)可能的离散值;"QueryString“属性可以有无穷多的可能值.等。

C4.5算法能否处理属性具有100,000个离散不同值的情况,或不知道确切的界限,但只知道一个近似的情况?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-02 14:02:51

通常的选择是枚举训练集中出现的离散特性的所有值。由于该算法永远无法为在培训过程中看不到的值收集足够的统计信息,因此无论如何实现这些统计信息都将被忽略。

请注意,无论如何都很难为这些特性收集统计数据,所以您可能需要考虑不同的表示形式。特别是,多字字符串的文本可以被标记和处理为一袋袋的文字

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16186900

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档