目前,我参与了一些与数据挖掘相关的项目。并利用决策树归纳法将给定的数据集(.csv格式)分类为不同的类,并以GINIsplit作为分裂准则。所有这些我都是在java平台上做的,没有使用任何工具,比如WEKA,ORANGE...etc。
我的问题是-什么是最好的数据结构来表示决策树,以便分类速度快、效率高?而且,如果属性是名义的、数值的或序号的,那么是否有任何优化技术用于属性方面,我的意思是,特定的技术?
提前感谢!
发布于 2013-01-12 10:32:40
如果你真的想拥有最优的分类速度,把你的决策树输出到..class。即为树生成一个代码片段,并编译它。这样,评估就可以以Java Hotspot JRE的本地速度执行。
因为可以在程序逻辑中编码决策树:
if (attribute_x < 0.1) {
switch(attribute_c) {
case BANANA: {
...主要问题是,您想要在多大程度上进行这种优化。
https://stackoverflow.com/questions/14290656
复制相似问题