我使用的是Skleran的随机森林分类器。我已经训练和调整了我的模型。
我的数据集包含40个样本,每个样本具有4个特征,并且我希望在两个类中对样本进行分类。
现在我的问题是:我想要保存此模型形成的树,并将其再次加载到另一个脚本中以进行预测。
注意-我知道joblib和pickle模块,它们将模型保存在".sav“文件中,但我不想保存该模型的实例。
通过使用sklearns的"tree.export_graphviz“,我发现了一种非常有趣的方法。这是我用来保存树的代码:
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import export_graphviz
model=RandomForestClassifier()
model.fit(X, Y)
i_tree=0
for tree in model.estimators_:
with open('iris_tree_' + str(i_tree) + '.dot', 'w') as my_file:
my_file = export_graphviz(tree, out_file = my_file)
i_tree = i_tree + 1我面临的问题是如何使用这些树进行预测?
保存的文件包含此格式的树:
digraph Tree {
node [shape=box] ;
0 [label="X[3] <= 0.4\ngini = 0.4387\nsamples = 20\nvalue = [27, 13]"] ;
1 [label="gini = 0.0\nsamples = 7\nvalue = [0, 13]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="gini = 0.0\nsamples = 13\nvalue = [27, 0]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
}可以使用graphviz的在线门户将数据转换为树。
转换后的数据看起来像this
如何解析这种类型的数据?
我最感兴趣的是树中每个块中的"X3<=0.4“值。我只需要知道在我的树的任何块中是否有像"X3<=0.4“这样的条件(因为树可以嵌套)
发布于 2017-07-19 21:49:41
如果它确实是您要查找的小片段,则可以考虑使用正则表达式,例如:
\D\[\d+\]\s+<=\s+\d+\.\d+也就是说,“非数字字符,左方括号,一些数字,右括号,空白,<=符号,空白,一些数字,小数点,一些数字”。我在你的文本上测试了这个正则表达式,它只与这个片段匹配。
https://stackoverflow.com/questions/45187977
复制相似问题