我想确定在热力学过程中产生意外结果(或无反应)的原因。我有相关变量的连续数据,并试图利用贝叶斯网络(BN)来确定因果关系。为此,我在Python中使用了一个名为“因果关系”的库。
我遵循了这个库的教程部分来构建DAG,BN模型,一切都很好,直到预测的步骤。少数/少多数类的预测精度在60-70%左右(在SMOTETomek/SMOTETomek和特定随机状态下为80%~ 90% ),而稳定精度则在90%以上。我已经实现了以下数据预处理步骤。
我正在努力找出优化模型的方法。我在互联网上也找不到同样的支持材料。
对于这个库/ BN模型,是否有任何数据预处理技术和数据集要求的指南或“最佳实践”?请您建议任何故障排除方法,以找出低精度/度量的原因吗?也许是DAG中一个被误解的节点-节点因果关系导致了平庸的准确性?
任何有关这方面的想法/文献/其他适当的图书馆都会有很大的帮助!
发布于 2020-07-10 00:25:41
一些可以帮助你的小窍门:
from_pandas时,您可以试验不同的w-threshold值(以及beta术语(如果使用from_pandas_lasso))。
这将改变网络的密度。更致密的结构意味着具有更多参数的BN。如果结构更密集,您有更多的参数,您的模型可能会表现得更好。但是,如果它太密集,您可能没有足够的数据来训练它,而且可能会过于合适。from_pandas背后的算法)似乎工作得最好。因此,减去看看这个的平均值可能是个好主意。tabu_edges,并再次训练您的网络。https://stackoverflow.com/questions/60988236
复制相似问题