我有一个关于机器学习和决策树的问题。我在计算生物学(长RNA二级结构预测)工作。
我有一个程序来预测预测RNA二级结构的准确性。程序的输入参数是
我想知道,对于给定的RNA序列长度(S),L,G,C组合给出了最大的准确度。
我有一个训练数据集50个序列文件的序列长度S和每个这些序列文件,L,G,C输入参数组合,提供最大的精度输出是已知的。
有没有一种方法,我们可以知道哪些特定的L,G,和C参数,以找到最大的精度,而没有所有的L,G,和C的范围值?
发布于 2013-04-27 14:00:21
你的问题陈述不太清楚。
您需要一个有监督的学习算法,该算法从50个训练示例中学习,并创建一个以“序列文件”作为输入并为该序列文件生成L、G和C的输出值的预测程序。
对吗?
监督学习算法有很多种选择。序列文件中的数据到底是什么?它是实数的向量吗?它有什么结构?如果你必须用手来确定L,G和C的序列文件,你能做到吗?你会怎么做?
发布于 2017-03-27 09:58:09
我认为你想在这三个参数(L,G,C)中找到一个“最大的影响因素”,这不是一个很普遍的要求,但我认为一些想法可能会对你有所帮助。
PS.You需求(只选择一个因素使机器学习)一般不是一个好主意,因为不同因素对机器学习的预测贡献通常不是线性的,也就是说,将机器学习中输入向量中的多个因素组合在一起通常会给你带来更好的效果。
祝好运!
https://stackoverflow.com/questions/16248575
复制相似问题