我是机器学习的新手,我想知道是否有可能使用我现有的生物数据进行聚类。我想知道一组DNA序列是否可以分成两组,有效率的和没有效率的。
我有五套,每套包含约480短序列(让我们称之为样本)。每组都有不同强度的效果:
Set1 -非常好的效果
Set2 --良好效果
Set3 -小效应
Set4 -非常小的影响
Set5 -无影响
每个样本都有一些特征,例如自由能,从特定的核苷酸开始.
现在,我的问题是,我是否能够找出哪种类型的样本在我的集合中发挥作用,对整个集合的影响。我唯一的假设是,在set1中,我有比set5更有效的样本(要么没有,要么很少)。一个非常简单(不现实)的结果可能是,所有的样本,以核苷酸'A‘末端与核苷酸'C’开始,是造成这种影响。
有可能用机器学习来找出答案吗?
谢谢!
发布于 2015-05-02 15:59:25
这听起来确实是一个机器学习可以带来好结果的问题。我建议您了解科学知识-学习,这是一个功能强大且易于使用的机器学习工具包。有许多介绍性的例子和教程可用。
对于您的用例,我要说的是,随机森林可以提供良好的结果,尽管很难说不知道更多关于数据结构的信息。它们可以在RandomForestClassifier类的sklearn中使用。同样,还有许多教程和示例可供查找。
由于您的培训数据没有标签,您可能需要查看无监督的学习方法。这类方法中的一个简单类是聚类算法。例如,在sklearn中,您可以找到其他这样的算法中的K-均值聚类。这样做的目的是让算法将数据分割成不同的集群,并查看集群成员资格与观察到的效果之间是否存在关联。
发布于 2015-05-04 00:02:09
从您的描述中还不清楚这5组(听起来像标签)对应的是什么,但我假设您本质上是在询问特性学习:您想知道要选择哪些特性来最好地预测给定序列的集合。从零开始确定这是机器学习中的一个开放问题,根据您的具体情况,有许多可能的方法。
您可以选择一组特性(只需进行逻辑猜测)并计算所有序列,然后对生成的所有向量执行PCA。PCA将给您线性组合的特征,这说明了您的数据的最大可变性,这是有用的设计有意义的特征。
https://stackoverflow.com/questions/30004069
复制相似问题