首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >预测核苷酸序列效率

预测核苷酸序列效率
EN

Stack Overflow用户
提问于 2015-05-02 15:26:28
回答 2查看 71关注 0票数 0

我是机器学习的新手,我想知道是否有可能使用我现有的生物数据进行聚类。我想知道一组DNA序列是否可以分成两组,有效率的和没有效率的。

我有五套,每套包含约480短序列(让我们称之为样本)。每组都有不同强度的效果:

Set1 -非常好的效果

Set2 --良好效果

Set3 -小效应

Set4 -非常小的影响

Set5 -无影响

每个样本都有一些特征,例如自由能,从特定的核苷酸开始.

现在,我的问题是,我是否能够找出哪种类型的样本在我的集合中发挥作用,对整个集合的影响。我唯一的假设是,在set1中,我有比set5更有效的样本(要么没有,要么很少)。一个非常简单(不现实)的结果可能是,所有的样本,以核苷酸'A‘末端与核苷酸'C’开始,是造成这种影响。

有可能用机器学习来找出答案吗?

谢谢!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-05-02 15:59:25

这听起来确实是一个机器学习可以带来好结果的问题。我建议您了解科学知识-学习,这是一个功能强大且易于使用的机器学习工具包。有许多介绍性的例子和教程可用。

对于您的用例,我要说的是,随机森林可以提供良好的结果,尽管很难说不知道更多关于数据结构的信息。它们可以在RandomForestClassifier类的sklearn中使用。同样,还有许多教程和示例可供查找。

由于您的培训数据没有标签,您可能需要查看无监督的学习方法。这类方法中的一个简单类是聚类算法。例如,在sklearn中,您可以找到其他这样的算法中的K-均值聚类。这样做的目的是让算法将数据分割成不同的集群,并查看集群成员资格与观察到的效果之间是否存在关联。

票数 1
EN

Stack Overflow用户

发布于 2015-05-04 00:02:09

从您的描述中还不清楚这5组(听起来像标签)对应的是什么,但我假设您本质上是在询问特性学习:您想知道要选择哪些特性来最好地预测给定序列的集合。从零开始确定这是机器学习中的一个开放问题,根据您的具体情况,有许多可能的方法。

您可以选择一组特性(只需进行逻辑猜测)并计算所有序列,然后对生成的所有向量执行PCA。PCA将给您线性组合的特征,这说明了您的数据的最大可变性,这是有用的设计有意义的特征。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30004069

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档