文章/答案/技术大牛

发布

社区首页 >问答首页 >预测核苷酸序列效率

问预测核苷酸序列效率
EN

Stack Overflow用户

提问于 2015-05-02 15:26:28

回答 2查看 71关注 0票数 0

我是机器学习的新手，我想知道是否有可能使用我现有的生物数据进行聚类。我想知道一组DNA序列是否可以分成两组，有效率的和没有效率的。

我有五套，每套包含约480短序列(让我们称之为样本)。每组都有不同强度的效果：

Set1 -非常好的效果

Set2 --良好效果

Set3 -小效应

Set4 -非常小的影响

Set5 -无影响

每个样本都有一些特征，例如自由能，从特定的核苷酸开始.

现在，我的问题是，我是否能够找出哪种类型的样本在我的集合中发挥作用，对整个集合的影响。我唯一的假设是，在set1中，我有比set5更有效的样本(要么没有，要么很少)。一个非常简单(不现实)的结果可能是，所有的样本，以核苷酸'A‘末端与核苷酸'C’开始，是造成这种影响。

有可能用机器学习来找出答案吗？

谢谢!

python

machine-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-05-02 15:59:25

这听起来确实是一个机器学习可以带来好结果的问题。我建议您了解科学知识-学习，这是一个功能强大且易于使用的机器学习工具包。有许多介绍性的例子和教程可用。

对于您的用例，我要说的是，随机森林可以提供良好的结果，尽管很难说不知道更多关于数据结构的信息。它们可以在RandomForestClassifier类的sklearn中使用。同样，还有许多教程和示例可供查找。

由于您的培训数据没有标签，您可能需要查看无监督的学习方法。这类方法中的一个简单类是聚类算法。例如，在sklearn中，您可以找到其他这样的算法中的K-均值聚类。这样做的目的是让算法将数据分割成不同的集群，并查看集群成员资格与观察到的效果之间是否存在关联。

票数 1

Stack Overflow用户

发布于 2015-05-04 00:02:09

从您的描述中还不清楚这5组(听起来像标签)对应的是什么，但我假设您本质上是在询问特性学习:您想知道要选择哪些特性来最好地预测给定序列的集合。从零开始确定这是机器学习中的一个开放问题，根据您的具体情况，有许多可能的方法。

您可以选择一组特性(只需进行逻辑猜测)并计算所有序列，然后对生成的所有向量执行PCA。PCA将给您线性组合的特征，这说明了您的数据的最大可变性，这是有用的设计有意义的特征。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30004069

复制

相似问题

问预测核苷酸序列效率
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问预测核苷酸序列效率EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问预测核苷酸序列效率
EN