首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >组学数据仓库入门指南

组学数据仓库入门指南
EN

Stack Overflow用户
提问于 2021-05-14 16:18:30
回答 1查看 74关注 0票数 0

我在生物科学领域工作,主要从事数据分析。最近,通过对同一组个体/患者/动物的不同生物样本使用多种分析技术(大多数是“组学”类型),数字在增长,事情变得更加复杂。

我想实现一种更好的方式来本地存储数据和元数据(这里我指的是关于个人/患者/动物的一般数据,但也指关于化验中使用的仪器的元数据),这也允许我执行元分析(主要使用R,但我希望有一个也可以与SPSS一起工作的解决方案)。我正在寻找一些指南,以学习建立,管理和使用数据库的基础知识,最适合生物学和“组学”应用。

我可以在下面的图片中总结我的情况。

总之,在同一组样本(单个S1到Sn)上,这将是数据库中的主要条目,我们可以执行一系列实验分析,每个实验分析都会产生一些数字数据,这些数据通常以具有相同id的CSV样格式组织,并伴随着一些关于分析的元数据(使用的仪器和类似的仪器)。在数据库中创建新条目通常是通过批量上传那些csv文件来实现的。

本质上,我想收集和连接所有的东西在一个地方,而不是有一个文件夹为每个项目,与相关的R脚本和原始数据。从R中,我将从通用数据库中检索与某个项目相关的数据,并执行一组分析。到目前为止,我对本地解决方案很感兴趣,但我希望远程访问的最终倾向是开放的

我没有数据库方面的背景,所以我对任何更适合我需求的解决方案都持开放态度。例如,我读到有关系数据库和图形数据库(我确实有一些本体论方面的经验),不知道哪一个更好。来自处理过类似问题的用户的任何“消化”的一般信息来源,任何初学者的提示,或者关于最佳解决方案的任何建议,对我来说都是非常有益的尝试和开始的事情。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-05-26 03:26:29

实际上,我不同意评论者对这个问题的批评,尽管我同意这个问题并不是特定于R或R相关的编程。也许我只是同情,因为我也处于类似的境地。问这样的问题更好的地方可能是BioStars。

也就是说,我也在学术界工作,我也有类似的问题。在我的圈子里没有人有一个很好的答案。

从您的图表看,您似乎对关系数据库有所了解,这很好。如果您不熟悉类似sql的语法或关系数据库概念,那么一定要从这里开始。关于如何学习这些,我没有很好的建议--我在大学里上过一堂关于mysql的课,然后开始自己使用sqlite和postgresql。我非常欣赏mysql的课程,所以如果你觉得自己不太了解类似sql的语法或关系数据库主题,也许你可以找到一个在线课程(或者在你的大学里,如果你在学校的话)。

具体来说,在R中,我会开始阅读有关从R/Rstudio连接到数据库的内容

https://db.rstudio.com/

我主要通过RPostgresql包来使用它,我想它是DBI包的一个扩展。

显然,如果你还不熟悉tidyverse包,你会觉得很舒服的。这是一个很棒的资源:

https://r4ds.had.co.nz/

由于我们讨论的是Hadley Wickham的主题,并且Hadley Wickam的主题与R和R-programming相关,所以我也不认为你应该阅读这篇文章:

https://vita.had.co.nz/papers/tidy-data.pdf

您需要学习一些关于服务器的基础知识。我知道您对在本地执行此操作特别感兴趣,但我怀疑总有一天您将需要能够在本地和远程托管。至少,这是我的经验。在任何情况下,您都应该在本地计算机上使用linux (我希望这不是一个太有争议的声明),这意味着处理本地数据库基本上与处理远程数据库相同(除了一些安全问题)。我发现Nginx比Apache更容易,但这可能是一个品味问题。当我需要公共服务器时,我会使用Amazon AWS,但如果你的大学有托管服务,你可以做一个价格比较。在我的经验中,AWS更便宜,也更容易。为了管理提供服务的数据库,我使用了Django,这是一个python包。如果您选择构建django托管数据库,我建议使用此cookiecutter ( python包模板):

https://github.com/agconti/cookiecutter-django-rest

最后,下面是我正在管理数据的当前活动项目的django数据库框架的链接。我将包含另一个到R包的链接,这个R包也是我正在处理的,它的目的是吸收一些数据库数据,对其进行处理,然后将其输出。后者正在开发中。它不是一个可分享的状态,但我想,当我开始问你类似的问题时,它会帮助我看到这样的事情,所以我要把它包括进来。

https://github.com/BrentLab/S288CR64_database

https://github.com/cmatKhan/brentlabRnaSeqTools

如果您有与基因组数据管理相关的问题,请随时通过我的电子邮件询问。你可以在github上找到它。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67531163

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档