首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SeanCheney的专栏

    Python数据科学分析速查表

    ---- 分享一组Python数据分析速查表(呆鸟翻译的)。

    70810发布于 2018-09-19
  • 来自专栏生信小驿站

    使用pandas构建简单直观的数据科学分析流程

    数据科学分析流程通常是一系列步骤:数据集必须经过清理、缩放和验证,然后才能准备好被强大的机器学习算法使用。当然,这些任务可以通过Pandas等包提供的许多函数/方法来完成,但更优雅的方法是使用管道。 我们将使用美国房价数据集。 假设机器学习团队和领域专家说,他们认为我们可以安全地忽略用于建模的平均面积房屋年龄数据。因此,我们将从数据集中删除此列。 Area House Age') df2 = drop_age(dta) 对某一列进行热编码 # In[*] pipeline = pdp.ColDrop('Avg. Area House Age'列 2.'

    1.2K20发布于 2019-12-11
  • 来自专栏程序员的知识天地

    最简洁的Python时间序列可视化:数据科学分析价格趋势,预测价格,探索价格

    时间序列数据数据科学领域无处不在,在量化金融领域也十分常见,可以用于分析价格趋势,预测价格,探索价格行为等。 学会对时间序列数据进行可视化,能够帮助我们更加直观地探索时间序列数据,寻找其潜在的规律。 本文会利用Python中的matplotlib【1】库,并配合实例进行讲解。 【工具】Python 3 【数据】Tushare 【注】示例注重的是方法的讲解,请大家灵活掌握。 01 单个时间序列 首先,我们从tushare.pro获取指数日线行情数据,并查看数据类型。 04 多个时间序列 如果想要可视化多个时间序列数据,同样可以直接调用plot()方法。示例中我们从tushare.pro上面选取三只股票的日线行情数据进行分析。 df.plot(subplots=True, layout=(2, 2), sharex=False, sharey=False,

    6.8K40发布于 2019-07-18
  • 来自专栏互联网数据官iCDO

    Look-alike用户行为模拟建模背后的科学分析

    被吹嘘的Look-alike模型和基于行为特征的Look-alike 我之前曾在博客里为“大数据”大唱赞歌。我们曾经讨论过最优化算法和可以利用大数据来揭示的洞见。 唯一的改变是数据的体量和处理这些数据的速度。重要的是,不管你是在处理线性回归,神经网络学,或者什么完全不一样的东西,你都是在做同一件事情。 他们会设置一个数据阈值,比如说10%-15%的容差。他们中的一部分甚至会根据他们想要覆盖的用户数量凭空改变拟合。换句话说他们是在根据想要为你投放的广告数量来定义模型的。 ? 这个模型独立于数据深度就可以起效,我们关注单个的高提升度用户行为,而非试图在模型中找到具有全部特征的用户。 这个模型透明可见,不只是告诉你模型中的单个的行为组分,我们也为你提供工具方便你查阅。

    2.5K50发布于 2018-03-02
  • 来自专栏python数据分析实践

    数据规整(2

    1 分层索引(见上一篇文章) 2 联合与合并 (1)数据库风格的联合 数据集的联合将通过一个或多个键进行联合,这些操作与数据库类似。pandas通过merge函数进行联合。 例如下面语句: pd.merge(df1, df2, left_on = 'key', right_index = True, how = 'outer') 表示数据合并是依据df1的key列和df2 如果数据是多层索引,例如df1的索引列是key1和key2,则语句应该变为: pd.merge(df1, df2, left_on = ['key1', 'key2'], right_index = True, how = 'outer') (3)联合重叠数据 另外的一个数据联合场景,既不是合并操作,也不是连接操作。 本章的数据规整到此结束,目前已经了解了pandas的基础知识,包括数据导入、清洗和重新规整。

    1.1K10编辑于 2023-02-23
  • 来自专栏Y大宽

    RNA-seq(2)-2:下载数据

    这节按生信技能树的要求进行数据下载,同时下载一组肝癌数据。 PMID: 27824034 很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式 1.0 论坛作业数据下载 首先,按照这个方法可以去查找文章和数据。 1.00下载自己的数据 首先在https://www.ncbi.nlm.nih.gov/sra,输入liver cancer,下载个较小的肝癌数据。 i=2;i<=5;i++));do ascp -QT -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp

    1.1K40发布于 2018-09-10
  • 来自专栏技术杂记

    sqlite数据存储(2

    Please take follow action: 0.exit 1.insert 2.delete 3.update 4.query 5.showall 2 Please take /* Database filename (UTF-8) */ sqlite3 **ppDb /* OUT: SQLite db handle */ ); 这个函数用来打开指定的数据库 is returned and the ** database connection remains open. */ int sqlite3_close(sqlite3 *); 这个函数用于关闭一个数据库 参数为一个数据库指针 ---- sqlite3_exec sqlite3.h 中有关于 sqlite3_exec 的声明 /* ** A function to executes one or more */ char **errmsg /* Error msg written here */ ); 这个函数用来执行 SQL 语句 sqlite3 指定一个已经打开的数据

    82130发布于 2021-09-15
  • 来自专栏网络收集

    数据类型(2

    数组Array 类数据的集合。本质是一个对象,数据存储在堆区,由引用指向数组首个元素的地址。创建数组创建数组时,必须确定数组长度和类型。但如果储存的是基本类型,允许不赋初值(使用默认值)。 这可能会导致以下两个问题:调用 List 类的 add 方法向列表中插入数据,会导致异常;对原数组进行更改,也会导致列表中的数据发生变化。 arr[] = new Integer[]{1, 2, 3, 4}; // 数组必须是包装数据类型List list = Arrays.asList(arr); 对字符串数据进行改变,实际是创建新的 String 对象,并改变引用指向新的对象。 String s2 = Integer.toString(data); // data 可以为基础数据类型,包括字符数组 char[]String s3 = String.valueOf(data

    39410编辑于 2022-08-03
  • 来自专栏生信菜鸟团

    TCGA数据整理-2

    差异分析的起点:counts矩阵—reads计数 拿不到count数据如何做差异分析: • tpm:用limma做差异分析(迫不得已) • fpkm、rpkm:转换为tpm,用limma做差异分析(迫不得已 TCGA的转录组数据的差别 整理输入数据的过程不同,差异分析无差别 示例数据:GSE150392 使用数据前的要点: 下载数据 下载表达矩阵 将下面三个文件放在同一个目录下 代码如下 proj = "cov "ERCC-");table(k)dat = dat[k,]b = dat$V1 %>% str_split("_",simplify = T)# 按照symbol去重复dat = cbind(b[,2] dat,V1,.keep_all = T)# 把symbol设为行名#方法1:exp = dat[,-1]rownames(exp) = dat$V1exp = as.matrix(exp)# 方法2: library(tibble)exp2 = column_to_rownames(dat,"V1") 另外一种方法,二选一即可 rm(list = ls())proj = "cov"#1.获取表达矩阵

    31110编辑于 2024-07-11
  • 来自专栏IT码农

    Yii2数据

    添加表单使用了数据模型xxModel没有的字段,需要新建表单模型xxForm,这个时候,在控制器接受到了数据,子表单模型使用表单接受到的数据进行拼接,如:$this->product public function ; } } } 保存时数据 public function save() { $order = new Order(); $this->products;

    91841编辑于 2022-01-10
  • 来自专栏R语言 / Linux

    GEO数据挖掘-2

    GEO数据挖掘—2 四、代码分析流程 1. 下载数据并从中提取有用信息 gse_number = "GSE56649" eSet <- getGEO(gse_number, destdir = '. (1)提取表达矩阵exp exp <- exprs(eSet) dim(exp) exp[1:4,1:4] 关于表达矩阵里的负值 取过log,有负值 —— 正常 没取过log,有负值 ——错误<em>数据</em> show_colnames =F, show_rownames = F, annotation_col=annotation_col ) 差异分析后的<em>数据</em>整理 (目的是得到一个10列的<em>数据</em>框) rm(list = ls()) load(file = "step<em>2</em>output.Rdata") #差异分析,用limma包来做 #需要表达矩阵和Group,不需要改 number = Inf) #为deg<em>数据</em>框添加几列 #1.加probe_id列,把行名变成一列 library(dplyr) deg <- mutate(deg,probe_id=rownames(deg

    1.1K01编辑于 2023-03-18
  • 来自专栏python数据分析实践

    pandas读取数据2

    pandas读取Excel数据也是一个重要的功能,在现实的数据制图中经常使用;通过ExcelFile类或pandas.read_excel函数读取存储在Excel中的数据。 = ['a2', 'a1', 'a3']) 总结: pandas读取excel,新建一个ExcelFile实例,读取数据,常用参数: (1)sheet_name:读取哪一个表的数据2)header ,则跳过列表的行 pandas输出excel: (1)sheet_name:将数据输出到哪一个表 (2)index:是否输出索引,默认输出 (3)header:是否输出列名,默认输出 (4)columns :指定输出列的顺序 pandas读取txt和excel,读出来的数据属于DataFrame数据,读出来后,可以利用前一章的方法对DataFrame进行处理;常用的pandas读取数据的方法至此结束,以后如有其它需求 ,会再次对读取数据这章内容进行更新。

    1.5K20编辑于 2023-02-23
  • 来自专栏ops技术分享

    Angular 2 数据显示

    本章节我们将为大家介绍如何将数据显示到用户界面上,可以使用以下三种方式: 通过插值表达式显示组件的属性 通过 NgFor 显示数组型属性 通过 NgIf 实现按条件显示 ---- 通过插值表达式显示组件的属性 以下代码基于 Angular 2 TypeScript 环境配置 来创建,你可以在该章节上下载源码,并修改以下提到的几个文件。 from '@angular/core'; @Component({ selector: 'my-app', template: `

    {{title}}

    <h2> from '@angular/core'; @Component({ selector: 'my-app', template: `

    {{title}}

    <h2> 我喜欢的网站: {{mySite}}</h2>

    网站列表:

    • {{ site

    3.4K20发布于 2021-07-26
  • 来自专栏火星娃统计

    geo数据挖掘-2

    geo数据挖掘-2 sunqi 2020/7/11 1.概述 对下载的数据进行处理,提取表达矩阵,并匹配探针信息,基因名 教程来自:https://github.com/jmzeng1314/GEO/ 2.数据下载 2.1 获得表达数据‘ rm(list=ls()) # 设置默认转换因子为否 options(stringsAsFactors = F) # 目标文件 f='GSE42872_eSet.Rdata # 查看数据类型为list class(gset) ## [1] "list" #长度 length(gset) ## [1] 1 # 因为只有一个平台,所以只有1个列表元素 class(gset[[ colnames(Table(gpl)) head(Table(gpl)[,c(1,12)]) probe2gene=Table(gpl)[,c(1,12)] head(probe2gene ) save(probe2gene,file='probe2gene.Rdata') } # 获得平台的所有探针 load(file='probe2gene.Rdata') # 需要的时候通过

    1.5K21发布于 2020-09-15
  • 来自专栏mysql

    hhdb数据库介绍(2-2)

    数据高可用服务 HHDB Server在计算节点、数据节点、配置库等层次提供全面的高可用保障。 提供完善的心跳检测、故障切换对存储节点同步追平判断、全局自增序列在故障时自动跳号、客户端连接Hold等机制,保障数据服务的可用性与数据的一致性。 数据节点服务高可用 HHDB Server提供数据节点内的存储节点高可用。 相比半同步复制可略微提升故障场景下主从数据一致性(半同步复制可保证收到commit ok的事务不丢失,但不保证主机执行崩溃恢复流程后数据和从机一致)。 数据追平策略 在关系集群数据库存储节点高可用机制中,当主库宕机时计算节点的切换策略会根据备库设置的优先级进行切换并且计算节点会保证可用的备库追完所有可应用的relaylog后才将服务切换到备库上。

    17910编辑于 2024-11-28
  • 来自专栏全栈程序员必看

    h2数据库的使用_h2数据库查看数据

    h2dh​​​​​​​Archive Downloads 1 h2数据库的下载地址 2. H2软件包目录结构 h2  |—bin  | |—h2-1.1.116.jar  //H2数据库的jar包(驱动也在里面)  | |—h2.bat  //Windows控制台启动脚本  | |—h2.sh  //Linux控制台启动脚本  | |—h2w.bat  //Windows控制台启动脚本(不带黑屏窗口)  |—docs  //H2数据库的帮助文档(内有H2 数据库的使用手册)  |—service  //通过wrapper包装成服务。   |—src  //H2数据库的源代码  |—build.bat  //windows构建脚本  |—build.sh  //linux构建脚本 3. windows下启动软件 我们可以进入到h2的bin

    1.2K20编辑于 2022-11-07
  • 来自专栏生信小驿站

    数据处理神器tidyverse(2)ggplot2

    数据处理神器tidyverseggplot2 ? tidyverse包其中包含着一个重要的可视化包---ggplot2。 Ggplot2是由Hadley Wickham制作的数据可视化软件包,它基于一组称为图层的原则。 基本思想是ggplot2数据的几何对象(圆圈,线条等),主题和比例放在上面。 任何ggplot图的基础层都是由ggplot()函数定义的空ggplot层,它描述了用于绘图的数据框。 但是,如果您想使用数据框中的变量来定义geoms的颜色(或任何其他美学特征),需要将它包含在aes()函数中。 自定义ggplot2 虽然我们在这里保留了默认的ggplot2功能,但是你可以用ggplot2来做很多事情。 例如,通过练习,您将学习如何通过将多个层组合在一起来生成高度自定义的绘图。

    2.9K30发布于 2019-08-29
  • 来自专栏安卓圈

    Struts2数据封装

    ="s" uri="/struts-tags" %> <html> <head> <title>Title</title> </head> <body>

    Sturts2数据封装</h1 import com.opensymphony.xwork2.ActionSupport; import java.util.Date; /** * 数据封装的方式一:提供属性的set方法 * ActionSupport; /** * 数据封装的方式二:属性驱动-在页面中提供表达式的方式 */ public class UserAction2 extends ActionSupport ActionSupport; import com.opensymphony.xwork2.ModelDriven; /** * 数据封装的方式三:模型驱动的方式 */ public class <title>Title</title> </head> <body>

    Struts2复杂类型的数据封装

    封装到List集合中:批量插入商品

    <form action

    38220发布于 2019-09-26
  • 来自专栏王小雷

    HBase数据模型(2)

    HBase数据模型(1) HBase数据模型(2) 1.0 HBase的版本version,是一个用长整型表示的。 2.0 排序,Get和Scan操作返回的是经过排序的数据。返回的数据首先按行字典排序,其次是列族,然后是列修饰符(cloumn qualifier),最后是时间戳反向排序,最新的在最前面。 5.0 原子操作,仅供对行级别的原子性,也就是对同一个Key下的数据进行的两个操作,在实际执行的时候是会串行的执行,保证了每一行KeyValue对不会被破坏。 6.0 行锁,RegionServer提供了一个行锁特性,保证了只有一个客户端能获取一行数据相应的锁,同时对该行进行修改。 HBase数据模型(1) HBase数据模型(2)

    1.6K80发布于 2018-01-05
  • 来自专栏生信课程note+实验知识

    TCGA分析-数据下载2

    是TCGA分析-数据整理-2的上一步https://cloud.tencent.com/developer/article/2353514title: "xiaohe"output: html_documentdate #eSet 通常是一个包含多个数据集的对象,这些数据集可能来自一个生物实验。在这些数据集中,第一列数据可能是样本的标识符、组别、条件、处理方式等表型数据。 #2.提取表达矩阵#clinical<- pData(eSet)#具体来说,pData()函数是从eSet中提取“数据”部分,即提取临床信息。 do.call(cbind,re)class(re2)## [1] "data.frame"exp=as.matrix(re2)#strsplit(fs, "_", simplify=T) 是将字符串 #2,函数会应用于矩阵的每一行(即,纵向)。

    72720编辑于 2023-11-01
领券