首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SeanCheney的专栏

    Python数据科学分析速查表

    ---- 分享一组Python数据分析速查表(呆鸟翻译的)。

    70810发布于 2018-09-19
  • 来自专栏生信小驿站

    使用pandas构建简单直观的数据科学分析流程

    数据科学分析流程通常是一系列步骤:数据集必须经过清理、缩放和验证,然后才能准备好被强大的机器学习算法使用。当然,这些任务可以通过Pandas等包提供的许多函数/方法来完成,但更优雅的方法是使用管道。 我们将使用美国房价数据集。 假设机器学习团队和领域专家说,他们认为我们可以安全地忽略用于建模的平均面积房屋年龄数据。因此,我们将从数据集中删除此列。 Area House Age') pipeline+= pdp.OneHotEncode('House_size') df3 = pipeline(dta) df3.columns 整合示例: House_size'列热编码 3.对Price列进行price_tag函数转换,然后删除Price列 4.挑选'Price_tag'列值为'drop'的观察值 # In[*] def price_tag

    1.2K20发布于 2019-12-11
  • 来自专栏程序员的知识天地

    最简洁的Python时间序列可视化:数据科学分析价格趋势,预测价格,探索价格

    时间序列数据数据科学领域无处不在,在量化金融领域也十分常见,可以用于分析价格趋势,预测价格,探索价格行为等。 学会对时间序列数据进行可视化,能够帮助我们更加直观地探索时间序列数据,寻找其潜在的规律。 本文会利用Python中的matplotlib【1】库,并配合实例进行讲解。 【工具】Python 3数据】Tushare 【注】示例注重的是方法的讲解,请大家灵活掌握。 01 单个时间序列 首先,我们从tushare.pro获取指数日线行情数据,并查看数据类型。 df.head()) trade_date close 0 20050104 982.794 1 20050105 992.564 2 20050106 983.174 3 ax = df.plot(color='blue', figsize=(8, 3), linewidth=2, fontsize=6) ax.set_title('399300.SZ close from

    6.8K40发布于 2019-07-18
  • 来自专栏互联网数据官iCDO

    Look-alike用户行为模拟建模背后的科学分析

    被吹嘘的Look-alike模型和基于行为特征的Look-alike 我之前曾在博客里为“大数据”大唱赞歌。我们曾经讨论过最优化算法和可以利用大数据来揭示的洞见。 唯一的改变是数据的体量和处理这些数据的速度。重要的是,不管你是在处理线性回归,神经网络学,或者什么完全不一样的东西,你都是在做同一件事情。 他们会设置一个数据阈值,比如说10%-15%的容差。他们中的一部分甚至会根据他们想要覆盖的用户数量凭空改变拟合。换句话说他们是在根据想要为你投放的广告数量来定义模型的。 ? 我们可以把覆盖率提高20%,但是这会导致聚合提升度下降到3x的水平。 有什么差别? 这个模型独立于数据深度就可以起效,我们关注单个的高提升度用户行为,而非试图在模型中找到具有全部特征的用户。 这个模型透明可见,不只是告诉你模型中的单个的行为组分,我们也为你提供工具方便你查阅。

    2.5K50发布于 2018-03-02
  • 来自专栏Sign

    数据分享3

    这个算是最后一篇了,后续不打算再分享数据了。 原因后面说。 首先,小卜,out。 ? 这个世界真是残酷啊。 小卜巅峰的时候达到dau 8k+,眼看着就要越过1w的槛了,然后,被人拉下来,踢出去了。

    43530发布于 2018-07-23
  • 来自专栏Hank’s Blog

    3-3 数据框的子集

    > x <- data.frame(v1=1:5,v2=6:10,v3=11:15) > x v1 v2 v3 1 1 6 11 2 2 7 12 3 3 8 13 4 4 9 14 5 5 10 15 > x$v3[c(2,4)] <- NA > x v1 v2 v3 1 1 6 11 2 2 7 NA 3 3 8 13 4 4 9 NA 5 5 10 15 > #找出第2列 > x[, 3 3 8 13 > x[x$v1>2,] #第1列大于2的所有元素 v1 v2 v3 3 3 8 13 4 4 9 NA 5 5 10 15 > x[which(x$v1>2),] #使用 which函数筛选第1列大于2的所有元素 v1 v2 v3 3 3 8 13 4 4 9 NA 5 5 10 15 > ? 和上面的操作一样,筛选第1列大于2的所有元素 v1 v2 v3 3 3 8 13 4 4 9 NA 5 5 10 15

    77600发布于 2020-09-16
  • 来自专栏生信菜鸟团

    TCGA数据整理-3

    另一个数据集的整理 GSE162550 下载这两个文件 建立工作目录 rm(list = ls())proj = "DHA"#1.获取表达矩阵dat = data.table::fread("GSE162550 顺便看下表达矩阵,空的dim(exprs(eSet))save(exp,Group,proj,clinical,file = paste0(proj,".Rdata")) 差异分析 三种差异分析函数比较: 输入数据都是 = topTable(fit, coef=2, n=Inf)DEG3 = na.omit(DEG3) k1 = (DEG3$P.Value < pvalue_t)&(DEG3 $logFC < -logFC_t)k2 = (DEG3$P.Value < pvalue_t)&(DEG3$logFC > logFC_t)DEG3$change = ifelse(k1,"DOWN" ="NOT"]cg3 = rownames(DEG3)[DEG3$change !

    27310编辑于 2024-07-11
  • 来自专栏Android开发指南

    3.数据存储

    还有缓存中一般是存放一些内存中一些直接读取的数据。               3. 储存步骤 得到了SharedPreferences对象之后, 就可以开始向SharedPreferences文件中存储数据了,主要可以分为三步实现。 1. 向 SharedPreferences.Editor 对象中添加数据,比如添加一个布尔型数据就使用 putBoolean方法,添加一个字符串则使用 putString()方法,以此类推。 3. 调用 commit()方法将添加的数据提交,从而完成数据存储操作。

    1.2K70发布于 2018-05-14
  • 来自专栏火星娃统计

    GEO数据挖掘3

    数据挖掘3 sunqi 2020/7/11 概述 对下载好的基因初步分析,进行PCA分析和热图绘制 PCA 绘制 rm(list = ls()) options(stringsAsFactors = F file = 'step1-output.Rdata') table(group_list) ## group_list ## Control Vemurafenib ## 3 3 # 查看数据 dat[1:4,1:4] ## GSM1052615 GSM1052616 GSM1052617 GSM1052618 ## ZZZ3 11.26970 11.12560 ) # install.packages(c("FactoMineR", "factoextra")) library("FactoMineR") library("factoextra") # 数据处理 # 对数据进行归一化 # 因为是按照基因归一化,所以先进行转置,然后再转置回去 n=t(scale(t(dat[cg,]))) # 对绝对值大于2的数取绝对值2 # 使得最后的数据范围控制在2以内 n[

    1.2K31发布于 2020-09-15
  • 来自专栏网络收集

    数据类型(3

    因此我们定义了 BigInteger/BigDecimal 类来保存这类数据,实际是以字符串形式在堆区存储。BigInteger 类主要用来操作比 long 类型更大的整型数字。 // 绝对值a.compareTo(b); // 比较大小// BigDecimal 类专用BigDecimal x = y.setScale(3, ,等到创建对象或调用方法时再明确数据类型。 编译过程中,由编译器检查类型安全,自动隐性地对类的数据类型进行强制转换(Object -> 指定数据类型)。编译后生成的 字节码文件(.class) 将不再含有泛型。 Test{ static void main(String[] args){ Box<Integer> myBox = new Box<>(); myBox.set(3)

    37740编辑于 2022-08-03
  • 来自专栏R语言 / Linux

    GEO数据挖掘—3

    GEO数据挖掘—3 富集分析 (一)GO富集分析(用差异基因做富集) 输入数据 #(1)输入数据 gene_up = deg$ENTREZID[deg$change == 'up'] gene_down save(ego,ego_BP,file = f) } #(3)可视化 #条带图 barplot(ego) barplot(ego, split = "ONTOLOGY", font.size = 10 , #layout = "star", color.params = list(foldChange = gl), showCategory = 3) organism = 'hsa') save(kk.diff,kk.down,kk.up,file = f2) } load(f2) #(3) 复杂数据及其分析 1.多分组数据:示例GSE474 2.多数据联系分析:例如GSE83521_ and_ GSE89143 批次效应

    53700编辑于 2023-03-20
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 3-3 NumPy数据基础

    熟悉Python语言的都知道Python自带的数据类型List列表也可以表示一维数组以及多维数组,下面就说一说List相比于NumPy模块中的数组的缺点。 首先创建一个List列表生成式: ? ,但是不论是一维数组还是二维数组,list和array都没有把数据看成是向量或者是矩阵,相应的也就没有为这些运算配备和向量以及矩阵相关的运算,这使得机器学习算法中使用比list高效的array还是不方便 因此NumPy解决了list的效率问题,只能存储同一种数据类型,并且把数组看成是矩阵或者向量,并提供了很多相应的矩阵和向量的运算,这就解决了list和array不能进行科学计算的问题。 当然由于numpy数组同样只能存储一种数据类型,所以使用字符串修改元素值会抛出异常: ? 由于numpy数组只存放唯一数据类型的元素,所以我们可以通过dtype属性来查看numpy数组的数据类型,即数组中元素类型: ?

    89500发布于 2019-11-13
  • 来自专栏自动化测试实战

    httprunner3.x入门 -3 实现数据驱动

    后台几个留言问:既然httprunner3这么多坑,为什么要学这个啊? 学这个不一定你熟练应用,但是要学习httprunner的设计思想。 coding: utf-8 import os if __name__ == '__main__': os.system("hrun testsuites/tags_suits.yml") 3数据驱动 httprunner实现数据驱动必须要安装3.x版本。 然后执行all.py文件,就可以在测试报告中看到结果了 点开下面Passed就能看到具体数据了 第二个 为了方便判断,我们加上断言 断言可以参考这里httprunner 3.x 入门 -1 ,并且每一组数据占一行 3、tags_suits.yml文件里的parameters下的变量名顺序没有要求。

    97420编辑于 2022-04-12
  • 来自专栏科控自动化

    Blazor练习3 -数据绑定

    默认绑定 1.使用方法 Blazor中Razor组件通过一个名为@bind的HTML元素属性提供数据绑定功能,数据绑定的对象可以为字段、属性或表达式值。 onchange事件,通过在组件中添加一个元素p可以看出效果,每当input离开focus或者回车时,p中的值才会更新:

    ID: @slave

    2.等价单向绑定 由于@bind绑定的数据是强类型 ,在从input的value到绑定的数据时,会做相关的数据转换,如果转换失败,则会保持上次的值不变。 val : slave;}" /> 之所以说是类似,是因为当无法转换时,例如输入的是小数123.1,当触发onchange事件时,通过@bind绑定数据时,input中value会变回上一次的整数;而这种单向绑定时 ,input的value显示的依然为123.1,不过通过C#获取slave的值时,得到的与通过@bind绑定数据时的行为是一致的。

    69220编辑于 2022-03-29
  • 来自专栏数据湖

    数据仓库实战 3

    经过前面那么久的折腾,我们终于可以切入主题了,接下来我们用数仓分层的理论,在Hive中建立数据仓库。 ODS层 启动Hive客户端,创建gmall数据库 [root@cdh2 ~]# hive 0: jdbc:hive2://cdh1.macro.com:2181,cdh2.macr> create ,我们可以看到ods_start_log表已经有数据了 DWD层 创建启动表 0: jdbc:hive2://cdh1.macro.com:2181,cdh2.macr> drop table if > PARTITIONED BY (dt string); DWD层启动表加载数据脚本 新建脚本dwd_start_log.sh #! _3e88639f-e439-40d3-bd7b-bbbb2159fb3b): insert overwrite table gmall.dwd_start_log PARTITION (dt='2020

    1.4K20发布于 2020-12-18
  • 来自专栏python3

    python 学习笔记 3 -- 数据

    it contains the string "zon"   Brazil_*_Russia_*_India_*_China      注:本文主要以例子的形式介绍了几种python的数据结构

    44820发布于 2020-01-07
  • 来自专栏python3

    PHP(3):数据类型

    PHP(3):数据类型 一、 数据类型 数据类型是具有相同特性的一组数据的统称。PHP早就提供了丰富的数据类型,PHP 5中又有更多补充。 本节将介绍这些数据类型,可以分为3类:标量数据类型、复合数据类型和特殊数据类型。 1、 标量数据类型 标量数据类型只能包含单个的一项信息,以下都属于标量数据类型:布尔型、整型、浮点型和字符型。 3、 特殊数据类型 特殊数据类型包括那些提供某种特殊用途的类型,因此无法归入其他任何类别。这包含资源(resource)和空(null)数据类型。 3、 浮点型(float或double) 浮点数(也叫浮点数,双精度数或实数),其字长和平台相关,通常最大值是 1.8e308 并具有 14 位十进制数字的精度(64 位 IEEE 格式)。 四、 特殊数据类型 1、资源(resource) PHP通常用于与一些外部数据源交互,如数据库、文件和网络流。通常,这种交互通过句柄(handle)完成,成功地连接资源时会对句柄命名。

    2.2K10发布于 2020-01-06
  • 来自专栏python3

    Cocos数据篇(3) ——X

    【参考】 http://www.w3school.com.cn/xml/index.asp (W3School) http://cn.cocos2d-x.org/tutorial/show? > XML 的设计宗旨是:传输数据,而非显示数据。     > XML 标签没有被预定义,您需要自行定义标签。     > XML 被设计为具有自我描述性。      所以最好的做法是:         > 属性:用来提供不属于数据组成部分的信息。如图片格式、书籍分类、ID 索引等。         > 元素:用来描述数据信息。 3、XML数据存储 以上面解析的XML文档为例,我们通过代码来生成相应的XML文档,并保存到xml文件中。 4、XML数据修改 以上面存储的XML文档为例,进行数据的修改操作。 原始XML文档数据如下: ?

    2K10发布于 2020-01-07
  • 来自专栏进步集

    原创 数据3

    count(*)—统计关系里面有多少元组 count(A)–计算属性A有多少个值 加distinct 就是查有多少不同的值 sum 就是把所有是a的属性求和 avg 求均值 A是某个表一个单个的属性

    27620编辑于 2022-11-12
  • 来自专栏生信喵实验柴

    Monocle3读取数据

    一、读入数据 软件支持多种方式的数据读入,可以直接读入 10x genomics 官方软件 Cell Ranger 的结果,也可以使用 Seurat 质控过后的结果,还可以单独读入矩阵 二、读入 10x genomics 数据 Monocle3 提供 load_cellranger_data 函数,可以直接读取 10x 数据,读取 Cell Ranger 分析结果目录,注意目录结构不要修改 ,可以删除一些不要的数据。 ") cell_metadata <- readRDS("monocle3/celegans/cao_l2_colData.rds") gene_annotation <- readRDS("monocle3 /pbmc3k.rds") class(pbmc) expression_matrix <- GetAssayData(pbmc, assay ='RNA', slot = 'counts') cell_metadata

    80510编辑于 2022-10-25
领券