首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SeanCheney的专栏

    Python数据科学分析速查表

    下载链接:https://share.weiyun.com/5Z6yQbv 密码:x4mg6p ---- ? ---- 分享一组Python数据分析速查表(呆鸟翻译的)。 一共5张表,包括:Jupyter Notebook、Numpy 基础、Pandas 基础、Pandas 进阶、Matplotlib 绘图。 速查速记,不二之选!

    70810发布于 2018-09-19
  • 来自专栏生信小驿站

    使用pandas构建简单直观的数据科学分析流程

    数据科学分析流程通常是一系列步骤:数据集必须经过清理、缩放和验证,然后才能准备好被强大的机器学习算法使用。当然,这些任务可以通过Pandas等包提供的许多函数/方法来完成,但更优雅的方法是使用管道。 我们将使用美国房价数据集。 Price_tag',drop=False) #挑选'Price_tag'列值为'drop'的观察值 pipeline+=pdp.ValDrop(['drop'],'Price_tag') df5 = pipeline(dta) df5.columns ? exclude_columns= ['House_size_medium','House_size_small']) df6 = pipeline_scale(df5)

    1.2K20发布于 2019-12-11
  • 来自专栏程序员的知识天地

    最简洁的Python时间序列可视化:数据科学分析价格趋势,预测价格,探索价格

    时间序列数据数据科学领域无处不在,在量化金融领域也十分常见,可以用于分析价格趋势,预测价格,探索价格行为等。 学会对时间序列数据进行可视化,能够帮助我们更加直观地探索时间序列数据,寻找其潜在的规律。 本文会利用Python中的matplotlib【1】库,并配合实例进行讲解。 【工具】Python 3 【数据】Tushare 【注】示例注重的是方法的讲解,请大家灵活掌握。 01 单个时间序列 首先,我们从tushare.pro获取指数日线行情数据,并查看数据类型。 04 多个时间序列 如果想要可视化多个时间序列数据,同样可以直接调用plot()方法。示例中我们从tushare.pro上面选取三只股票的日线行情数据进行分析。 调用.plot.area()方法可以生成时间序列数据的面积图,显示累计的总数。

    6.8K40发布于 2019-07-18
  • 来自专栏互联网数据官iCDO

    Look-alike用户行为模拟建模背后的科学分析

    被吹嘘的Look-alike模型和基于行为特征的Look-alike 我之前曾在博客里为“大数据”大唱赞歌。我们曾经讨论过最优化算法和可以利用大数据来揭示的洞见。 唯一的改变是数据的体量和处理这些数据的速度。重要的是,不管你是在处理线性回归,神经网络学,或者什么完全不一样的东西,你都是在做同一件事情。 他们会设置一个数据阈值,比如说10%-15%的容差。他们中的一部分甚至会根据他们想要覆盖的用户数量凭空改变拟合。换句话说他们是在根据想要为你投放的广告数量来定义模型的。 ? 通常我们会从平均转化率5倍的点开始讨论,然后从这里向上或向下发展。取决于曲线的陡峭程度,比如说你也许会覆盖到那个提升度水平下我们人群库里10%的人群。这会在广告表现和人群覆盖之间达到一个好的平衡。 这个模型独立于数据深度就可以起效,我们关注单个的高提升度用户行为,而非试图在模型中找到具有全部特征的用户。 这个模型透明可见,不只是告诉你模型中的单个的行为组分,我们也为你提供工具方便你查阅。

    2.5K50发布于 2018-03-02
  • 来自专栏火星娃统计

    GEO数据挖掘5

    GEO数据挖掘5 sunqi 2020/7/13 GEO数据挖掘5 概述 GO和KEGG富集分析 KEGG全称 Kyoto Encyclopedia of Genes and Genomes,由日本京都大学生物信息学中心的 数据库能够把基因及表达信息作为一个整体的网络进行研究,通俗点讲就是通过基因寻找通路 GO全称为gene ontology,由基因本体联合会(Gene Ontology Consortium)建立的数据库 ,数据库对基因和蛋白功能进行限定和描述 GEO数据挖掘离不来富集分析,单纯的差异表达基因不能说明什么问题,只有对基因根据现有知识做定义定位分类,这样才能在生物学上解释这个差异,也就是故事才能讲顺了 注释 :GO和KEGG的具体作用不再赘述,等代码实现完成之后后续再学习理论知识 另外,KEGG和GO分析可以通过软件实现,具体参考官网 数据预处理 用到的数据集为差异分析后得到的数据集deg,详情见上章 rm by cytochrome P450 3/82 ## hsa04390 hsa04390 Hippo signaling pathway 5/

    1.4K10发布于 2020-09-15
  • 来自专栏实时流式计算

    数据血缘系列(5)—— 数据血缘与元数据

    在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘与元数据有什么关系?他们之间又是如何配合实现数据治理的。 本文思维导图如下所示: 元数据(Metadata)是描述数据数据,它为数据提供了上下文信息,使用户能够更好地理解、管理和使用数据。 元数据的类型 根据不同的应用场景,元数据可以分为业务元数据、技术元数据和操作元数据。 业务元数据描述与业务相关的信息,包括业务术语、数据定义和业务规则。 在数据治理中,元数据数据血缘紧密相关。元数据记录了数据的来源和目标,使数据血缘分析能够准确地追踪数据的流动路径。 通过元数据数据血缘的结合,企业可以更好地理解和管理其数据资产,提升数据的价值和利用水平。元数据数据血缘在数据治理中具有不可替代的重要作用。

    1.1K10编辑于 2024-07-16
  • 来自专栏雪胖纸的玩蛇日常

    5.双向数据绑定

    1.双向数据绑定 <template>

    <! -- 双向数据绑定MVVM vue就是一个mvvm框架, model改变影响视图,视图改变影响model --> <! -- 双向数据绑定必须结合表单使用 -->

    {{msg}}

    <input type="text" v-model="msg">

    <button
    </template> <script> export default { name: 'app', data () { return { msg:'双向数据绑定

    1.1K50发布于 2019-09-27
  • 来自专栏Python机器学习算法说书人

    数据结构(5):数组

    上一回简单的说了一下队列两个常见的应用:层次遍历以及在计算机系统中的应用,这一回,我们来看一个大家都非常熟悉的数据结构:数组! ? ? 数组的定义 ? 数组是由 n(n≥1)个相同类型的数据元素构成的有限序列,每个数据元素称为一个数组元素,每个元素在 n 个线性关系中的序号称为该元素的下标,下标的取值范围称为数组的维界。 大多数计算机语言提供了数组数据类型,逻辑意义上的数组可采用计算机语言中的数组数据类型进行存储,一维数组的所有元素在内存中占用一段连续的存储空间。

    1.4K10发布于 2021-04-16
  • 来自专栏漫漫生信路

    Day 5——数据结构

    2)#1-3重复2次##从向量中提取元素根据元素位置x[4]#x取第4个元素x[-4]#x取除了第4个元素之外所有元素x[2:4]#x取第2到第4个元素x[-(2:4)]#x除了第2到第4x[c(1,5) ]#x第1个和第5个根据值x[x==10]#等于10的元素x[x<0]#小于0的元素x[x%in%c(1,2,5)]#存在于向量1,2,5之间的元素数据框读取本地数据read.table(file="文件名 文件名.txt",sep="\t",header=T)查看行名和列名、行数和列数colnames(a)#查看列名rownames(a)#查看行名,如果不命名使用默认值的话,行号就是行名,即1,2,3,4,5, ......dim(a)#几行几列数据框的导出write.table(a,file = "新文件名.txt",sep=",",quote=F)#分隔符号改为逗号,导出文件在工作目录下变量的保存与重新加载可适用于未一次性处理完的数据下次接着处理

    25310编辑于 2023-12-02
  • 来自专栏一个爱吃西瓜的程序员

    学习SQL【5】-数据更新

    数据的更新处理大体可以分为插入(INSERT)、删除(DELETE)和更新(UPDATE)三类,此外,还会给大家介绍数据库中用来管理数据更新的重要概念—事务。 当然很多RDBMS都支持一次插入多行数据,这样的功能称为多行INSERT。 5:从其他表中复制数据 要学习该方法,我们首先得创建一张表。 二:数据的删除(DELETE语句) 1:DROP TABLE语句和DELETE语句 删除数据的方法大体可以分为以下两种: ① DROP TABLE语句:可以将表完全删除 ② DELETE语句:删除表中的全部数据 一旦回滚,数据库就会恢复到事务开始前的状态。

    3.1K70发布于 2018-04-04
  • 来自专栏Android开发指南

    5.数据

    5.数据数据库的操作 创建数据库create database mydb ; 查看创建数据库的语句show create database mydb ; 改变当前的数据库use mydb ; 删除数据库 ,先创建数据库,再获取可读可写的数据库对象,如果数据库存在,就直接打开,增删改用这个 SQLiteDatabase db = oh.getWritableDatabase(); //如果存储空间满了 第一个参数是表名,表示希望从哪张表中查 询数据。第二个参数用于指定去查询哪几列,如果不指定则默认查询所有列。第三、第四个参数用于去约束查询某一行或某几行的数据,不指定则默认是查询所有行的数据数据库常用操作 用到数据库就要想到 数据库单例,保证只要一个实例 定义javaben对象 将Javaben对象存到数据库 从数据库读取 实例: CoolWeatherOpenHelper public 使用这种方式来维护数据库的升级,不管版本怎样更新,都可以保证数据库的表结构是最新的,而且表中的数据也完全不会丢失了。

    90980发布于 2018-05-14
  • 来自专栏Python与算法之美

    5数据的预处理

    预处理数据包括:特征的标准化,数据的正则化,特征的二值化,非线性转换,数据特征编码,缺失值插补,生成多项式特征等。 二,数据正则化(normalize) 正则化是缩放单个样本以具有单位范数的过程。正则化有时也叫归一化,正规化。 通常使用"one-hot"方式编码后会增加数据的维度和稀疏性。 ? 五,处理缺失值 因为各种各样的原因,真实世界中的许多数据集都包含缺失数据,这类数据经常被编码成空格、NaN,或者是其他的占位符。 但是这样的数据集并不能和scikit-learn学习算法兼容。 使用不完整的数据集的一个基本策略就是舍弃掉整行或整列包含缺失值的数据。但是这样就付出了舍弃可能有价值数据(即使是不完整的 )的代价。 处理缺失数值的一个更好的策略就是从已有的数据推断出缺失的数值。 ? 六,生成多项式特征 在机器学习中,通过增加一些输入数据的非线性特征来增加模型的复杂度通常是有效的。

    73932发布于 2020-07-17
  • 来自专栏R学习之路

    Day——5 数据结构

    #取x的第四个元素 x[-4] #排除法,除了第四个元素外剩余的元素 x[2:4] #第二个到第四个元素 x[-(2:4)] #除了第二个到第四个元素 x[c(1,5)] #第一个和第五个元素 (1) 根据值取 x[x==10] #等于10的元素 x[x<0] #负数 x[x%in%c(1,2,5)] #存在于向量c(1,2,5)中的元素 数据框 (1)read.table()常见参数 header 逻辑值,指示表格是否包含文件第一行中的变量名称 sep 分隔数据值的分隔符。 读取数据时的值为NA colClasses 分配给列的类的可选向量。 ="test.RData")#保存其中一个变量 load("test.RData")#再次使用RData时的加载命令 (5)提取元素 - X[x,y]#第x行第y列 - X[x,]#第x行 - X[,y

    63230编辑于 2023-10-24
  • DAY5-数据结构

    =2) #1-3,重复2次从向量中取元素(1)根据元素位置x[4] #x第4个元素x[-4] #除第4个元素外剩余元素x[2:4] #第2到4个元素x[-(2:4)] #除了第2-4个元素x[c(1,5) ] #第1个和第5个元素(2)根据值x[x==10] #等于10的元素x[x<0] #小于0的元素x[x %in% c(1,2,5)] #存在于向量c(1,2,5)中的元素数据框提前把示例数据放在工作目录下读取本地数据 getwd()[1] "D:/CSU/R/24.3.26/day5-practice"setwd("D:/CSU/R/24.3.26/day5-practice")x <- read.csv('doudou.txt ') #获得示例数据View(x)read.table(file = "huahua.txt",sep = "\t",header =T) X1 X21 A 12 B NA3 C NA4 D )查看行名和列名、行数和列数colnames(a) # 查看列名[1] "X1" "X2"rownames(a)[1] "1" "2" "3" "4" "5" 查看行名数据框的导出write.table

    27710编辑于 2024-03-27
  • Day 5-数据结构

    数据结构入门R的规范赋值符号是<-,也可以用=代替;在Console 控制台输入命令,相当于Linux的命令行;R的代码带英文括号;向量是由元素组成的,元素可以是数字或者字符串,表格在R语言中称为数据框 read.table】查看帮助;数据类型重点关注向量和数据框。```python练习> x<- c(1,2,3) #常用的向量写法,意为将x定义为由元素1,2,3组成的向量。 > x[1] 1 2 3> > x<- 1:10 #从1-10之间所有的整数> x [1] 1 2 3 4 5 6 7 8 9 10> > x<- seq(1,10,by = 0.5) ] #第1个和第5个元素[1] 1 2x[x==10]#等于10的元素integer(0)> x[x<0]integer(0)> x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素 [1] 1 2 1 2数据框注意要把文件放到工作目录R不能识别xlsxfile: 包含要导入到 R 中的数据的文件的路径;header: 逻辑值;sep: 字段分隔符;dec: 文件中用于小数点的字符;

    35120编辑于 2024-03-26
  • Day5 数据结构

    数据框1.干货+个人理解2.选修之作图plot(iris$Sepal.Length,iris$Sepal.Width)三.作业附上思维导图和操作图今天的学习到此告一段落啦~

    12900编辑于 2024-03-08
  • 来自专栏金金生信幼儿园

    day5-数据结构

    (4)显示工作路径 getwd()(5)向量是由元素组成的,元素可以是数字或者字符串。(6)表格在R语言中改名叫数据框^_^(7)别只复制代码,要理解其中的命令、函数的意思。 (8)数据类型(重点只有两个,剩下的不看)在这些数据类型里,生信学习者最需要熟悉的是向量和数据框。 理解元素、向量和标量使用时,一般都会直接给变量定义,也就是“赋值”,字面意思是赋予这个变量一个数值(其实也不一定是数值,还可以是字符串/数据框等等)。 Part2:数据框将示例数据放在你的工作目录下(!!!重要)示例数据是如何获得的?(1)新建doudou.txt,输入以下(如果教程里让你新建,又没说在哪里,你就默认在工作目录下新建。) 用以下命令即可获得示例数据框:X<-read.csv('doudou.txt')

    29130编辑于 2023-11-18
  • 来自专栏生信学习

    DAY5-数据结构

    课前笔记(1) R 赋值符号 <- 、=(2)console控制台输入命令,相当于Linux的命令行(3)R代码括号中必须是英文(PS:基本上都不支持中文来着,哈哈)(4)getwd()显示工作路径(5) 向量:元素组成,元素可以是数字或者字符串(6)表格在R语言中属于数据框(7)? read.table查看帮助(8)数据类型:向量、矩阵、数组、数据框第一部分:向量1、向量元素包含数字或者字符串标量:一个元素组成的变量,可以是数字或者字符串,使用时必须加引号向量:多个元素组成的变量, 排列有序的数字或者字符串2、从向量中提取元素(1)根据元素位置(2)根据值第二部分:数据框(1)读取本地数据熟悉sep和header参数,帮助文档尝试理解他们的意思尝试使用代码将huahua.txt文件放进工作目录 save(a.file = 'test.RData') #保存其中一个变量load('test.RData')#再次使用RData时的加载命令(5)提取元素X是刚才的变量名,实际应用要懂得替换a[x,y

    18510编辑于 2024-06-16
  • Day5-数据结构

    Day5-数据结构 part1:向量 元素指的是数字或者字符串(用chr表示) 标量:一个元素组成的变量 向量:多个元素组成的变量x <- c(1,2,3) x x <- 1:10 x x <- seq ] #第1个和第5个元素 (2)根据值: %in% 对两个向量取交集,重要!!! 取等号为==而不是= x[x==10]#等于10的元素 x[x<0] x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素 (1)读取本地数据 # 读取.csv文件 data <- write.table(要保存的数据, file = "文件名",sep = ",",quote=F)#分隔符改为逗号,字符串不加双引号(默认格式带由双引号) (4)变量的保存与重新加载 #这次没有处理完的数据下次想接着用怎么办 非常常见的报错:对象不存在 a数据框不在当前环境下,需要检查是否成功加载

    34410编辑于 2024-03-09
  • 来自专栏盛开在夏天的太阳

    5.docker容器数据

    数据加载卷共享: --volumes-from 一. 数据卷的添加方式 有两种: 1.1 . 直接命令添加 1. 容器和宿主机之间共享数据 在容器中创建数据, 宿主机可以共享. 在宿主机创建数据, 容器可以共享到. 4. 容器停止退出后, 主机修改的数据依然共享 5. 设置带有权限的容器 有时,我们只允许容器读数据, 不允许容器写数据. 这个怎么操作呢? 容器数据卷 2.1. 什么是容器数据卷? 命名的容器挂载数据卷,其他的容器通过挂载这个父容器实现数据共享, 挂载数据卷的容器, 称之为数据卷容器. 2.2. 查看挂载卷. 5. 容器间共享数据卷 --volumes-from

    59320发布于 2020-09-27
领券