首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏生信课程note+实验知识

    TCGA分析-数据下载2

    是TCGA分析-数据整理-2的上一步https://cloud.tencent.com/developer/article/2353514title: "xiaohe"output: html_documentdate 通过将 eSet 数据框中的第一列赋值给新的变量 eSet,可以方便地对这些数据进行后续的分析和处理。#上述代码提取表达矩阵,但是提取出来是0行,不存在。 #2.提取表达矩阵#clinical<- pData(eSet)#具体来说,pData()函数是从eSet中提取“数据”部分,即提取临床信息。 do.call(cbind,re)class(re2)## [1] "data.frame"exp=as.matrix(re2)#strsplit(fs, "_", simplify=T) 是将字符串 #2,函数会应用于矩阵的每一行(即,纵向)。

    72720编辑于 2023-11-01
  • 来自专栏生信课程note+实验知识

    TCGA分析-数据整理2

    title: "三大R包差异分析"output: html_documenteditor_options: chunk_output_type: console1.三大R包差异分析rm(list = > logFC_t);table(k2)#> k2#> FALSE TRUE #> 4256 629DEG1$change = ifelse(k1,"DOWN",ifelse(k2,"UP", topTags(fit, n=Inf)class(DEG2)#> [1] "TopTags"#> attr(,"package")#> [1] "edgeR"DEG2=as.data.frame(DEG2 -06 0.0015882179k1 = (DEG2$PValue < pvalue_t)&(DEG2$logFC < -logFC_t)k2 = (DEG2$PValue < pvalue_t)&(DEG2 ="NOT"]cg2 = rownames(DEG2)[DEG2$change !="NOT"]cg3 = rownames(DEG3)[DEG3$change !

    56610编辑于 2023-10-31
  • 来自专栏python数据分析实践

    python数据分析浅谈(2

    直接信息主要分析图表数值变化和趋势,潜在信息主要分析这种趋势的驱动因子。 直接信息是数据分析的基础,潜在信息是区别数据分析水平高低的重要尺度。 本节的主要内容:介绍数据分析中的一些“坑”,主要包括: 1)明确分析目的 2数据质量管理和建议 3)统计模型选择与应用 4)关于显著性检验的提醒 01 时刻明确分析目的 话听起来很简单,做起来可没那么容易 2数据来源:对于直接从网上获取的数据,需要更加小心,了解我们该专业/行业的权威数据网站十分有必要。 这里有几个方法可供参考:1)查找本领域的相关研究,他们大多都标注了数据来源,根据提供的信息直接查找即可。2)咨询他人以了解本领域常用的几个权威数据网站,并注意收藏。 2数据适用性:就如1中所述,不同的模型对数据的要求也不同。

    43910编辑于 2023-02-23
  • 来自专栏R语言数据分析

    表达芯片数据分析2

    db) ls("package:hgu133plus2.db") #列出R包里都有啥 ids <- toTable(hgu133plus2SYMBOL) #把R包里的注释表格变成数据框}# 方法2 方法4 自主注释,了解一下#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA图片一个探针对应多个基因——非特异性探针需要去除;练习GSE42872下载数据并进行差异分析绘制火山图 ', getGPL = F)#网速太慢,下不下来怎么办#1.从网页上下载/发链接让别人帮忙下,放在工作目录里#2.试试geoChina,只能下载2019年前的表达芯片数据class(eSet)length step1output.Rdata")rm(list = ls()) load(file = "step1output.Rdata")# 1.Group----library(stringr)# 标准流程代码是二分组,多分组数据分析后面另讲 ")###########################################rm(list = ls()) load(file = "step2output.Rdata")#差异分析library

    68920编辑于 2023-09-27
  • 来自专栏数据科学与人工智能

    数据科学小技巧2数据画像分析

    阅读完本文,你可以知道: 1 利用pandas_profiling库生成数据画像 "对于AI,我们不去改变,我们就会改变。" 第二个数据科学小技巧:数据画像分析。 我们使用pandas_profiling库可以快速地对原始数据进行画像和分析。 一 notebook代码 ? 二 运行结果 数据画像报告包括五个部分 第一部分:概况分析 ? 第二部分:变量分析 ? 第三部分:相关性分析 ? 第四部分:缺失值分析 ? 第五部分:抽样数据检视 ? 你若是想快速了解你的数据,并且数据规模不是很大,可以采用这种方法来解答。

    93710发布于 2020-03-12
  • 来自专栏人力资源数据分析

    人力资源数据分析指南(2) - 数据分析基础

    很多人觉得数据分析是一个很高深的技能,要学会数据分析好像要会很多专业的软件,然后要和很多的数字打交道,要逻辑感非常强,其实数据分析没有大家想象的那么复杂,通过学习你也可以学会人力资源的数据分析。 首先我们对数据分析要有正确的认识: 1、不要为了分析分析,需要给出结果 很多人在做数据分析的时候追求那种美观的高大上的界面,把重点放在图表的美化,然后在数据分析维度上,纯粹为了分析分析 2数据分析不是EXCEL,不是图表 我们对数据分析的呈现一般是复杂的图表,美观的数据图,还有一些交互的操作,但是数据分析并不单单是这些,数据分析更加关注你的数据分析的思维,你对你分析内容的理解,你要通过你的分析给与结论和指引 数据分析的类型 Types of data analysis ? 数据分析根据数据的类型分为3种, 1、基础信息类数据 2、职能业务数据分析 3、效能数据分析 ? 2、职能类数据 这类数据主要是人力资源各个模块的动态数据,包含人员结构,人员流动,入离职,招聘,培训,薪酬等这些模块,然后以这些模块中的关键指标为基础,进行数据分析。 ?

    98820发布于 2020-02-25
  • 来自专栏程序员小王

    Python数据分析之Matplotlib(2

    绘制折线图: import matplotlib.pyplot as plt x=range(2,26,2) y=[15,13,14.5,17,20,25,16,26,27,22,18,15] plt.plot import matplotlib.pyplot as plt x = range(2, 26, 2) y = [15, 13,14.5,17,20,25,26, 26, 27, 22, 18, 15] 所以需要第二步骤) 【总结】 方式二用时才设置,且不会污染全局字体设置,更灵活 方式三、方式四不需要对字体路径硬编码,而且一次设置,多次使用,更方便) 设置x y 轴的刻度间距: plt.xticks(range(2,25

    83930发布于 2019-07-02
  • 来自专栏SeanCheney的专栏

    《Python数据分析2nd

    《Python数据分析》(Python for Data Analysis, 2nd Edition)第二版出了,目前还没有中文版,这版的代码适用于Python 3.6 。 PDF下载(英文):https://github.com/iamseancheney/pythonbooks/blob/master/Python%20for%20Data%20Analysis%2C%

    1.2K80发布于 2018-04-24
  • 来自专栏嵌入式音视频

    AI数据分析-数据可视化模块

    NumPy(Numerical Python) 是科学计算基础库,提供大量科学计算相关功能,比如数据统计,随机数生成等。 Numpy 是 Python 语言在科学计算领域取得成功的关键之一,如果想通过 Python 语言学习数据科学、人工智能(包括深度学习、语言处理等分支),就必须学习 Numpy。 ([[1,2,3],[4,5,6],[7,8,9]]) print(a) print('a 数组的维度:',a.shape) 执行结果如图 ---- 【示例4】array()函数 ndmin 参数的使用 import numpy as np a=np.array([1,2,3,4,5,6],ndmin=3) print(a) 执行结果如图 ---- 【示例5】array()函数 dtype 参数的使用 =np.arange(0,6,dtype=int) print(x) 执行结果如图 ---- 【示例 7】arange()函数指定起始值、终止值及步长 x=np.arange(10,20,2,

    96320编辑于 2023-03-16
  • 来自专栏Corley的开发笔记

    Python数据分析实战(2)使用Pandas进行数据分析

    文章目录 一、Pandas的使用 1.Pandas介绍 group_by()的使用 2.使用Pandas进行College数据分析 二、鸢尾花数据分析 1.基础操作 2.数据分析 三、电影评分数据分析 一、Pandas的使用 1.Pandas介绍 Pandas的主要应用包括: 数据读取 数据集成 透视表 数据聚合与分组运算 分段统计 数据可视化 对电影数据分析: 平均分较高的电影 不同性别对电影平均评分 0 7 0 Name: C, dtype: int64 2.使用Pandas进行College数据分析 新建college_data目录,下放College.csv如下: ? 963624318 在群文件夹Python数据分析实战中下载即可。 由上处数据处理和分析的过程中可以看到,在数据处理过程中,合并、透视、分组、排序这四大类操作是最经常用的,需要熟练掌握。

    4.5K30发布于 2020-08-26
  • 来自专栏Dance with GenAI

    AI数据分析:集中度分析和离散度分析

    在deepseek中输入提示词: 你是一个Python编程专家,要完成一个Python脚本编写的任务,具体步骤如下: 读取Excel表格:"F:\AI自媒体内容\AI行业数据分析\toolify月榜\toolify2023 年-2024年月排行榜汇总数据.xlsx" 计算第2列第1行-20行数据组的: 最大值 最小值 均值 中位数 极差 方差 标准差 20%分位数 25%分位数 75%分位数 80%分位数 将计算结果写入第 2列第21行-31行; 然后按照上面的计算步骤一直计算到第15列第21行-31行; 计算第2列第1行(设为数据起点)到第15列第1行(设为数据终点)数据组的简单年均增长率,写入第16列第1行,然后计算第 2行,第3行数据,一直计算到第20行; 计算第2列第1行(设为数据起点)到第15列第1行(设为数据终点)数据组的复合年均增长率,然后计算第2行,第3行数据,一直计算到第20行; 注意:每一步都输出信息到屏幕 自媒体内容\\AI行业数据分析\\toolify月榜\\toolify2023年-2024年月排行榜汇总数据.xlsx" df = pd.read_excel(file_path) # 计算第2列到第15

    35710编辑于 2024-06-24
  • 来自专栏山行AI

    PandasAI——让AI数据分析

    前言 PandasAI是一款数据分析领域的ChatGPT应用,本文对原项目进行翻译旨在进行知识科普和梳理。 这个项目的github地址为:https://github.com/gventuri/pandas-ai PandasAI Pandas AI 是一个 Python 库,它为 Pandas(一款流行的数据分析和操作工具 隐私和安全 为了生成运行的 Python 代码,我们取 dataframe 的head,将其随机化(对敏感数据使用随机生成,对非敏感数据进行打散)并只发送head。 2. PandasAI对象 我们主要关注一下它的run方法: 环境变量 由于需要借助LLM(大模型)的能力进行分析结果生成,这里需要设置LLM的API key。 kF7FqH2FwS [4] : https://pepy.tech/project/pandasai [5] : https://opensource.org/licenses/MIT [6] : https

    2.3K40编辑于 2023-06-14
  • 来自专栏Dance with GenAI

    AI数据分析:根据Excel表格数据进行时间序列分析

    ChatGPT中输入提示词: 你是一个Python编程专家,要完成一个Python脚本编写的任务,具体步骤如下: 读取Excel表格:"F:\AI自媒体内容\AI行业数据分析\toolify月榜\toolify2023 年-2024年月排行榜汇总数据.xlsx" 用matplotlib绘制一个折线图: X轴为单元格B1到单元格O1的表头; Y轴为第1行到第20行的数据,标签为:月访问量; 用每个单元格A2到A21对应的数据绘制折线图 \AI自媒体内容\AI行业数据分析”,图片标题为:2023年Top20 AI应用近一年的发展趋势; 显示图片; 注意:每一步都输出信息到屏幕 源代码: import pandas as pd import 自媒体内容\AI行业数据分析\toolify月榜\toolify2023年-2024年月排行榜汇总数据.xlsx' try: df = pd.read_excel(file_path) print("Excel 应用近一年的发展趋势') plt.xlabel('月份') plt.ylabel('月访问量') plt.legend() # 保存图片 output_dir = r'F:\AI自媒体内容\AI行业数据分析

    58410编辑于 2024-06-24
  • 来自专栏气象学家

    数据集 | MERRA-2全球再分析数据

    导 读 MERRA-2是一套长时间序列的在分析数据集,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 ? 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 02 我们再看一下全球的风速数据 ? 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 ? ? MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。

    11.8K42发布于 2020-06-17
  • 来自专栏锦小年的博客

    Python数据分析(2)-pandas数据结构操作

    pandas是一个提供快速、灵活、表达力强的数据结构的Python库,适合处理‘有关系’或者‘有标签’的数据。在利用Python做数据分析的时候,pandas是一个强有力的工具。 pandas库有两种数据结构,Series和DataFrame。前者适合处理一维数据,也就是单变量;后者适合分析多维数据,不过也仅仅只能是二维。 ] [ 8. 12. 1. 10. 12. 17. 4. 3. 13. 2. ] [ 5. 19. 8. 12. 15. 19. 10. 1. 3. 2. ] [ 2. 15. 4. 13. 10. 14. 1. 5. 5. 1.]] 2.

    1.8K110发布于 2018-01-02
  • 来自专栏GIS与遥感开发平台

    数据集 | MERRA-2全球再分析数据

    导读 MERRA-2是一套长时间序列的在分析数据集,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。

    7.4K40编辑于 2022-04-29
  • 来自专栏数据科学(冷冻工厂)

    ATAC-seq分析数据介绍(2

    数据 本教程中,我们将使用三组已发布的数据。 4.1. data_1 第一个数据集来自原始 ATACseq 论文[2]。 我们将使用 ATACseq_50k_Rep2 示例 GEO - GSM1155958 可以从 ENA 以 FASTQ 格式获取数据。 SAMN02192806 - [here](https://www.ebi.ac.uk/ena/data/view/SAMN02192806 “SAMN02192806”) 4.2. data_2 对于第二个数据集 我们还将使用对齐数据作为BAM[8] 文件,该文件可在此处找到。 5. 参考数据 对于 ATACseq 分析,我们需要一些参考数据。 下载上述文件并解压缩 ATAC_Workshop.zip 后,您应该将 Sorted_ATAC_50K_2.bam 和 Sorted_ATAC_50K_2.bam.bai 文件移动到 ATAC_Workshop

    64320编辑于 2023-02-27
  • 来自专栏音视频开发技术

    ffplay源码分析2-数据结构

    2. ,指向的数据区将被拷入SDL音频缓冲区。 有多种策略可以用来区分空和满的标志: 1) 总是保持一个存储单元为空:“读指针”==“写指针”时为空,“读指针”==“写指针+1”时为满; 2) 使用有效数据计数:每次读写都更新数据计数,计数等于0 可以看到,FrameQueue使用上述第2种方式,使用FrameQueue.size记录环形缓冲区中元素数量,作为有效数据计数。 按照这样的设计思路,如果rindex_shown为2,队列中就会保留最后2帧。 但keep_last机制有什么用途呢?希望知道的同学指点一下。

    1.4K20发布于 2019-04-02
  • 第七章 AI数据质量-2

    1.数据不足:对于许多AI任务,特别是计算机视觉任务,需要大量的标注数据来训练模型。然而,在现实世界中获取这些数据可能非常困难和昂贵,尤其是对于稀有或危险的场景。 2.数据多样性:为了训练出泛化能力强的AI模型,需要具有多样性的训练数据。然而,现实世界中的数据往往存在偏差,这可能导致模型在某些场景下表现不佳。 2.文本增强 文本增强是自然语言处理(NLP)任务中常用的技术,如情感分析、文本分类和机器翻译。该技术涉及对文本应用各种变换,如交换单词、改变单词顺序和添加同义词。 4.视频增强 视频增强是视频分析、动作识别和物体跟踪中常用的技术。该技术涉及对视频帧应用各种变换,如裁剪、缩放和翻转。这些变换有助于创建与原始帧相似但略有变化的新视频帧。 图7-5 原图与图像增强效果图 7.5.2 基于AI合成数据 合成数据生成技术是一种通过计算机程序或模型来生成人工数据的技术,可以用于增加数据集的大小和多样性,从而提高机器学习模型的性能和鲁棒性。

    81710编辑于 2025-04-15
  • 来自专栏数据科学(冷冻工厂)

    ATAC-seq分析数据介绍(2

    我们将使用 ATACseq_50k_Rep2 示例 GEO - GSM1155958 可以从 ENA 以 FASTQ 格式获取数据。 SAMN02192806 - here4.2. data_2对于第二个数据集,我们将 UCSD 的 Bing Ren 生成的 ATACseq 作为 ENCODE 联盟的一部分。 原始数据和处理后的 BAM 文件可从 ENCODEs 门户网站获得T-Reg - ENCSR724UJSFQ 文件可以在此处找到 read1 和此处的 read2。 我们还将使用对齐数据作为BAM 文件,该文件可在此处找到。5. 参考数据对于 ATACseq 分析,我们需要一些参考数据。 下载上述文件并解压缩 ATAC_Workshop.zip 后,您应该将 Sorted_ATAC_50K_2.bam 和 Sorted_ATAC_50K_2.bam.bai 文件移动到 ATAC_Workshop

    97440编辑于 2023-01-27
领券