搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏python数据分析实践
Python数据分析浅谈(3)
在这个阶段，我们需要注意几个方面：（1）尽量选择一个自己比较擅长/感兴趣的学科领域（2）选择该学科领域的某一个或几个具体的研究方向（3）了解研究方向中常用的研究方法、公开/可获取的数据自己比较擅长但是大部分情况下，我们在搜索引擎中可能找不到需要的数据，不可否认的是，搜索结果中经常会给我们带来数据存在的一些线索，要善于运用浏览器。（3）数据打包网站或者数据采集平台获取。日常数据分析中，我们要积累一些常见的数据清洗方法，例如剔除异常值，可以直接使用3倍标准差判别；重复值和空值可以通过Excel很方便地实现。熟悉这些操作可以大大简化工作量，节约我们的时间。 Step3：描述分析 3.1 统计分析统计分析是数据分析中最广的分析方法。统计分析就是对数据进行文字描述和指标统计。一份完整的数据报告，至少需要包含以下几部分内容：（1）分析目的（2）分析背景和意义（3）数据来源和方法（4）结果与分析（5）结论和建议事实上数据报告就像是一篇实验报告或作文，把做实验的目的
47710编辑于 2023-02-23
来自专栏全栈工程师修炼之路
Python3爬虫数据清理分析
[TOC] 0x00 快速入门 0x01 分析博客提取描述：闲来无事写了一个自己博客的标签云，对于学习爬虫与数据清理还是挺有用的; 生成词云我们需要用到几个库： pip install numoy titlestring = "" #进行标题拼接 for title in titlelist: titlestring += title + " " #对数据进行分词
68420发布于 2020-10-23
来自专栏数据科学（冷冻工厂）
ChIP-seq 分析：数据比对（3）
生成的 BAM 文件将包含用于进一步分析的对齐序列读取。 2. 参考基因组生成首先，我们需要以 FASTA 格式检索感兴趣的基因组的序列信息。 writeXStringSet(mainChrSeqSet, "BSgenome.Mmusculus.UCSC.mm10.mainChrs.fa") 3. Rsubread 我们可以使用 Rsubread 包将 FASTQ 格式的原始序列数据与 mm10 基因组序列的新 FASTA 文件进行比对。 ", bt2Index = file.path("BSgenome.Mmusculus.UCSC.mm10.mainChrs")) 然后我们可以使用 bowtie2() 函数对齐我们的 FASTQ 数据生成的排序和索引 BAM 文件现在可以用于外部程序，例如 IGV，也可以用于 R 中的进一步下游分析。
77410编辑于 2023-02-27
来自专栏全栈工程师修炼之路
Python3爬虫数据清理分析
[TOC] 0x00 快速入门 0x01 分析博客提取描述：闲来无事写了一个自己博客的标签云，对于学习爬虫与数据清理还是挺有用的; 生成词云我们需要用到几个库： pip install numoy matplotlib titlestring = "" #进行标题拼接 for title in titlelist: titlestring += title + " " #对数据进行分词
49010编辑于 2022-09-28
来自专栏数据科学（冷冻工厂）
ChIP-seq 分析：数据比对（3）
生成的 BAM 文件将包含用于进一步分析的对齐序列读取。图片2. 参考基因组生成首先，我们需要以 FASTA 格式检索感兴趣的基因组的序列信息。我们可以使用 BSgenome 库来检索完整的序列信息。 writeXStringSet(mainChrSeqSet, "BSgenome.Mmusculus.UCSC.mm10.mainChrs.fa")3. Rsubread我们可以使用 Rsubread 包将 FASTQ 格式的原始序列数据与 mm10 基因组序列的新 FASTA 文件进行比对。 mainChrs.fa", bt2Index = file.path("BSgenome.Mmusculus.UCSC.mm10.mainChrs"))然后我们可以使用 bowtie2() 函数对齐我们的 FASTQ 数据生成的排序和索引 BAM 文件现在可以用于外部程序，例如 IGV，也可以用于 R 中的进一步下游分析。
93000编辑于 2023-02-13
来自专栏技术翻译
大数据Python：3大数据分析工具
正如它的网站所述，Pandas是一个开源的Python数据分析库。让我们启动IPython并对我们的示例数据进行一些操作。单独使用Python非常适合修改数据并做好准备。现在有了Pandas，您也可以在Python中进行数据分析。数据科学家通常将Python Pandas与IPython一起使用，以交互方式分析大量数据集，并从该数据中获取有意义的商业智能。查看上面的网站了解更多信息。这是来自Apache Spark项目的大数据分析库。 PySpark为我们提供了许多用于在Python中分析大数据的功能。它带有自己的shell，您可以从命令行运行它。原文标题《Big Data Python: 3 Big Data Analytics Tools》作者：Bill Ward 译者：February 不代表云加社区观点，更多详情请查看原文链接
5.3K20发布于 2018-12-13
来自专栏数说戏聊
Python3分析CSV数据
2.7 从多个文件中连接数据 pandas可以直接从多个文件中连接数据。基本过程就是将每个输入文件读取到pandas数据框中，将所有数据框追加到一个数据框列表，然后使用concat 函数将所有数据框连接成一个数据框。如果你需要平行连接数据，那么就在concat 函数中设置axis=1。除了数据框，pandas 中还有一个数据容器，称为序列。你可以使用同样的语法去连接序列，只是要将连接的对象由数据框改为序列。有时候，除了简单地垂直或平行连接数据，你还需要基于数据集中的关键字列的值来连接数据集。pandas 提供了类似SQL join 操作的merge 函数。因为输出文件中的每行应该包含输入文件名，以及文件中销售额的总计和均值，所以可以将这3 种数据组合成一个文本框，使用concat 函数将这些数据框连接成为一个数据框，然后将这个数据框写入输出文件。
8.6K10发布于 2018-08-02
来自专栏数据科学（冷冻工厂）
空间转录组: DLPFC数据集分析 (3)
引言本系列讲解空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1]，持续更新，欢迎关注，转发，文末有交流群！
23110编辑于 2025-11-19
来自专栏Python数据科学
安利 3 个 pandas 数据探索分析神器！
EDA是数据分析必须的过程，用来查看变量统计特征，可以此为基础尝试做特征工程。东哥这次分享3个EDA神器，其实之前每一个都分享过，这次把这三个工具包汇总到一起来介绍。 1. Sweetviz的一些优势在于：分析有关目标值的数据集的能力两个数据集之间的比较能力但也有一些缺点：变量之间没有可视化，例如散点图报告在另一个标签中打开个人是比较喜欢Sweetviz的。 3. pandasGUI PandasGUI与前面的两个不同，PandasGUI不会生成报告，而是生成一个GUI（图形用户界面）的数据框，我们可以使用它来更详细地分析我们的Dataframe。在不同的工作流程中，每个都有自己的优势和适用性，三个工具具体优势如下： Pandas Profiling 适用于快速生成单个变量的分析。 Sweetviz 适用于数据集之间和目标变量之间的分析。 PandasGUI适用于具有手动拖放功能的深度分析。
76520发布于 2021-10-19
来自专栏生信菜鸟团
GEO数据分析流程之芯片3
三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦，还有互动练习题哈，欢迎大家点击文末的阅读原文去关注我们学员的公众号哦！生信技能树学习笔记 GEO分析之PCA和热图 rm(list = ls()) load(file = "step1output.Rdata")load(file = "step2output.Rdata ")#输入数据：exp和Group#Principal Component Analysis#http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide show_rownames = F, annotation_col=annotation_col, scale = "row", breaks = seq(-3,3
25210编辑于 2024-06-28
来自专栏数说戏聊
Python3分析Excel数据
worksheet.name, "\tRows:",\ worksheet.nrows, "\tColumns:", worksheet.ncols) 导入xlrd模块open_workbook函数读取和分析 5 Worksheet name: march_2013 Rows: 7 Columns: 5 3.2 处理单个工作表 3.2.1 读写Excel文件使用pandas分析 pandas将所有工作表读入数据框字典，字典中的键就是工作表的名称，值就是包含工作表中数据的数据框。所以，通过在字典的键和值之间迭代，可以使用工作簿中所有的数据。当在每个数据框中筛选特定行时，结果是一个新的筛选过的数据框，所以可以创建一个列表保存这些筛选过的数据框，然后将它们连接成一个最终数据框。在所有工作表中筛选出销售额大于$2000.00的所有行。然后，用loc函数在每个工作表中选取特定的列，创建一个筛选过的数据框列表，并将这些数据框连接在一起，形成一个最终数据框。
5.1K20发布于 2018-08-02
来自专栏文献分享及代码学习
数据分析-cuttag分析流程分享3-个性化分析内容
在进行了前面两次的流程分析，目前已经得到了bedgarph文件和peak文件，需要在后面对peak文件进行相关的分析，主要有差异peak分析、peak的注释、注释基因的富集分析以及motif分析，我做了几次 / ##== linux command ==## cat TAIR_exons.gtf | cut -f1,4,5,9 | cut -f1 -d";" | awk '{print $1, $2, $3, res) head(countMatDiff) write.table(countMatDiff,"difference.txt",sep="\t",row.names=F) [图片.png] 我的数据运行了这个代码 /Nanog_vs_Pou5f1_deseq2_sig.bed", sep="\t", quote=F, row.names=F, col.names=F) 我改了博主的FDR参数，主要是因为我师姐的数据可以发现整个流程大致可以分为三类，第一个就是NGS数据的处理，第二个就是相关结果的可视化，第三个就是根据自己的实验目的去定制自己后续的个性化分析的内容，可以加入其他的公共数据来进行相关的整合，来完善整体的内容
7.4K42编辑于 2022-04-06
来自专栏R语言数据分析
单细胞数据分析3（单细胞数据自动注释）
使用GSE218208数据为例library(celldex)#使用celldex包里的注释数据#下载到本地library(SingleR)ls("package:celldex")f = ".. file.exists(f)){ ref <- celldex::BlueprintEncodeData() save(ref,file = f)}ref <- get(load(f))#把里面的数据提取出来生成新的数据
75610编辑于 2023-10-15
来自专栏数据科学（冷冻工厂）
Scanpy 分析 3k PBMCs：数据预处理
引言本系列讲解使用Scanpy分析单细胞（scRNA-seq）数据教程[1]，持续更新，欢迎关注，转发！数据集本次使用的数据集包含一位健康供体的3k PBMCs，这些数据可以从10x Genomics的官方网站免费获取。 curl https://cf.10xgenomics.com/samples/cell-exp/1.1.0/pbmc3k/pbmc3k_filtered_gene_bc_matrices.tar.gz -o data/pbmc3k_filtered_gene_bc_matrices.tar.gz # ! adata.raw = adata.copy() 进行过滤 adata = adata[:, adata.var.highly_variable] 对每个细胞的总计数和线粒体基因表达百分比的影响进行回归分析
53000编辑于 2025-06-08
来自专栏Datawhale专栏
数据分析师在岗3年小结！
作者：小尧，数据分析师，Datawhale成员小尧：本科财务类专业毕业后就进入职场打拼，在京东完成了从财务到数据分析的惊险一跃，目前是一家外企的数据分析师。数据分析师工作的日常？工作职责基本就是分析数据，吃的是数据，吐得是数据分析报告。，还是Power BI（（平时基本这3个软件开得最多，偶尔还会用Tableau和帆软BI）。疫情后行业平均薪资下降了，目前薪资是，入门8K~12K，不到2年经验15K，3年+经验20K+。整个数据分析师这个职业，一般入门8K~12K，不同行业差距挺大。等到有1~2年工作经验了，一般也能拿到15K左右，个别行业能上20K，3年以上拿到20K+薪资问题不大。 996这种事情……我是自愿接受公司 996 的！公司绝对没有拿钱来诱惑我！
53720编辑于 2022-04-08
来自专栏数据分析1480
3个方面：做好竞品数据分析！
数据分析师通常在部分企业扮演着做竞品分析的角色，今天我们就来从数据分析师的角度说说如何做好竞品的数据分析？什么是竞品？（3）用户构成比例了解竞品的用户构成比例，是撬动竞品用户的关键。 3. 数据分析数据分析包含：整体数据、变化趋势、具体功能数据常用的数据分析工具有：移动APP，iOS版可在AppStore、App Annie上查看排名等信息；安卓版可在安卓市场、豌豆荚、360手机助手等应用市场收集数据（3）具体功能数据上面具体功能研究的是录音及主播管理功能，这里主要统计了喜马拉雅大学和有声化平台Audio+的相关数据，如下： ?
1.6K20发布于 2019-05-21
来自专栏快学Python
Python数据分析实战（3）Jupyter Notebook使用
可以看到，notebook界面由以下部分组成：（1）notebook名称；（2）主工具栏，提供了保存、导出、重载notebook，以及重启内核等选项；（3）notebook主要区域，包含了notebook 3.Jupyter中使用Python Jupyter测试Python变量和数据类型如下： ? 测试Python函数如下： ? 测试Python模块如下： ? 可以看到，在执行出错时，也会抛出异常。测试数据读写如下： ? 数据读写很重要，因为进行数据分析时必须先读取数据，进行数据处理后也要进行保存。 ## val attr = item.split(",") ## Rating(attr(0).toInt, attr(1).toInt, attr(2).toDouble, attr(3) ') rating = Rating(int(attr[0]), int(attr[1].strip()), float(attr[2].strip()), int(attr[3]
6.7K20发布于 2021-08-09
来自专栏数据科学（冷冻工厂）
空间转录组: Visium HD 数据集分析 (3)
引言本系列讲解空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1] 反卷积分析接下来，我们将对以 16 µm 为单位的 Visium HD 空间转录组数据进行反卷积分析加载单细胞参考数据首先，我们加载与之匹配的 Chromium 单细胞 RNA 测序（scRNA-seq）数据，该数据提供了两种细胞注释分辨率：低分辨率（Level1）将细胞分为 9 类，高分辨率（Level2 为了确保参考数据与 Visium 数据在转录特征上保持一致，我们仅保留来自 patient 2 的细胞作为参考集。 memory low) cs <- split(seq_len(ncol(sce)), sce$Level1) cs <- lapply(cs, \(.) sample(., min(length(.), 4e3)
44510编辑于 2025-11-29
来自专栏算法进阶
【工具】安利 3 个 pandas 数据探索分析神器！
以下文章来源于Python数据科学，作者东哥起飞大家好，我是帅东哥。 EDA是数据分析必须的过程，用来查看变量统计特征，可以此为基础尝试做特征工程。东哥这次分享3个EDA神器，其实之前每一个都分享过，这次把这三个工具包汇总到一起来介绍。 1. Pandas_Profiling 这个属于三个中最轻便、简单的了。它可以快速生成报告，一览变量概况。 Sweetviz的一些优势在于：分析有关目标值的数据集的能力两个数据集之间的比较能力但也有一些缺点：变量之间没有可视化，例如散点图报告在另一个标签中打开个人是比较喜欢Sweetviz的。 3. pandasGUI PandasGUI与前面的两个不同，PandasGUI不会生成报告，而是生成一个GUI（图形用户界面）的数据框，我们可以使用它来更详细地分析我们的Dataframe。在不同的工作流程中，每个都有自己的优势和适用性，三个工具具体优势如下： Pandas Profiling 适用于快速生成单个变量的分析。 Sweetviz 适用于数据集之间和目标变量之间的分析。
73830编辑于 2022-06-01
来自专栏机器学习AI算法工程
【知识】SAS数据分析完整笔记（3）
SAS学习笔记（3）：SAS一般高级语言本篇SAS读书笔记主要介绍SAS一般高级语言，主要内容包括赋值语句、输出语句、分支机构、循环结构、数组以及函数等六个部分。 2 输出语句 SAS数据步的输出一般是数据集，用赋值语句计算的结果会自动写入数据集。SAS也提供了一个PUT语句，可以象其它语言程序的PRINT，WRITE，printf等语句一样立即显示输出结果。 3 分支结构格式一： IF 条件 THEN 语句; Else 语句; 有时我们在条件成立时需要进行的操作无法用一个语句完成，这时可以使用SAS提供的复合语句功能：只要把若干个语句用"DO;"语句和"END ARRAY数组名(维数说明)_TEMPORARY_ （初始值表） 6 函数表示形式： SUM(xl，x2，x3) SUM(OF xl x2 x3)或SUM(OF xl-x3) 1 数学函数 ·ABS( 3 字符函数 ·TRIM(s)返回去掉字符串s的尾随空格的结果。 · UPCASE(s)把字符串s中小写字母转换为大写字母后的结果。
3.3K90发布于 2018-03-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python数据分析浅谈(3)

Python3爬虫数据清理分析

ChIP-seq 分析：数据比对（3）

Python3爬虫数据清理分析

ChIP-seq 分析：数据比对（3）

大数据Python：3大数据分析工具

Python3分析CSV数据

空间转录组: DLPFC数据集分析 (3)

安利 3 个 pandas 数据探索分析神器！

GEO数据分析流程之芯片3

Python3分析Excel数据

数据分析-cuttag分析流程分享3-个性化分析内容

单细胞数据分析3（单细胞数据自动注释）

Scanpy 分析 3k PBMCs：数据预处理

数据分析师在岗3年小结！

3个方面：做好竞品数据分析！

Python数据分析实战（3）Jupyter Notebook使用

空间转录组: Visium HD 数据集分析 (3)

【工具】安利 3 个 pandas 数据探索分析神器！

【知识】SAS数据分析完整笔记（3）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐