导 读 MERRA-2是一套长时间序列的在分析数据集,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 ? 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 02 我们再看一下全球的风速数据 ? 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 ? ? MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。
导读 MERRA-2是一套长时间序列的在分析数据集,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。
引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! getTopHVGs(dec, prop = 0.1) # number of HVGs selected length(top_hvgs) ## [1] 1424 降维 接下来,我们使用主成分分析 我们保留前 50 个主成分(PCs)以供后续下游分析。这样做既能减少噪声,也能提高计算效率。我们还在前 50 个 PCs 上运行 UMAP,并保留前 2 个 UMAP 成分用于可视化。 # update column names for plotting colnames(reducedDim(spe, "UMAP")) <- paste0("UMAP", 1:2) 聚类 接下来, store cluster labels in column 'label' in colData colLabels(spe) <- factor(clus) 通过在X-Y空间中绘制群集标签,并与该数据集可用的手动注释参考标签
引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! QC 质量控制 我们使用 SpotSweeper 对子集化的 16 µm 数据进行质量控制。 objective_function="modularity", resolution=1.2) table(.vhd16$Banksy <- factor(k$membership)) 接下来,我们可以进行差异基因表达(DGE)分析 direction="up") # select for a few markers per cluster top <- lapply(mgs, \(df) rownames(df)[df$Top <= 2] 2, length=101), cellwidth=10, cellheight=10, treeheight_row=5, treeheight_col=5) 或者,我们可以可视化空间中选定标记的
下载数据集请登录爱数科(www.idatascience.cn) 数据集从零售投资者的角度包含了金融新闻头条的观点。数据集包含两列,情感标签和新闻标题,情感标签包含消极的,中立的或积极的。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用 Malo P, Sinha A, Korhonen P, et al.
下载数据集请登录爱数科(www.idatascience.cn) 该数据集可用于情感分析分类。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
2背景 要将遥感集成到您的研究和分析中,学习如何解析 Google 地球引擎上可用的大量栅格数据集非常重要。了解这些数据的分类方式有助于开始此过程。 这些数据还可以创建每周、每月和每年的平均值,并已在以前的研究中用于分析和监测积雪深度、积雪范围和融雪。 3.1查找和加载集合 要开始探索 MODIS 积雪数据集,您可以通过以下两种方式之一加载集合。 如果数据集中有多个分辨率,通常会有一个表格指示每个波段的空间分辨率。 MODIS 数据集的空间分辨率,以米为单位。这是一个相对较低的分辨率,更适合区域或全球分析。 3.3.2时间分辨率 在遥感领域,有许多数据集代表了在数天、数月或数年内分析和解释值的机会。时间分辨率是我们描述传感器重访周期的方式。 4结论 总之,我们刚刚开始探索使用 Google 地球引擎触手可及的海量数据。我们还介绍了一些重要的元数据,它们可以增强您的搜索并帮助确定您的图像集是否已准备好进行分析。
下载数据集请登录爱数科(www.idatascience.cn) 这是人力资源数据集,每年约有5%员工得到晋升,检查员工是否得到晋升。 1. 字段描述 2. 数据预览 3. 数据来源 来源于Kaggle。
写在前面: 这是我见过的最严肃的数据集,几乎每一行数据背后都是生命和鲜血的代价。这次探索分析并不妄图说明什么,仅仅是对数据处理能力的锻炼。 因此本次的探索分析只会展示数据该有的样子而不会进行太多的评价。有一句话叫“因为珍爱和平,我们回首战争”。这里也是,因为珍爱生命,所以回首空难。 import pandas as pd import numpy as np import matplotlib.pyplot as plt 导入数据集 crash = pd.read_csv(". 分厂商分析结果 时间分析 年 def get_year(x): return x.split("/")[-1] fatal_crash['year'] = fatal_crash["Date"] 按时间分析
Fasion-MNIST是一位老师推荐给我的,要求我在做完MNIST-handwriting数据之后,再玩一下fmnist。这个数据集也是28*28的灰度图像,你可以从下面的图片看清图片内容。 这个数据集是由一家德国的时尚科技公司Zalando提供的,我觉一家公司把定位成时尚科技公司,而不是电商平台,是把科技创新能力作为主要生产力。 本文主要用Keras编写模型,训练数据,并以清晰的可视化方式展示。 查看数据 数据可以从git仓库上下载,https://github.com/zalandoresearch/fashion-mnist fasion-mnist 作为tensorflow分类教程数据, colab.research.google.com/github/margaretmz/deep-learning/blob/master/fashion_mnist_keras.ipynb 运行以上程序,10分钟会验证集准确率能达到
数据集 在本文中,我们将分析 Lyu 等人 的数据集,该数据集包含来自人类胚胎干细胞(hESC)在不同“architectural proteins”于热休克处理前后的 HiChIP 数据。 HiChIP 数据下载 Lyu 等人 的完整数据集可在 Sequence Read Archive下载。 fastq.gz fastq/Rad21_Rep1_2.fastq.gz 附加数据下载 原始 reads 的比对需要参考基因组的 FASTA 序列以及 Bowtie2 索引;这里我们使用 UCSC hg19 ,它们可从 Illumina’s iGenomes collection 下载,位于 Bowtie2 网站(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml 为了用 hichipper 进行 interactions call,我们还需下载 Rad21 及对照 IgG ChIP-Seq 实验的 FASTQ 文件,这些实验与 HiChIP 数据集在同一细胞系和实验条件下完成
在关联分析(1):概念及应用中,我们介绍了关联分析的应用场景、基本概念和规则产生思路。在本次的文章中,我们将介绍Apriori算法频繁项集产生的原理。 Apriori算法产生频繁项集 Apriori算法是非常常用的关联算法之一,我们继续使用上一篇文章中的例子,来分析Apriori算法产生频繁项集的过程。假定支持度阈值为50%,即最小支持度计数为2。 步骤二 根据先验原理与支持度反单调性,非频繁1-项集的超集都非频繁,所以使用频繁1-项集来产生候选2-项集。 ? 步骤三 同理,使用频繁2-项集来产生候选3-项集。 根据先验原理,只需要保留子集全为频繁2-项集的候选3-项集。 ? 步骤四 同理,使用频繁3-项集来产生候选4-项集。 从1-项集开始,直到可以产生的最长频繁项集。 2,产生测试策略。每次新的候选项集都由前一次产生的频繁项集生成,然后根据支持度要求,得到新的频繁项集。
Cloud Score+ S2_HARMONIZED数据集是由统一的哨兵-2 L1C数据集制作的,Cloud Score+的输出可用于识别相对清晰的像素,并有效去除L1C(大气顶部)或L2A(表面反射率 Cloud Score+ S2_HARMONIZED 数据集包括两个质量保证波段,即 cs 和 cs_cdf,这两个波段都根据表面能见度在 0 和 1 之间的连续刻度上对单个像素的可用性进行评分,其中 前言 – 人工智能教程 Cloud Score+ S2_HARMONIZED集合中的图像与制作这些图像的单个哨兵-2 L1C资产具有相同的id和system:index属性,因此可以根据共享的system 整个哨兵-2 档案的 Cloud Score+ 回填工作目前正在进行中,随着新结果被添加到 Cloud Score+ 集合中,数据集可用性日期将定期更新。 代码: // Harmonized Sentinel-2 Level 2A collection. var s2 = ee.ImageCollection('COPERNICUS/S2_SR_HARMONIZED
下载数据集请登录爱数科(www.idatascience.cn) 心脏病的患者的一些指标以及是否发病的数据集。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
AIRS/Aqua L2 CO2 in the free troposphere (AIRS+AMSU) V005 (AIRX2STC) 对流层中的 AIRS/Aqua L2 CO2 (AIRS+AMSU AIRS 二氧化碳(CO2)标准检索产品包括二氧化碳的检索估算值,以及与检索相关的误差估算值。与 AIRX2RET 不同,该标准产品的水平分辨率约为 110 公里(1x1 度)。 一个 AIRS 颗粒被设定为 6 分钟的数据,15 个跨轨道足迹,22 条沿轨道线。 由此产生的 AIRS 2 级产品包括这些云清除的红外辐射和大气温度 T(p)、水蒸气 H2O(p)和臭氧 O3(p)的检索剖面,名义空间分辨率为天底 45 公里。 Spatial Coverage:-180.0,-60.0,180.0,90.0 时间覆盖范围:2002-09-01 至 2012-03-02 文件大小:每个文件 0.4 MB 数据分辨率
文档布局分析 (Document Layout Analysis) 是识别和分类文本文档的扫描图像中的感兴趣区域(RoI, Regions of Interest) 的过程。 将文本正文,插图,数学符号和嵌入文档中的表格等不同区域(或块)的检测和标记称为几何布局分析。但文本区域在文档中扮演不同的逻辑角色(标题,标题,脚注等),这种语义标记是逻辑布局分析的范围。 ? 项目相关代码 和预训练模型 、数据集 获取: 关注微信公众号 datayx 然后回复 版面分析 即可获取。 AI项目体验地址 https://loveai.tech ? ? AlexNet的特点: 更深的网络结构 使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征 使用Dropout抑制过拟合 使用数据增强Data Augmentation抑制过拟合 文档布局分析 & 扭曲文档图像恢复
四、PAMAP2数据集实战结果相比其他模型,例如可变形卷积网络,空洞卷积(Dilated Convolution)更注重通过较少的参数扩展感受野,通过引入空洞率(dilation rate)设计稀疏的滤波器 下面,我们以PAMAP2数据集为例,展示空洞卷积的实际应用及其结果。PAMAP2数据集由德国人工智能增强视觉研究中心发布,是一个用于行为识别的多模态开源数据集。 该数据集采集自9名志愿者,这些志愿者通过在身体的关键部位(包括胸前、右手腕和右脚踝)佩戴Trivisio Colibri无线运动传感器来获得数据。 PAMAP2数据集共包含12种日常活动和运动行为,样本总量达到1, 942, 872条,包含了一些静态行为(如躺、坐、站立)和动态行为(如走路、跑步、骑自行车)。 1.训练结果基于空洞卷积的模型在PAMAP2数据集上的性能如下表所示:| Metric | Value || Parameters |
本篇将简述文本生成图像的数据集,汇总介绍数据集的内容、特点、细节和下载方式等。 1.2、细节1️⃣数据量:数据集包含200种鸟类的11788张图像,其中训练数据集有5994张图像,测试集有5794张图像。 2️⃣种类:每个物种都与维基百科相关,并按照科学分类(目、科、属、种)进行组织。 2️⃣种类:MS-COCO总共包含 91个类别,每个类别的图片数量如下:3.3、下载1️⃣论文链接:Microsoft COCO: Common Objects in Context2️⃣官方网站:https 该数据集分为24,000张训练集和6000张测试集。2️⃣数据信息:数据集与通用的文本生成非人脸数据集CUB和COCO数据集具有相同的数据格式。
Pandas 使用行索引和列标签表达和分析数据,分别对应 axis=0, axis=1,行索引、列标签带来一些便捷的功能。 如果玩Pandas,还没有注意到对齐 alignment,这个特性,那该好好看看接下来的分析。 基于行索引的对齐,与基于列标签的对齐,原理是一致的,它们其实相当于字典的 key,起到对齐数据作用。 下面使用前几天推荐你的 9 个小而经典的数据集,里的 google app store 这个小而经典的数据集,重点分析“行对齐”功能,理解它后,列对齐也自然理解。 结果如上图所示,ser 索引值 2 在 df_test 中找不到对应,故为 NaN 以上就是 Pandas 数据对齐的一个基本介绍,知道这些基本原理后再去使用Pandas 做数据分析,心里才会更有谱。 基于 google app store 我还展开一些其它数据探索分析,如果想要这个jupyter notebook,微信我备注:app 不必打赏 给我点个赞 就心满意足了
今天是平平无奇的整合分析,是数据挖掘中经常用到的一部分~ 参考文献在这里⬇ A robust 6-mRNA signature for prognosis prediction of pancreatic fold change|> 1 as the cut-off criteria: 作者是直接下载cel格式的原始数据,然后用RMA函数获取表达矩阵,分别对三个数据集进行了差异分析,然后对差异分析取交集作了后续的分析 我们也试试看吧—— # GSE15471, GSE28735 and GSE62452 rm(list = ls()) ##全局设置 ##下载的数据大小>131072字节,所以需要调整默认连接缓存, check.R") source("step4_DEG.R") source("step5_degVisualise.R") } 完事了呢,我们来比较一下我们的差异分析和文章的差异分析结果: c(-2, 0, 2), c("green", "white", "red") ) p <- Heatmap( as.matrix(union_RRA), name = "expression