首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学和人工智能

    数据 | 金融新闻情感分析数据

    下载数据请登录爱数科(www.idatascience.cn) 数据从零售投资者的角度包含了金融新闻头条的观点。数据包含两列,情感标签和新闻标题,情感标签包含消极的,中立的或积极的。 1. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用 Malo P, Sinha A, Korhonen P, et al.

    2.7K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 苹果推特情感分析数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据可用于情感分析分类。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    52920编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 人力资源分析案例研究数据

    下载数据请登录爱数科(www.idatascience.cn) 这是人力资源数据,每年约有5%员工得到晋升,检查员工是否得到晋升。 1. 字段描述 2. 数据预览 3. 数据来源 来源于Kaggle。

    95930编辑于 2022-03-30
  • 来自专栏气象学家

    数据 | MERRA-2全球再分析数据

    导 读 MERRA-2是一套长时间序列的在分析数据,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 ? 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 02 我们再看一下全球的风速数据 ? 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 ? ? MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。

    11.7K42发布于 2020-06-17
  • 来自专栏文武兼修ing——机器学习与IC设计

    关于空难数据的探索分析导入数据伤亡分析机型处理时间分析

    写在前面: 这是我见过的最严肃的数据,几乎每一行数据背后都是生命和鲜血的代价。这次探索分析并不妄图说明什么,仅仅是对数据处理能力的锻炼。 因此本次的探索分析只会展示数据该有的样子而不会进行太多的评价。有一句话叫“因为珍爱和平,我们回首战争”。这里也是,因为珍爱生命,所以回首空难。 import pandas as pd import numpy as np import matplotlib.pyplot as plt 导入数据 crash = pd.read_csv(". 分厂商分析结果 时间分析 年 def get_year(x): return x.split("/")[-1] fatal_crash['year'] = fatal_crash["Date"] 按时间分析

    2.2K50发布于 2018-04-27
  • 来自专栏GIS与遥感开发平台

    数据 | MERRA-2全球再分析数据

    导读 MERRA-2是一套长时间序列的在分析数据,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 02 我们再看一下全球的风速数据 风速数据为高度2m处的风速,本景图像为一天平均的风速。我们本次分享的数据中也含有一天内的最大风速和最小风速。 03 最后,我们来看一下相对湿度的显示。

    7.3K40编辑于 2022-04-29
  • 来自专栏数据科学(冷冻工厂)

    HiChIP 数据分析: 数据介绍

    数据 在本文中,我们将分析 Lyu 等人 的数据,该数据包含来自人类胚胎干细胞(hESC)在不同“architectural proteins”于热休克处理前后的 HiChIP 数据。 尤其地,我们关注通过免疫沉淀获得的 Rad21 数据,Rad21 是 cohesin complex 的一部分,而 cohesin complex 在控制基因组的“functional architecture HiChIP 数据下载 Lyu 等人 的完整数据可在 Sequence Read Archive下载。 .fastq.gz fastq/Rad21_Rep1_1.fastq.gz mv fastq/SRR6206783_2.fastq.gz fastq/Rad21_Rep1_2.fastq.gz 附加数据下载 为了用 hichipper 进行 interactions call,我们还需下载 Rad21 及对照 IgG ChIP-Seq 实验的 FASTQ 文件,这些实验与 HiChIP 数据在同一细胞系和实验条件下完成

    34510编辑于 2025-09-17
  • 来自专栏数据科学和人工智能

    数据 | 心脏病发作分析和预测数据

    下载数据请登录爱数科(www.idatascience.cn) 心脏病的患者的一些指标以及是否发病的数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    1.1K20编辑于 2022-03-30
  • 来自专栏机器学习AI算法工程

    AlexNet做文档布局分析 (版面分析)&数据

    文档布局分析 (Document Layout Analysis) 是识别和分类文本文档的扫描图像中的感兴趣区域(RoI, Regions of Interest) 的过程。 将文本正文,插图,数学符号和嵌入文档中的表格等不同区域(或块)的检测和标记称为几何布局分析。但文本区域在文档中扮演不同的逻辑角色(标题,标题,脚注等),这种语义标记是逻辑布局分析的范围。 ? 项目相关代码 和预训练模型 、数据 获取: 关注微信公众号 datayx 然后回复 版面分析 即可获取。 AI项目体验地址 https://loveai.tech ? ? AlexNet的特点: 更深的网络结构 使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征 使用Dropout抑制过拟合 使用数据增强Data Augmentation抑制过拟合 文档布局分析 & 扭曲文档图像恢复

    3.2K62发布于 2020-05-15
  • 来自专栏算法channel

    Pandas 数据分析第 六

    Pandas 使用行索引和列标签表达和分析数据,分别对应 axis=0, axis=1,行索引、列标签带来一些便捷的功能。 如果玩Pandas,还没有注意到对齐 alignment,这个特性,那该好好看看接下来的分析。 基于行索引的对齐,与基于列标签的对齐,原理是一致的,它们其实相当于字典的 key,起到对齐数据作用。 下面使用前几天推荐你的 9 个小而经典的数据,里的 google app store 这个小而经典的数据,重点分析“行对齐”功能,理解它后,列对齐也自然理解。 结果如上图所示,ser 索引值 2 在 df_test 中找不到对应,故为 NaN 以上就是 Pandas 数据对齐的一个基本介绍,知道这些基本原理后再去使用Pandas 做数据分析,心里才会更有谱。 基于 google app store 我还展开一些其它数据探索分析,如果想要这个jupyter notebook,微信我备注:app 不必打赏 给我点个赞 就心满意足了

    70920发布于 2020-12-17
  • 来自专栏生信菜鸟团

    多个数据的整合分析

    今天是平平无奇的整合分析,是数据挖掘中经常用到的一部分~ 参考文献在这里⬇ A robust 6-mRNA signature for prognosis prediction of pancreatic software.DEGs were defined with P< 0.001 and |log2 fold change|> 1 as the cut-off criteria: 作者是直接下载cel格式的原始数据 ,然后用RMA函数获取表达矩阵,分别对三个数据进行了差异分析,然后对差异分析取交集作了后续的分析。 我们也试试看吧—— # GSE15471, GSE28735 and GSE62452 rm(list = ls()) ##全局设置 ##下载的数据大小>131072字节,所以需要调整默认连接缓存, source("step2_check.R") source("step4_DEG.R") source("step5_degVisualise.R") } 完事了呢,我们来比较一下我们的差异分析和文章的差异分析结果

    1.5K10编辑于 2023-01-05
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    GEE数据——全球海洋数据分析项目数据 (GLODAP) v2.2023¶

    简介 全球海洋数据分析项目 (GLODAP) v2.2023¶ 全球海洋数据分析项目(GLODAP)v2.2023 在海洋生物地球化学瓶数据的综合方面取得了重大进展。 值得注意的是,新增了 43 个巡航航次,以扩大数据的覆盖范围,直至 2020 年。在数据质量控制过程中,删除了温度缺失的条目。此外,每次巡航都加入了数字对象标识符(DOIs),增强了数据的可追溯性。 前言 – 人工智能教程 该数据包含来自全球各大洋 1108 次航行的 140 多万份水样,涵盖 12 个基本变量,如盐度、氧气、硝酸盐、硅酸盐、磷酸盐、溶解无机碳、总碱度、pH 值、CFC-11、CFC 采用了严格的质量控制程序,并通过将新的巡航数据与来自 GLODAPv2.2020 的质量控制数据进行比较来进行调整。据信,该数据可在特定范围内对每个变量进行精确测量。 数据质量和准确性 数据经过了广泛的质量控制,重点是对偏差进行系统评估。所做的调整旨在消除因测量、校准和数据处理方法相关的误差而产生的潜在偏差,同时保留评估变量中已知或可能的时间趋势或变化。

    39400编辑于 2024-05-24
  • 来自专栏文武兼修ing——机器学习与IC设计

    关于巧克力数据数据分析数据读取数据预处理问题分析探索分析

    数据来自kaggle import numpy as np import pandas as pd 数据读取 dataset = pd.read_csv(". Review Date: Cocoa Percent:可可含量 Company Location:公司地址 Rating:等级 Bean Type:可可豆类型 Broad Bean Origin:原产地 数据预处理 1793 non-null object dtypes: float64(2), int64(1), object(5) memory usage: 126.1+ KB 问题分析 散点图 可以看出巧克力质量和含可可量没有明显的关系 探索分析 print(dataset_nona.groupby(["Review Date"]).apply(lambda x:x["Rating"]

    1.4K70发布于 2018-04-27
  • 来自专栏北京马哥教育

    决策树DTC数据分析及鸢尾数据分析

    豌豆贴心提醒,本文阅读时间7分钟 今天主要讲述的内容是关于决策树的知识,主要包括以下内容: 1.分类及决策树算法介绍 2.鸢尾花卉数据介绍 3.决策树实现鸢尾数据分析 希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学 分类学习主要过程如下: (1)训练数据存在一个类标记号,判断它是正向数据(起积极作用,不垃圾邮件),还是负向数据(起抑制作用,垃圾邮件); (2)然后需要对数据进行学习训练,并构建一个训练的模型 数据,它是很常用的一个数据。 下面给详细介绍使用决策树进行对这个数据进行测试的代码。 三. 决策树实现鸢尾数据分析 1. 而上面的代码"predicted = clf.predict(iris.data)"是对整个的数据进行决策树分析,而真是的分类分析,需要把一部分数据作为训练,一部分作为预测,这里使用70%的训练,30%

    2K80发布于 2018-05-02
  • 来自专栏陈黎栋的专栏啦

    对DBpedia各子数据特点分析

    对DBpedia各子数据特点分析 数据地址见DBPedia官网。 Mainly From DataSet 3.0 ,一般同样的数据,版本越新,size越大。 以下数据同样猜测为单一谓语: Titles ( preview ) From <https://wiki.dbpedia.org/data-set-30> Extended Abstracts ( preview

    1.8K20发布于 2020-02-18
  • 来自专栏数据科学(冷冻工厂)

    空间转录组: DLPFC数据分析 (2)

    引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! getTopHVGs(dec, prop = 0.1) # number of HVGs selected length(top_hvgs) ## [1] 1424 降维 接下来,我们使用主成分分析 我们保留前 50 个主成分(PCs)以供后续下游分析。这样做既能减少噪声,也能提高计算效率。我们还在前 50 个 PCs 上运行 UMAP,并保留前 2 个 UMAP 成分用于可视化。 store cluster labels in column 'label' in colData colLabels(spe) <- factor(clus) 通过在X-Y空间中绘制群集标签,并与该数据可用的手动注释参考标签

    15210编辑于 2025-11-19
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    Google Earth Engine —— MODIS影像数据分析

    This chapter provides an overview of the MODIS collections and products.

    63210编辑于 2024-02-02
  • 来自专栏数据科学和人工智能

    数据 | 葡萄牙语财经新闻的情绪分析数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据为在情感分析任务上微调语言模型提供了一个有用的基准。数据包含三列(如下所述)。 然后对数据进行采样并手动验证其一致性和小修复。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 https://www.researchgate.net/publication/251231364_FinancialPhraseBank-v10 5. 数据引用 Malo, P., Sinha, A., Korhonen, P., Wallenius, J., & Takala, P. (2014).

    59620编辑于 2022-03-30
  • 来自专栏数据科学(冷冻工厂)

    空间转录组: DLPFC数据分析 (3)

    引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群!

    16510编辑于 2025-11-19
  • 来自专栏数据科学(冷冻工厂)

    空间转录组: Visium CRC 数据分析

    引言 本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群! 简介 在本文中,我们将分析人类结直肠活检的 Visium 数据。我们的目标不是重述所有可能的分析,而是突出那些在这些数据的背景下可能特别有趣的分析。 让我们首先检索这些数据,以及相应的细胞元数据,其中包含低分辨率(Level1)和高分辨率(Level2)注释,分别划分为 10 个和 32 个子群体。 在此,我们使用 msigdbr 包,从 MSigDB 获取一些生物现象的标志基因: # retrieve hallmark gene sets from 'MSigDB' db <- msigdbr( 本质上,这些值代表“在排名最靠前(默认前 5 %)的基因里,属于该基因的比例”;也就是说,数值越高,(协同基因表达所体现的)活性越高。

    22810编辑于 2025-11-19
领券