首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学和人工智能

    数据 | 金融新闻情感分析数据

    下载数据请登录爱数科(www.idatascience.cn) 数据从零售投资者的角度包含了金融新闻头条的观点。数据包含两列,情感标签和新闻标题,情感标签包含消极的,中立的或积极的。 1. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用 Malo P, Sinha A, Korhonen P, et al.

    2.7K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 苹果推特情感分析数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据可用于情感分析分类。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    54120编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 人力资源分析案例研究数据

    下载数据请登录爱数科(www.idatascience.cn) 这是人力资源数据,每年约有5%员工得到晋升,检查员工是否得到晋升。 1. 字段描述 2. 数据预览 3. 数据来源 来源于Kaggle。

    96430编辑于 2022-03-30
  • 来自专栏气象学家

    数据 | MERRA-2全球再分析数据

    导 读 MERRA-2是一套长时间序列的在分析数据,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 ? 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 02 我们再看一下全球的风速数据 ? 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 ? ? MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。

    11.8K42发布于 2020-06-17
  • 来自专栏文武兼修ing——机器学习与IC设计

    关于空难数据的探索分析导入数据伤亡分析机型处理时间分析

    写在前面: 这是我见过的最严肃的数据,几乎每一行数据背后都是生命和鲜血的代价。这次探索分析并不妄图说明什么,仅仅是对数据处理能力的锻炼。 因此本次的探索分析只会展示数据该有的样子而不会进行太多的评价。有一句话叫“因为珍爱和平,我们回首战争”。这里也是,因为珍爱生命,所以回首空难。 import pandas as pd import numpy as np import matplotlib.pyplot as plt 导入数据 crash = pd.read_csv(". 分厂商分析结果 时间分析 年 def get_year(x): return x.split("/")[-1] fatal_crash['year'] = fatal_crash["Date"] 按时间分析

    2.2K50发布于 2018-04-27
  • 来自专栏GIS与遥感开发平台

    数据 | MERRA-2全球再分析数据

    导读 MERRA-2是一套长时间序列的在分析数据,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 02 我们再看一下全球的风速数据 风速数据为高度2m处的风速,本景图像为一天平均的风速。我们本次分享的数据中也含有一天内的最大风速和最小风速。 03 最后,我们来看一下相对湿度的显示。

    7.4K40编辑于 2022-04-29
  • 来自专栏数据科学(冷冻工厂)

    HiChIP 数据分析: 数据介绍

    数据 在本文中,我们将分析 Lyu 等人 的数据,该数据包含来自人类胚胎干细胞(hESC)在不同“architectural proteins”于热休克处理前后的 HiChIP 数据。 尤其地,我们关注通过免疫沉淀获得的 Rad21 数据,Rad21 是 cohesin complex 的一部分,而 cohesin complex 在控制基因组的“functional architecture HiChIP 数据下载 Lyu 等人 的完整数据可在 Sequence Read Archive下载。 .fastq.gz fastq/Rad21_Rep1_1.fastq.gz mv fastq/SRR6206783_2.fastq.gz fastq/Rad21_Rep1_2.fastq.gz 附加数据下载 为了用 hichipper 进行 interactions call,我们还需下载 Rad21 及对照 IgG ChIP-Seq 实验的 FASTQ 文件,这些实验与 HiChIP 数据在同一细胞系和实验条件下完成

    36710编辑于 2025-09-17
  • 来自专栏数据科学和人工智能

    数据 | 心脏病发作分析和预测数据

    下载数据请登录爱数科(www.idatascience.cn) 心脏病的患者的一些指标以及是否发病的数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    1.1K20编辑于 2022-03-30
  • 来自专栏GEE数据

    Landsat 8 C2 RAW 数据

    多光谱信息:Landsat 8 C2 RAW 数据提供了多个波段的遥感数据,包括可见光和近红外波段。这些波段可以用于分析地表特征、植被生长状况、土地利用变化等。 2. 全球范围:Landsat 8 C2 RAW 数据覆盖了全球范围,可以用于不同地区的研究和分析。这使得研究人员能够比较不同地区的变化,并进行跨区域的研究。 4. 持续更新:Landsat 8 C2 RAW 数据是一个持续更新的数据。每当Landsat 8 卫星获取新的遥感数据时,这些数据将被添加到数据集中,以保持数据的最新性。 除了以上的主要特点之外,Landsat 8 C2 RAW 数据还提供了一系列的工具和资源,帮助用户进行数据处理和分析。例如,用户可以使用Landsat 8 的图像处理软件进行图像校正、增强和分类。 同时,该数据还提供了一系列的工具和资源,帮助用户处理和分析数据

    49710编辑于 2024-02-18
  • 来自专栏Python与算法之美

    YOLOv8 训练自己的数据

    本范例我们使用 ultralytics中的YOLOv8目标检测模型训练自己的数据,从而能够检测气球。 #安装 ! ultralytics -i https://pypi.tuna.tsinghua.edu.cn/simple import ultralytics ultralytics.checks() 一,准备数据 训练yolo模型需要将数据整理成yolo数据格式。 然后写一个yaml的数据配置文件。 device='cuda:0', grad_fn=<MulBackward0>) from torchkeras import KerasModel #我们需要修改StepRunner以适应Yolov8数据格式

    3.8K31编辑于 2023-09-05
  • 来自专栏机器学习AI算法工程

    AlexNet做文档布局分析 (版面分析)&数据

    文档布局分析 (Document Layout Analysis) 是识别和分类文本文档的扫描图像中的感兴趣区域(RoI, Regions of Interest) 的过程。 将文本正文,插图,数学符号和嵌入文档中的表格等不同区域(或块)的检测和标记称为几何布局分析。但文本区域在文档中扮演不同的逻辑角色(标题,标题,脚注等),这种语义标记是逻辑布局分析的范围。 ? 项目相关代码 和预训练模型 、数据 获取: 关注微信公众号 datayx 然后回复 版面分析 即可获取。 AI项目体验地址 https://loveai.tech ? ? AlexNet的特点: 更深的网络结构 使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征 使用Dropout抑制过拟合 使用数据增强Data Augmentation抑制过拟合 文档布局分析 & 扭曲文档图像恢复

    3.2K62发布于 2020-05-15
  • 来自专栏算法channel

    Pandas 数据分析第 六

    Pandas 使用行索引和列标签表达和分析数据,分别对应 axis=0, axis=1,行索引、列标签带来一些便捷的功能。 下面使用前几天推荐你的 9 个小而经典的数据,里的 google app store 这个小而经典的数据,重点分析“行对齐”功能,理解它后,列对齐也自然理解。 df_test = pd.DataFrame({'a':[1,4,7],'b':[5,2,1]},index=[4,3,1]) ser = pd.Series(index=[3,2,1],data=[0,9,8] 结果如上图所示,ser 索引值 2 在 df_test 中找不到对应,故为 NaN 以上就是 Pandas 数据对齐的一个基本介绍,知道这些基本原理后再去使用Pandas 做数据分析,心里才会更有谱。 基于 google app store 我还展开一些其它数据探索分析,如果想要这个jupyter notebook,微信我备注:app 不必打赏 给我点个赞 就心满意足了

    71520发布于 2020-12-17
  • 来自专栏生信菜鸟团

    多个数据的整合分析

    今天是平平无奇的整合分析,是数据挖掘中经常用到的一部分~ 参考文献在这里⬇ A robust 6-mRNA signature for prognosis prediction of pancreatic ,然后用RMA函数获取表达矩阵,分别对三个数据进行了差异分析,然后对差异分析取交集作了后续的分析。 我们也试试看吧—— # GSE15471, GSE28735 and GSE62452 rm(list = ls()) ##全局设置 ##下载的数据大小>131072字节,所以需要调整默认连接缓存, source("step2_check.R") source("step4_DEG.R") source("step5_degVisualise.R") } 完事了呢,我们来比较一下我们的差异分析和文章的差异分析结果 RRA_heatmap.png", egg::set_panel_size(p1, width=unit(4.5, "in"), height=unit(5, "in")), width = 8,

    1.5K10编辑于 2023-01-05
  • 来自专栏张高兴的博客

    YOLOv8 入门指南:(3)数据准备

    整理数据数据图像与标签分别放至单独的文件夹,如图像存放至 JPEGImages 文件夹,标签存放至 Annotations 文件夹。 生成训练与测试 运行下面的 Python 代码划分数据 import xml.etree.ElementTree as ET import os import random from shutil (cls_id) + " " + " ".join([str(a) for a in bb]) + '\n') in_file.close() out_file.close() # 数据的标签 classes=['blue_qr', 'green_qr', 'red_qr'] # 训练比例,即将70%的数据划分为训练 TRAIN_RATIO = 70 # 数据路径 work_sapce_dir /") # 数据标签文件夹路径 annotation_dir = os.path.join(work_sapce_dir, "Annotations/") # 划分后的数据文件夹路径 yolo_dataset_dir

    74610编辑于 2025-05-21
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    Google Earth Engine ——LANDSAT8_SR数据

    这个数据是Landsat 8 OLI/TIRS传感器的大气校正表面反射率。 数据提供者说明。 虽然表面反射率只能从陆地成像仪(OLI)波段中处理,但SR需要OLI/热红外传感器(TIRS)产品(LC8)的综合输入,以生成相应的云层掩码。 因此,只有OLI(LO8)和只有TIRS(LT8)的数据产品不能计算到SR。 对于太阳天顶角大于76°的场景,SR不会被运行。 提醒用户避免对在高纬度地区(>65°)获取的数据使用SR。 Landsat数据是联邦创建的数据,因此属于公共领域,可以在没有版权限制的情况下使用、转让或复制。 对美国地质调查局作为数据来源的确认或信用,应通过包括一行文字引用来提供,如下面的例子。 (产品、图像、照片或数据名称)由美国地质调查局提供。 例子。

    52910编辑于 2024-02-02
  • 来自专栏paddle深度学习

    paddle深度学习8 自定义数据

    除了Paddle中一些已经包含的常用数据,在实际的深度学习项目中,经常需要使用自定义的数据(以便灵活地使用一些其它地外部数据)进行训练和测试。 PaddlePaddle 提供了灵活的工具来加载和处理自定义数据。下面我们将详细介绍如何使用 PaddlePaddle 加载和使用一个简单的二维空间点的二分类数据。 【准备自定义数据】假设要完成一个二维空间点的二分类任务,数据的结构如下:l 每个样本由两个浮点数 (x1, x2) 组成,表示二维空间中的一个点。 import matplotlib.pyplot as pltplt.figure(figsize=(8, 4))plt.subplot(1, 2, 1)plt.scatter(train_data[: 4个标签值对dalaloader的迭代会直到数据的最后一个数据为止,为了防止输出过长,我们这里使用break提前结束迭代【用tqdm显示进度条】在实际项目中,为了运行过程更直观,会使用tqdm工具显示数据的加载进度

    39110编辑于 2025-01-14
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    GEE数据——全球海洋数据分析项目数据 (GLODAP) v2.2023¶

    简介 全球海洋数据分析项目 (GLODAP) v2.2023¶ 全球海洋数据分析项目(GLODAP)v2.2023 在海洋生物地球化学瓶数据的综合方面取得了重大进展。 值得注意的是,新增了 43 个巡航航次,以扩大数据的覆盖范围,直至 2020 年。在数据质量控制过程中,删除了温度缺失的条目。此外,每次巡航都加入了数字对象标识符(DOIs),增强了数据的可追溯性。 采用了严格的质量控制程序,并通过将新的巡航数据与来自 GLODAPv2.2020 的质量控制数据进行比较来进行调整。据信,该数据可在特定范围内对每个变量进行精确测量。 数据质量和准确性 数据经过了广泛的质量控制,重点是对偏差进行系统评估。所做的调整旨在消除因测量、校准和数据处理方法相关的误差而产生的潜在偏差,同时保留评估变量中已知或可能的时间趋势或变化。 Data, 8, 297–323, 2016, doi:10.5194/essd-8-297-2016 Lauvset, S. K, R. M. Key, A.

    44100编辑于 2024-05-24
  • 来自专栏文武兼修ing——机器学习与IC设计

    关于巧克力数据数据分析数据读取数据预处理问题分析探索分析

    数据来自kaggle import numpy as np import pandas as pd 数据读取 dataset = pd.read_csv(". dataset_nona.info() <class 'pandas.core.frame.DataFrame'> Int64Index: 1793 entries, 0 to 1794 Data columns (total 8 dataset_nona.info() <class 'pandas.core.frame.DataFrame'> Int64Index: 1793 entries, 0 to 1794 Data columns (total 8 1793 non-null object dtypes: float64(2), int64(1), object(5) memory usage: 126.1+ KB 问题分析 散点图 可以看出巧克力质量和含可可量没有明显的关系 探索分析 print(dataset_nona.groupby(["Review Date"]).apply(lambda x:x["Rating"]

    1.4K70发布于 2018-04-27
  • 来自专栏北京马哥教育

    决策树DTC数据分析及鸢尾数据分析

    豌豆贴心提醒,本文阅读时间7分钟 今天主要讲述的内容是关于决策树的知识,主要包括以下内容: 1.分类及决策树算法介绍 2.鸢尾花卉数据介绍 3.决策树实现鸢尾数据分析 希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学 分类学习主要过程如下: (1)训练数据存在一个类标记号,判断它是正向数据(起积极作用,不垃圾邮件),还是负向数据(起抑制作用,垃圾邮件); (2)然后需要对数据进行学习训练,并构建一个训练的模型 数据,它是很常用的一个数据。 下面给详细介绍使用决策树进行对这个数据进行测试的代码。 三. 决策树实现鸢尾数据分析 1. 而上面的代码"predicted = clf.predict(iris.data)"是对整个的数据进行决策树分析,而真是的分类分析,需要把一部分数据作为训练,一部分作为预测,这里使用70%的训练,30%

    2.1K80发布于 2018-05-02
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 8-4 为什么要训练数据与测试数据

    这一小节,主要介绍通过测试数据来衡量模型的泛化能力,并得出训练数据和测试数据关于模型复杂度与模型精确度之间的趋势,最后通过一个简单的小例子来说明过拟合和欠拟合以加深理解。 其实很简单,这个做法之前也一直在使用,就是所谓的Train_test_split(训练测试数据的划分),也就是将原来的样本数据划分成训练数据和测试数据,用训练数据学习获得这个模型,在这种情况下, 如果使用训练数据获得的模型,在训练数据上能够得到很好的结果,但是在面对测试数据上的效果很差,此时的模型泛化能力很弱; 对于第2种情况,多半是出现了过拟合的问题,模型虽然能够很好的拟合训练数据,但是面对新的数据也就是测试数据 因此衡量模型泛化能力就是将数据额外划分测试数据更大的意义。 ? 其实前面的网格搜索,一直都是这样做的,一直都是把数据划分为训练数据和测试数据,将训练数据用于训练模型,然后对于不同参数训练出的模型去寻找使得测试数据最好的对应的那组参数,这组模型参数就作为最终模型的参数

    3.5K21发布于 2019-12-26
领券