首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学和人工智能

    数据 | PS4游戏数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据包括目前适用于 PlayStation 4 的所有游戏。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    44110编辑于 2022-03-30
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    NASA数据:ASO L4雷达雪神数据

    ASO L4 Lidar Snow Depth 50m UTM Grid V001 简介 该数据包含根据机载光探测和测距仪(或称激光雷达)对地表高程的测量得出的 50 米网格雪深。 该数据是由Airbomne Snow测量的50 m分辨率雪深度地图的集合 天文台(ASO),由联合成像光谱仪和扫描激光雷达系统创建 NASA/JPL。 扫描激光雷达使用测量雪深度 从雪中减去无雪网格海拔数据的差异测高方法- 覆盖网格海拔数据(Deems等人,2013).本次50 m网格雪深数据 数据是根据原始3 m雪深测量结果汇总的,这些测量结果在 ASO L4激光雷达雪深3 m UTM网格数据。 参数:降雪深度 平台:DHC-6、King Air 传感器:Riegl LMS-Q1560 数据格式:GeoTIFF、PNG 时间覆盖范围:2013 年 4 月 3 日至 2019 年 7 月 16 日

    34310编辑于 2024-09-02
  • 来自专栏啄木鸟软件测试

    Sklean数据4)-糖尿病

    type ofwhite blood cells) s2 ldl, low-densitylipoproteins s3 hdl, high-densitylipoproteins s4 Source URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html For more information see: Bradley 译文 糖尿病数据 对442例糖尿病患者,分别获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值,以及兴趣反应(基线后一年疾病进展的定量测量)。 **数据特征:** 实例数:442 属性数:前10列是数值预测值 目标:第11列是基线检查后一年疾病进展的定量测量 属性信息: age 年龄(以年为单位) sex 性别 源URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html 有关详细信息,请参见: BradleyEfron、Trevor Hastie

    1K20发布于 2021-01-04
  • 来自专栏CreateAMind

    4个视觉符号推理数据超简介

    //github.com/xyang23/CLEVRER-Humans1.0 https://sites.google.com/stanford.edu/clevrer-humans/home 4

    63130编辑于 2023-02-14
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 8-4 为什么要训练数据与测试数据

    这一小节,主要介绍通过测试数据来衡量模型的泛化能力,并得出训练数据和测试数据关于模型复杂度与模型精确度之间的趋势,最后通过一个简单的小例子来说明过拟合和欠拟合以加深理解。 其实很简单,这个做法之前也一直在使用,就是所谓的Train_test_split(训练测试数据的划分),也就是将原来的样本数据划分成训练数据和测试数据,用训练数据学习获得这个模型,在这种情况下, 如果使用训练数据获得的模型,在训练数据上能够得到很好的结果,但是在面对测试数据上的效果很差,此时的模型泛化能力很弱; 对于第2种情况,多半是出现了过拟合的问题,模型虽然能够很好的拟合训练数据,但是面对新的数据也就是测试数据 step4:使用多项式回归方式,此时设置degree的值为2,同样类似上面线性回归模型的处理方式,在训练模型的过程中只使用X_train以及y_train,而在预测的模型的时候使用X_test,最后计算预测的实际值 其实前面的网格搜索,一直都是这样做的,一直都是把数据划分为训练数据和测试数据,将训练数据用于训练模型,然后对于不同参数训练出的模型去寻找使得测试数据最好的对应的那组参数,这组模型参数就作为最终模型的参数

    3.6K21发布于 2019-12-26
  • 来自专栏数据科学和人工智能

    数据 | 图书数据

    下载数据请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 当当网搜索页面爬取。

    3.2K40编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 行星数据

    下载数据请登录爱数科(www.idatascience.cn) 其记录了2014年之前天文学家在恒星(除了太阳)周围发现的行星的信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于UCI机器学习库。

    2.3K20编辑于 2022-03-30
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 4-3 训练数据,测试数据

    当前我们将全部数据作为训练,使用训练集训练得到一个模型。 具体在kNN算法中,每当来了一个新数据的时候,新数据要和我们训练集中所有数据计算他们之间的距离,然后选出前k个距离小的训练,然后统计这些被选出来的训练对应标签,选择标签数最多的标签作为新数据的预测标签 换句话我们用全部数据作为训练得到的模型来预测新的数据所属的类别,但是我们最终需要模型在真实的环境中使用,但是现在这样做有很大的问题: 我们使用全部的数据作为训练集训练模型,得到的模型只能拿到真实的环境中使用 解决这个问题最简单的办法,是将数据划分为训练和测试。 ? 全部数据抽取70%或者80%当做训练,剩下的数据作为测试,这样我们使用蓝色的训练集训练出模型(此时需要注意测试不能够参与到训练过程中),得到模型后,将测试放到训练好的模型中,让模型进行预测,

    1.4K01发布于 2019-11-13
  • 来自专栏数据科学和人工智能

    数据 | 鲍鱼数据

    下载数据请登录爱数科(www.idatascience.cn) 通过物理测量预测鲍鱼的年龄。 从原始数据中删除了缺失值的样本,并且对连续值的范围进行了缩放。数据共4177个样本,8个字段 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn and Wes B Ford (1994) "The Population 数据引用 Nash W J, Sellers T L, Talbot S R, et al.

    3.1K40编辑于 2022-03-30
  • 来自专栏Small Code

    C4 数据基本信息速览

    应用了 filter 的数据版本叫 C4.EN,没应用的叫 C4.EN.NOCLEAN,没有使用 blcoklist 的 C4.EN 叫 C4.EN.NOBLOCKLIST。 按发表时间统计,92% 都发表在数据收集前的一个十年中(2011-2019),分布是长尾分布 long-tailed,大部分都在数据收集前的 10-20 年间。 C4 中存在 benchmark data contamination 现象,即下游任务的训练或测试出现在 C4 中,造成了数据污染。 作者分析了 3 个生成式任务的7个数据,发现均有不同程度(1.87-24.88%)的污染,target 文本为单句的匹配率(完全匹配)要明显高于多句。 97.8% 的 C4.EN 是白人英语 WAE,AAE 和 Hisp 分别只有 0.07% 和 0.09%。 在创建数据的过程中,评估 bias 很重要。

    2.6K10编辑于 2022-10-05
  • 煤矿分类数据351张4类别

    数据类型:图像分类用,不可用于目标检测无标注文件 数据格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):351 分类类别数:4 类别名称:[“Anthracite ”,“Bituminous”,“Lignite”,“Peat”] 每个类别图片数: 序号 类别名称 图片数 1 Anthracite 88 2 Bituminous 78 3 Lignite 95 4 Peat 90 总计 图片总数 351 重要说明:暂无 特别声明:本数据不对训练的模型或者权重文件精度作任何保证,数据只提供准确且合理分类存放 图片示例: 下载地址:https://

    21500编辑于 2025-07-20
  • 来自专栏数据科学和人工智能

    数据 | 小费数据

    下载数据请登录爱数科(www.idatascience.cn) 小费数据 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源

    2K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 广告数据

    下载数据请登录爱数科(www.idatascience.cn) 数据由 Jose Portilla 和 Pierian Data 为他的 Udemy 课程(Python 数据科学和机器学习训练营) 创建,适合用于数据分析与逻辑回归预测。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    2.7K30编辑于 2022-03-30
  • 来自专栏点云PCL

    TJ4DRadSet:自动驾驶4D成像雷达数据

    与相机和激光雷达相比,很少有自动驾驶数据包含4D雷达,这限制了深度学习在4D雷达点云中的研究和应用,为了填补这一空白,我们提出了一个名为TJ4DRadSet的自动驾驶4D成像雷达数据。 我们的贡献如下: 提出了一个名为TJ4DRadSet的数据,这是一个自动驾驶数据,包含连续序列的4D雷达点云和3D标注内容,还提供了激光雷达、相机和全球卫星导航系统的多模态完整信息。 TJ4DRadSet包含40K帧的同步数据,其中7757帧,44个序列具有高质量的带标注的3D边界框和轨迹ID,3D标注系统使用联合多传感器标注和多轮手动检查TJ4DRadSet数据 数据涵盖各种道路条件 实验与结果 我们实现了基于4D雷达和激光雷达的三维目标检测基线,将数据按序列划分为训练和测试,并保持测试具有良好的覆盖率。 图6显示了一些典型的场景 总结 本文介绍了包含4D雷达点云的多模式自动驾驶数据TJ4DRadSet,该数据用于研究基于4D成像雷达的3D感知算法,对数据进行了详细描述,并进行了基线实验,未来,我们将进一步扩展数据

    1.9K20编辑于 2022-12-27
  • 来自专栏数据科学和人工智能

    数据 | 订购数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据记录了一家全球超市4年的订购数据,包含订单的订单号、下单时间、发货时间、运输模式、顾客名称和地区等信息。 1. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    2.4K30编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 中风预测数据

    数据下载请登录爱数科(www.idatascience.cn) 根据世界卫生组织(WHO)的数据,中风是全球第二大死亡原因,约占总死亡人数的11%。 该数据用于根据输入参数(例如性别,年龄,各种疾病和吸烟状况)预测患者是否可能中风。数据中的每一行都提供有关患者的相关信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息

    2.5K40编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 苹果股价数据

    下载数据请登录爱数科(www.idatascience.cn) 这个数据涵盖了过去6年苹果公司的股价。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    2K30编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 超市购物数据

    下载数据请登录爱数科(www.idatascience.cn) 人口稠密的城市中超市数量在快速增加,市场竞争也很激烈。 该数据记录了几家超市在3个不同分店中3个月的历史销售额,包含顾客性别、商品单价、销售数量、销售日期、总收入和顾客评价等信息。预测数据分析方法很容易应用于此数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    4K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | Udemy课程数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据包含来自Udemy的4个科目(商业金融、平面设计、乐器和网页设计)的3.682条课程记录。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。 5. 数据引用

    2.2K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 婚姻情况数据

    下载数据请登录爱数科(www.idatascience.cn) 某社会实验内容为男人和女人签约嫁给一个他们以前从未见过的完全陌生的人。专家根据测试和面试对夫妇进行配对。 该数据记录了十次该社会实验的数据。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    1.9K10编辑于 2022-03-30
领券