首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学和人工智能

    数据 | PS4游戏数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据包括目前适用于 PlayStation 4 的所有游戏。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    38310编辑于 2022-03-30
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    NASA数据:ASO L4雷达雪神数据

    ASO L4 Lidar Snow Depth 50m UTM Grid V001 简介 该数据包含根据机载光探测和测距仪(或称激光雷达)对地表高程的测量得出的 50 米网格雪深。 该数据是由Airbomne Snow测量的50 m分辨率雪深度地图的集合 天文台(ASO),由联合成像光谱仪和扫描激光雷达系统创建 NASA/JPL。 扫描激光雷达使用测量雪深度 从雪中减去无雪网格海拔数据的差异测高方法- 覆盖网格海拔数据(Deems等人,2013).本次50 m网格雪深数据 数据是根据原始3 m雪深测量结果汇总的,这些测量结果在 ASO L4激光雷达雪深3 m UTM网格数据。 参数:降雪深度 平台:DHC-6、King Air 传感器:Riegl LMS-Q1560 数据格式:GeoTIFF、PNG 时间覆盖范围:2013 年 4 月 3 日至 2019 年 7 月 16 日

    25910编辑于 2024-09-02
  • 来自专栏啄木鸟软件测试

    Sklean数据4)-糖尿病

    type ofwhite blood cells) s2 ldl, low-densitylipoproteins s3 hdl, high-densitylipoproteins s4 Source URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html For more information see: Bradley 译文 糖尿病数据 对442例糖尿病患者,分别获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值,以及兴趣反应(基线后一年疾病进展的定量测量)。 **数据特征:** 实例数:442 属性数:前10列是数值预测值 目标:第11列是基线检查后一年疾病进展的定量测量 属性信息: age 年龄(以年为单位) sex 性别 源URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html 有关详细信息,请参见: BradleyEfron、Trevor Hastie

    95820发布于 2021-01-04
  • 来自专栏生信技能树

    不同的GSE数据有不同的临床信息,不同的分组技巧

    最近,我发现学徒在学习GEO数据挖掘的过程中,遇到了第一个也是至关重要的一个难题就是对下载后的数据进行合适的分组,因为只有对样本进行合适的分组,才有可能得到我们想要的信息。 但是不同的GSE数据有不同的临床信息,那么我们应该挑选合适的临床信息来进行分组呢? a) #a现在是一个对象,取a这个对象通过看说明书知道要用exprs这个函数 dim(dat)#看一下dat这个矩阵的维度 dat[1:4,1:4] #查看dat这个矩阵的1至4行和1至4列,逗号前为行 ,逗号后为列 pd=pData(a) #通过查看说明书知道取对象a里的临床信息用pData pd就是这个数据临床信息,查看后如下 ? 所以我们需要对数据取子集。

    10.7K33发布于 2019-11-11
  • 来自专栏科研菌

    4+分临床回顾性研究深度分享

    非常简单的研究,竟然发在了4分+期刊。 所以分享给大家,感觉大家肯定能从中获得启发。 本研究回顾性地分析了德国六个中心住院患者的自然临床样本中与DILI相关的因素。 二、研究设计 ? 三、研究方法 1,受试者纳入标准 329名受试者来自德国4个联邦州的6家成人精神病诊所。 例如,研究目的是要分析“接受抗抑郁药治疗的抑郁症患者的药物性肝损伤”,但是研究结果中几乎只展示了一些百分比数据,没有相关性分析等支撑结论。 只要有完整的临床数据库,就可以做类似的研究。 临床启发 我们基本会在同一领域选择不同分段(影响因子)的文章分享给各位读者,比如近期分享的抑郁症相关系列(IF从4分到8分段不等)。 最关键的,这篇文章存在的问题太多,都能够发表到4分+期刊。你有什么理由说自己发不了SCI论文?

    1.8K31发布于 2020-12-29
  • 来自专栏DrugOne

    Data | TrialBench:多模态 AI 可用的临床试验预测数据平台

    这一数据由香港科技大学(广州)陈晋泰助理教授联合南京大学符天凡副教授、IQVIA 、哈佛医学院等团队合作推出,构建了首个面向人工智能的多模态临床试验预测平台。 数据已向全球开放,研究者可通过以下链接获取和使用: https://huyjj.github.io/Trialbench/。 为什么要做这个平台? 平台亮点 TrialBench 汇集了 23 个子数据,覆盖 8 大预测任务,具体包括: 一、预测试验时长,即估计一项临床试验从开始到结束可能持续多久。 研究团队不仅设计了这些任务,还提供了基线模型、评价指标和多模态融合方法,确保数据“开箱即用”。 数据效果验证 Python与R包的使用 已有应用与验证 TrialBench 发布不久,已经被业界与学界关注并应用。

    26010编辑于 2025-10-14
  • 来自专栏CreateAMind

    4个视觉符号推理数据超简介

    //github.com/xyang23/CLEVRER-Humans1.0 https://sites.google.com/stanford.edu/clevrer-humans/home 4

    59730编辑于 2023-02-14
  • 来自专栏新智元

    NIH开源迄今最大临床医疗图像数据,用深度学习构建通用疾病检测模型!

    ---- 新智元报道 来源:HIN 作者:大明,闻菲 【新智元导读】NIH临床中心最新公布了一个迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据DeepLesion,研究人员在此基础上训练深度神经网络 CT图像数据DeepLesion,也是迄今全球规模最大的多类别、病灶级别标注的开放获取临床医疗图像数据。 Summers),他是医生里面对技术理解特别深刻的,为获取这个临床的大规模医疗数据提供了极大的帮助和指导。” DeepLesion:迄今最大的多类别、病灶级标注临床医疗图像开源数据 在NIH临床中心,每当有患者做完CT扫描后,相应的扫描图像都会被送至放射科医生处,然后医生会对图像进行解读。 “总之,这是一个给人很大想象和发挥空间的数据。”闫轲说。 大规模的临床数据库是AI在临床真正落地的唯一路径;但标注几乎永远不可能是完美的,这就对新的更鲁棒的深度学习算法提出了更多以及更高的要求。

    5.6K20发布于 2018-08-16
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 8-4 为什么要训练数据与测试数据

    这一小节,主要介绍通过测试数据来衡量模型的泛化能力,并得出训练数据和测试数据关于模型复杂度与模型精确度之间的趋势,最后通过一个简单的小例子来说明过拟合和欠拟合以加深理解。 其实很简单,这个做法之前也一直在使用,就是所谓的Train_test_split(训练测试数据的划分),也就是将原来的样本数据划分成训练数据和测试数据,用训练数据学习获得这个模型,在这种情况下, 如果使用训练数据获得的模型,在训练数据上能够得到很好的结果,但是在面对测试数据上的效果很差,此时的模型泛化能力很弱; 对于第2种情况,多半是出现了过拟合的问题,模型虽然能够很好的拟合训练数据,但是面对新的数据也就是测试数据 step4:使用多项式回归方式,此时设置degree的值为2,同样类似上面线性回归模型的处理方式,在训练模型的过程中只使用X_train以及y_train,而在预测的模型的时候使用X_test,最后计算预测的实际值 其实前面的网格搜索,一直都是这样做的,一直都是把数据划分为训练数据和测试数据,将训练数据用于训练模型,然后对于不同参数训练出的模型去寻找使得测试数据最好的对应的那组参数,这组模型参数就作为最终模型的参数

    3.5K21发布于 2019-12-26
  • 来自专栏数据科学和人工智能

    数据 | 图书数据

    下载数据请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息,包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 当当网搜索页面爬取。

    2.9K40编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 行星数据

    下载数据请登录爱数科(www.idatascience.cn) 其记录了2014年之前天文学家在恒星(除了太阳)周围发现的行星的信息。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于UCI机器学习库。

    2.1K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 订购数据

    下载数据请登录爱数科(www.idatascience.cn) 该数据记录了一家全球超市4年的订购数据,包含订单的订单号、下单时间、发货时间、运输模式、顾客名称和地区等信息。 1. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    2.2K30编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 鲍鱼数据

    下载数据请登录爱数科(www.idatascience.cn) 通过物理测量预测鲍鱼的年龄。 从原始数据中删除了缺失值的样本,并且对连续值的范围进行了缩放。数据共4177个样本,8个字段 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn and Wes B Ford (1994) "The Population 数据引用 Nash W J, Sellers T L, Talbot S R, et al.

    2.9K40编辑于 2022-03-30
  • 来自专栏临床试验

    临床试验编程-Adam数据转换

    1.介绍 从各系统导出的数据无法完成所需要的统计分析,需经过转换后形成标准Adam数据方可进行分析。涉及到数据名称、变量名称、变量标签、变量值。 常见的ADAM数据如下: ADAE-不良事件 ;ADCM-联合用药 ;ADSL-人口统计学 ;ADDS-受试者完成情况 ;ADPV-方案偏离 ;ADEG-心电图; ADEX-药物暴露; ADIE-纳入 中国临床药理学杂志, 2020, 36(18):5. [2]王骏, 韩景静, 黄钦. 临床试验缺失数据的统计学考量[J]. 中国临床药理学杂志, 2016, 32(5):4. [3]衡明莉, 陈丽嫦, 王骏. 临床试验中缺失数据处理方法研究[J]. 中国临床药理学杂志, 2019, 35(22):5. 每一个数据均应产生配套的生成程序.sas、数据、日志存放在临床试验编程篇-Setup中创建的文件夹中。方便后续做TFLs时调用。

    4.1K41编辑于 2021-12-05
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 4-3 训练数据,测试数据

    当前我们将全部数据作为训练,使用训练集训练得到一个模型。 具体在kNN算法中,每当来了一个新数据的时候,新数据要和我们训练集中所有数据计算他们之间的距离,然后选出前k个距离小的训练,然后统计这些被选出来的训练对应标签,选择标签数最多的标签作为新数据的预测标签 换句话我们用全部数据作为训练得到的模型来预测新的数据所属的类别,但是我们最终需要模型在真实的环境中使用,但是现在这样做有很大的问题: 我们使用全部的数据作为训练集训练模型,得到的模型只能拿到真实的环境中使用 解决这个问题最简单的办法,是将数据划分为训练和测试。 ? 全部数据抽取70%或者80%当做训练,剩下的数据作为测试,这样我们使用蓝色的训练集训练出模型(此时需要注意测试不能够参与到训练过程中),得到模型后,将测试放到训练好的模型中,让模型进行预测,

    1.4K01发布于 2019-11-13
  • 煤矿分类数据351张4类别

    数据类型:图像分类用,不可用于目标检测无标注文件 数据格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):351 分类类别数:4 类别名称:[“Anthracite ”,“Bituminous”,“Lignite”,“Peat”] 每个类别图片数: 序号 类别名称 图片数 1 Anthracite 88 2 Bituminous 78 3 Lignite 95 4 Peat 90 总计 图片总数 351 重要说明:暂无 特别声明:本数据不对训练的模型或者权重文件精度作任何保证,数据只提供准确且合理分类存放 图片示例: 下载地址:https://

    17200编辑于 2025-07-20
  • 来自专栏Small Code

    C4 数据基本信息速览

    应用了 filter 的数据版本叫 C4.EN,没应用的叫 C4.EN.NOCLEAN,没有使用 blcoklist 的 C4.EN 叫 C4.EN.NOBLOCKLIST。 按发表时间统计,92% 都发表在数据收集前的一个十年中(2011-2019),分布是长尾分布 long-tailed,大部分都在数据收集前的 10-20 年间。 C4 中存在 benchmark data contamination 现象,即下游任务的训练或测试出现在 C4 中,造成了数据污染。 作者分析了 3 个生成式任务的7个数据,发现均有不同程度(1.87-24.88%)的污染,target 文本为单句的匹配率(完全匹配)要明显高于多句。 97.8% 的 C4.EN 是白人英语 WAE,AAE 和 Hisp 分别只有 0.07% 和 0.09%。 在创建数据的过程中,评估 bias 很重要。

    2.4K10编辑于 2022-10-05
  • 来自专栏数据科学和人工智能

    数据 | 小费数据

    下载数据请登录爱数科(www.idatascience.cn) 小费数据 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源

    1.9K20编辑于 2022-03-30
  • 来自专栏数据科学和人工智能

    数据 | 广告数据

    下载数据请登录爱数科(www.idatascience.cn) 数据由 Jose Portilla 和 Pierian Data 为他的 Udemy 课程(Python 数据科学和机器学习训练营) 创建,适合用于数据分析与逻辑回归预测。 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。

    2.5K30编辑于 2022-03-30
  • 来自专栏医学数据库百科

    临床相关突变查询数据

    写在前面 越来越多的研究发现某一个基因的突变和很多的临床特征有关系。如果我们想有查找临床性状和基因突变的关系的话,内容比较全面的就是ClinVar数据库了。 ClinVar 数据库是ncbi旗下用于查看临床相关突变的数据库。但是其数据库的内容比较多,而且检索界面不是很友好。所以经常看不懂其结果。所以今天就介绍一个检索简单的突变和表型的数据库。 通过其名字我们就知道这个是一个简易版的Clinvar数据库。 输入 数据库的输入很简单,我们可以数据疾病;基因名; 突变等。都可以。 我这里输入gastric cancer。 另外数据库也提供了下载的功能。我们点击Show Table就可以看到其下载结果的地方了。 写在后面 以上就是这个数据的所有功能的。输入关键词—界面友好的查看结果。是不是很简单。 一直再说这类汇总其他数据库的资源,最怕的资源更新慢的问题。不过看这个数据库还是经常更新的。所以可以放心使用的

    1.3K40发布于 2021-11-18
领券