搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏生信技能树
不同的GSE数据集有不同的临床信息，不同的分组技巧
最近，我发现学徒在学习GEO数据挖掘的过程中，遇到了第一个也是至关重要的一个难题就是对下载后的数据集进行合适的分组，因为只有对样本进行合适的分组，才有可能得到我们想要的信息。但是不同的GSE数据集有不同的临床信息，那么我们应该挑选合适的临床信息来进行分组呢？ pData pd就是这个数据集的临床信息，查看后如下 ? 这里主要说一下GSE31056这一个数据集，需要一定的背景知识与细心才能正常分组，原文里 ? 所以我们需要对数据集取子集。
11.1K33发布于 2019-11-11
来自专栏啄木鸟软件测试
Sklean数据集（5）-波士顿房价
Environ.Economics & Management,vol.5, 81-102, 1978. 译文波士顿房价数据集 **数据集特征：** 实例数：506 属性数：13数值/分类预测。中值（属性14）通常是目标。这是UCI ML住房数据集的副本。 https://archive.ics.uci.edu/ml/machine-learning-databases/housing/ 这个数据集取自卡内基梅隆大学的StatLib图书馆大学。那个Harrison，D.和Rubinfeld，D.L.的波士顿房价数据，“享乐价格和对清洁空气的需求”，J.Environ。《经济学与管理》，第5卷，81-1021978年。
1.3K20发布于 2021-01-04
来自专栏编程杂记
YOLOv5划分数据集
数据集标注是深度学习项目中不可获取的一部分，下文从划分数据集到利用标注一条龙讲解数据集制作并标注数据集划分数据集划分 1.以YOLO为例先新建一个文件夹把数据集（图片全部放入） 2.然后新建两个文件夹分别存放数据集（images）和标签（labels） 3.概按照3：1的比例把图片划分为两个文件夹一个为训练集一个为验证集 4.然后在标签的文件夹里分别新建两个文件夹对应于图片文件夹的训练集和验证集具体文件夹关系如下
48910编辑于 2024-01-17
来自专栏云开发小程序1
YOLOV5入门讲解+常用数据集
虽然YOLOv5算法并没有与YOLOv4算法进行性能比较与分析，但是YOLOv5在COCO数据集上面的测试效果还是挺不错的。目标检测数据集 1.PASCAL VOC 2.MS COCO PASCAL VOC: PASCAL VOC挑战赛再2005年到2012年间展开。 PASCAL VOC 2007：9963张图片，24640个标注；PASCAL VOC2012：11530张图片，27450个标注，该数据集有20个分类： Person：person Animal：bird 2012 (VOC2012) MS COCO MS COCO的全称时Microsoft Common Objects in Context，起源于是微软于2014出资标注的Microsoft COCO数据集 COCO - Common Objects in Context COCO数据集包含20万个图象：11.5万多张训练集图片，5千张验证集图像，2万多张检测集图像 80个类别中有超出50万个目标标注平均每个图像的目标数为
14.2K20编辑于 2023-10-14
来自专栏DrugOne
Data | TrialBench：多模态 AI 可用的临床试验预测数据集平台
这一数据集由香港科技大学（广州）陈晋泰助理教授联合南京大学符天凡副教授、IQVIA 、哈佛医学院等团队合作推出，构建了首个面向人工智能的多模态临床试验预测平台。数据集已向全球开放，研究者可通过以下链接获取和使用： https://huyjj.github.io/Trialbench/。为什么要做这个平台？平台亮点 TrialBench 汇集了 23 个子数据集，覆盖 8 大预测任务，具体包括：一、预测试验时长，即估计一项临床试验从开始到结束可能持续多久。研究团队不仅设计了这些任务，还提供了基线模型、评价指标和多模态融合方法，确保数据集“开箱即用”。数据集效果验证 Python与R包的使用已有应用与验证 TrialBench 发布不久，已经被业界与学界关注并应用。
38310编辑于 2025-10-14
来自专栏一英里广度一英寸深度的学习
机器学习入门数据集--5.皮马人糖尿病预测数据集
在本项目的前期训练中，数据最后的结果都不理想。因此在代码中引入了多种数据模型：逻辑回归、高斯朴素贝叶斯、K近邻分类、决策树分类、支持向量机分类、xgboost。在训练集上，最高准确率为77%。因此在代码中引入了多种数据模型：逻辑回归、高斯朴素贝叶斯、K近邻分类、决策树分类、支持向量机分类、xgboost。在训练集上，最高准确率为77%。 wangsen/ai/13/homework/diabetes.csv") df.info() target = df.pop("Outcome") data = df.values print(data[:5] ) lr = LogisticRegression() lr.fit(data,target) score = lr.score(data,target) print("训练集上的预测准确率",score keras https://www.kesci.com/home/project/5a5b691046c4ba639c6fbfa2 多种机器学习https://blog.csdn.net/weixin
6.4K30发布于 2019-03-04
来自专栏生信技能树
了解5个乳腺癌表达数据集
最近需要学习使用genefu这个包，可以看我在生信技能树分享的韩国人的单细胞转录组乳腺癌研究文献就明白了，然后应用到自己的数据里面，发现这个包的说明书里面提到了5个乳腺癌表达数据集，安装如下： source biocLite("breastCancerUNT",ask=F,suppressUpdates=T) biocLite("breastCancerNKI",ask=F,suppressUpdates=T) 这5个数据集都是以前的研究者发表的总共1123个病人的数据，临床信息也比较完善。数据载入R 因为genefu这个包已经把这5个数据集处理好了，可以直接加载到R里面查看。更重要的是这 5 个数据集的临床信息，都被重新归纳总结啦： cinfo <- colnames(pData(mainz7g)) > cinfo [1] "samplename" "dataset
1.3K40发布于 2018-07-27
来自专栏应兆康的专栏
5. 开发集和测试集
你的团队下载了很多图片数据集，包含猫咪图片（正样本，positive example）和非猫咪图片（负样本， negative example）。他们将这些数据划分为70%的训练集，30%的测试集。大数据时代之前，在机器学习中人们对数据集的一个常见划分规则为：将数据集划分为70%/30%的训练集和测试集。我们通常定义： • 训练集(Training set) — 运行在算法上的数据集. • 开发集(Dev/development set) — 这部分数据通常用来调参，选择特征，以及对学习算法进行改进。换句话说，开发集和测试集的目的是为了让你对算法进行改进，使算法效果变得更好所以你应该： • 选择开发集和测试集时，主要选择可以反映未来需要获取的数据换句话说，你的测试集不应该只是可用数据的30%这么简单切记不要认为你的训练集和测试集分布必须是一样的。尽量去选择那些可以反映真实情况的数据作为测试样本。
1.3K60发布于 2018-05-09
来自专栏新智元
NIH开源迄今最大临床医疗图像数据集，用深度学习构建通用疾病检测模型！
CT图像数据集DeepLesion，也是迄今全球规模最大的多类别、病灶级别标注的开放获取临床医疗图像数据集。 Summers），他是医生里面对技术理解特别深刻的，为获取这个临床的大规模医疗数据集提供了极大的帮助和指导。” 这些图像的使用方法可以参考数据集的FAQ文件，也可以参考论文[5]的源代码。” 算法代码见[5]。大规模的临床医疗数据库，是AI在临床真正落地的唯一路径除了自动检测病灶，DeepLesion还可以用于一些其他问题，比如对数据集中每个病灶进行测量。 “总之，这是一个给人很大想象和发挥空间的数据集。”闫轲说。大规模的临床数据库是AI在临床真正落地的唯一路径；但标注几乎永远不可能是完美的，这就对新的更鲁棒的深度学习算法提出了更多以及更高的要求。
5.8K20发布于 2018-08-16
来自专栏数据科学和人工智能
数据集 | 图书数据集
下载数据集请登录爱数科(www.idatascience.cn) 由电商平台爬取的图书信息，包括书名、出版信息、当前价格等。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源当当网搜索页面爬取。
3.2K40编辑于 2022-03-30
来自专栏数据科学和人工智能
数据集 | 行星数据集
下载数据集请登录爱数科(www.idatascience.cn) 其记录了2014年之前天文学家在恒星（除了太阳）周围发现的行星的信息。 1. 字段描述 2. 数据预览 3. 数据来源来源于UCI机器学习库。
2.3K20编辑于 2022-03-30
来自专栏GEE数据专栏，GEE学习专栏，GEE错误集等专栏
GEE数据集——全球ERA5-HEAT（人类热舒适度）逐日数据集
简介 ERA5-HEAT数据集该数据集提供了一组代表室外条件下人类热应力和不适指数的完整历史重建。该数据集也被称为ERA5-HEAT（人类热舒适度），代表了当前生物气候学数据记录制作的最先进水平。该数据集围绕两个主要变量展开：1）平均辐射温度（MRT）；2）通用热气候指数（UTCI）。这些变量描述了人体如何体验大气条件，特别是气温、湿度、通风和辐射。该数据集是利用欧洲中期预报中心（ECMWF）的ERA5 再分析计算得出的。ERA5将模型数据与世界各地的观测数据结合在一起，对地球气候及其近几十年的演变提供了全球范围内完整一致的描述。数据集说明空间信息 Attribute Details Spatial extent Global Spatial resolution 27.75km (.25 deg) Temporal resolution -heat') var era5_heat_i = era5_heat_ic.first() // 打印第一幅图像，查看波段 print(era5_heat_i) // 可视化第一幅图像中的选定波段
96910编辑于 2024-06-01
来自专栏数据科学和人工智能
数据集 | 订购数据集
下载数据集请登录爱数科(www.idatascience.cn) 该数据集记录了一家全球超市4年的订购数据，包含订单的订单号、下单时间、发货时间、运输模式、顾客名称和地区等信息。 1. 数据预览 3. 字段诊断信息 4. 数据来源来源于Kaggle。
2.4K30编辑于 2022-03-30
来自专栏数据科学和人工智能
数据集 | 鲍鱼数据集
下载数据集请登录爱数科(www.idatascience.cn) 通过物理测量预测鲍鱼的年龄。从原始数据中删除了缺失值的样本，并且对连续值的范围进行了缩放。数据集共4177个样本，8个字段 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 Warwick J Nash, Tracy L Sellers, Simon R Talbot, Andrew J Cawthorn and Wes B Ford (1994) "The Population Coast and Islands of Bass Strait",Sea Fisheries Division, Technical Report No. 48 (ISSN 1034-3288) 5. 数据引用 Nash W J, Sellers T L, Talbot S R, et al.
3.1K40编辑于 2022-03-30
来自专栏GEE数据专栏，GEE学习专栏，GEE错误集等专栏
GEE数据集——ERA5-陆地每日汇总--ECMWF气候再分析数据集
简介注（2024-04-19）：由于哥白尼气候数据存储的现代化工作受到影响，ECMWF 数据集的生产可能会中断。提供商未说明计划完成日期，详情请参见用户论坛。 ERA5-陆地是一个再分析数据集，以比ERA5更高的分辨率提供了几十年陆地变量演变的一致视图。 ERA5-陆地是通过重放 ECMWF ERA5 气候再分析的陆地部分而生成的。再分析利用物理定律将模式数据与世界各地的观测数据相结合，形成一个全球完整一致的数据集。再分析产生的数据可追溯到几十年前，能准确描述过去的气候。该数据集包括 CDS 上提供的全部 50 个变量，是 ECMWF ERA5 陆地小时数据的每日总和，包括流动带和非流动带。 ERA5-陆地每日汇总数据可提供从 1950 年到三个月的实时数据。更多信息，请访问哥白尼气候数据商店。降水量和其他流量（累积）带偶尔会出现负值，这在物理上是不合理的。
1.7K10编辑于 2024-10-20
来自专栏临床试验
临床试验编程-Adam数据转换
1.介绍从各系统导出的数据无法完成所需要的统计分析，需经过转换后形成标准Adam数据方可进行分析。涉及到数据集名称、变量名称、变量标签、变量值。常见的ADAM数据集如下： ADAE-不良事件；ADCM-联合用药；ADSL-人口统计学；ADDS-受试者完成情况；ADPV-方案偏离；ADEG-心电图； ADEX-药物暴露； ADIE-纳入中国临床药理学杂志, 2020, 36(18):5. [2]王骏, 韩景静, 黄钦. 临床试验缺失数据的统计学考量[J]. 中国临床药理学杂志, 2016, 32(5):4. [3]衡明莉, 陈丽嫦, 王骏. 临床试验中缺失数据处理方法研究[J]. 中国临床药理学杂志, 2019, 35(22):5. 每一个数据集均应产生配套的生成程序.sas、数据集、日志存放在临床试验编程篇-Setup中创建的文件夹中。方便后续做TFLs时调用。
4.3K41编辑于 2021-12-05
来自专栏数据科学和人工智能
数据集 | 广告数据集
下载数据集请登录爱数科(www.idatascience.cn) 数据集由 Jose Portilla 和 Pierian Data 为他的 Udemy 课程（Python 数据科学和机器学习训练营）创建,适合用于数据分析与逻辑回归预测。数据预览 3. 字段诊断信息 4. 数据来源来源于Kaggle。
2.7K30编辑于 2022-03-30
来自专栏数据科学和人工智能
数据集 | 小费数据集
下载数据集请登录爱数科(www.idatascience.cn) 小费数据集 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源
2.1K20编辑于 2022-03-30
来自专栏医学数据库百科
临床相关突变查询数据库
写在前面越来越多的研究发现某一个基因的突变和很多的临床特征有关系。如果我们想有查找临床性状和基因突变的关系的话，内容比较全面的就是ClinVar数据库了。 ClinVar 数据库是ncbi旗下用于查看临床相关突变的数据库。但是其数据库的内容比较多，而且检索界面不是很友好。所以经常看不懂其结果。所以今天就介绍一个检索简单的突变和表型的数据库。通过其名字我们就知道这个是一个简易版的Clinvar数据库。输入数据库的输入很简单，我们可以数据疾病；基因名; 突变等。都可以。我这里输入gastric cancer。另外数据库也提供了下载的功能。我们点击Show Table就可以看到其下载结果的地方了。写在后面以上就是这个数据的所有功能的。输入关键词—界面友好的查看结果。是不是很简单。一直再说这类汇总其他数据库的资源，最怕的资源更新慢的问题。不过看这个数据库还是经常更新的。所以可以放心使用的
1.3K40发布于 2021-11-18
来自专栏用户6927366的专栏
UCSC xena如何下载TCGA临床数据
UCSC xena如何下载TCGA临床数据生信自学网 UCSC xena数据库对TCGA临床数据进行了整理，如果需要TCGA肿瘤全部的临床信息，可以通过UCSC xena网站进行下载。 TCGA有两套数，最好选择GDC开头，这套数据和最新TCGA官网数据是配套的。我们以胃癌为例，点击下图圆圈处即可。 03.png 5. 进入我们选择肿瘤界面后，我们会发现很多数据，选择其中的”Phenotype”按钮，既可以进入临床数据的下载界面。 04.png 6. 进入临床数据界面，点击下载，就可以下载临床数据表格。
5.8K02发布于 2020-03-14

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

不同的GSE数据集有不同的临床信息，不同的分组技巧

Sklean数据集（5）-波士顿房价

YOLOv5划分数据集

YOLOV5入门讲解+常用数据集

Data | TrialBench：多模态 AI 可用的临床试验预测数据集平台

机器学习入门数据集--5.皮马人糖尿病预测数据集

了解5个乳腺癌表达数据集

5. 开发集和测试集

NIH开源迄今最大临床医疗图像数据集，用深度学习构建通用疾病检测模型！

数据集 | 图书数据集

数据集 | 行星数据集

GEE数据集——全球ERA5-HEAT（人类热舒适度）逐日数据集

数据集 | 订购数据集

数据集 | 鲍鱼数据集

GEE数据集——ERA5-陆地每日汇总--ECMWF气候再分析数据集

临床试验编程-Adam数据转换

数据集 | 广告数据集

数据集 | 小费数据集

临床相关突变查询数据库

UCSC xena如何下载TCGA临床数据

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐