首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏希里安

    数据分析汇总

    数据分析是什么 数据分析是指使用统计学、计算机科学和数据可视化等技术,通过对数据进行收集、清理、处理和分析,从中提取有价值的信息和知识,以帮助人们做出决策或解决问题。 数据分析可以应用于各种领域,如商业、科学、医疗、社会科学等,包括以下步骤: 收集数据:从各种来源收集数据,包括内部和外部数据。 清理数据:对收集到的数据进行清理、筛选、转换和格式化,以确保数据质量。 分析数据:使用各种技术和工具,如统计分析、机器学习、数据挖掘等,对数据进行分析和建模,以发现数据中的模式和关联。 数据库基础:掌握基本的数据库概念、SQL语言和数据存储结构,以便从数据库中提取数据。 编程基础:熟悉至少一种编程语言,如Python或R,以便进行数据处理和分析。 数据清洗和预处理:了解如何清洗和预处理数据,包括数据去重、数据填充、异常值处理等。

    54010编辑于 2023-10-30
  • 来自专栏IT综合技术分享

    数据算法汇总

    转载36大数据(36dsj.com):36大数据»大数据等最核心的关键技术:32个算法 1、A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。 该算法根据一系列观察得到的数据数据中包含异常值,估算一个数学模型的参数值。其基本假设是:数据包含非异化值,也就是能够通过某些模型参数解释的值,异化值就是那些不符合模型的数据点。 不相交集(disjoint-set)的数据结构可以跟踪这样的切分方法。合并查找算法可以在此种数据结构上完成两个有用的操作: 查找:判断某特定元素属于哪个组。 合并:联合或合并两个组为一个组。 36大数据(www.36dsj.com)成立于2013年5月,是中国访问量最大的大数据网站。 36大数据(微信号:dashuju36)以独立第三方的角度,为大数据产业生态图谱上的需求商 、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务

    2K10发布于 2018-09-11
  • 来自专栏北京马哥教育

    数据问题汇总——小白入门问题答案汇总

    既然大数据有价值,那么就先将数据存起来。要发挥数据的价值,我们先要有数据。 网站浏览点击行为日志存储每个人都有潜在的能量,只是很容易被习惯所掩盖,被时间所迷离,被惰性所消磨。 先将内部将数据用起来,发挥数据的价值。 内部员工毕竟挖掘手段比较片面,进一步的将数据开放出去,让外部的用户参与进来,帮忙挖掘数据,双方均得利。 HDFS为你管理这些数据。 02 Map Reduce 存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。 然后这些Reducer将再次汇总,如(hello,12100)+(hello,12311)+(hello,345881)= (hello,370292)。 YDB将传统数据库索引技术应用在大数据技术上,打破目前大数据计算技术的僵局。将大数据检索向时效性更强,查询方式更灵活,执行效率更高的方向演进。

    1.1K70发布于 2018-05-02
  • 来自专栏数据科学与人工智能

    数据】常用API接口汇总

    #非官方 Time时光(非官方) - 支持获取时光网网站数据。 #非官方 V电影(非官方) - 支持获取V电影网站的数据。 天气 彩云天气 - 支持全球天气数据,两种空气质量数据,天气预报,实况天气,独家降水预报,独家空气质量预报,六种天气数据,四种生活指数数据等内容,部分功能收费。 外卖 百度外卖 - 支持商户,菜品,商品,订单和基础数据等内容,提供SDK和Demo。 大众点评 - 支持商户,团购,在线预定,商品点评,数据统计,元数据等内容。 APiX - 支持基础征信数据,信用分析服务,支付缴费接口等数据,部分免费。 百度API STORE - 支持多种类型数据,提供SDK。 HaoService - 支持多种类型数据。 聚合数据 - 支持多种类型数据,部分免费。 通联数据 - 提供金融类数据,支持免费试用。 链接:https://www.cnblogs.com/zhangxiaoyong/p/8205024.html

    20.8K155发布于 2018-04-18
  • 来自专栏3D视觉从入门到精通

    汇总|缺陷检测数据

    数据集介绍: 主要针对纹理背景上的杂项缺陷。 较弱监督的训练数据。 包含是个数据集,前六个为训练数据集,后四个为测试数据集。 所有数据集已随机分为大小相等的训练和测试子数据集。 弱标签以椭圆形表示,大致表示缺陷区域。 注意:这里需要注册申请下才可以下载数据~ ? 三、油污下的硅钢缺陷数据数据集下载链接: http://faculty.neu.edu.cn/yunhyan/SLSM.html 数据介绍:主要包括油污干扰下硅钢的擦痕,划痕和小损伤缺陷数据。 本数据涵盖了纺织业中布匹的各类重要瑕疵,每张图片含一个或多种瑕疵。数据包括包括素色布和花色布两类,其中,素色布数据约8000张,用于初赛;花色布数据约12000张,用于复赛。 数据集介绍: RSDDs数据集包含两种类型的数据集:第一种是从快车道捕获的I型RSDDs数据集,其中包含67个具有挑战性的图像。

    6.2K10发布于 2020-12-11
  • 来自专栏脑机接口

    EEG公开数据汇总

    人脑连接组计划,该数据库目前被试数约1200人,包括结构MRI、静息态MRI、任务态fMRI、MEG等数据模态,其他数据还包括人口统计学数据、神经心理学数据、基因数据。 网址: http://www.alzheimer.org.cn/ OpenfMRI数据库包括结构MRI、静息态fMRI、任务态fMRI、扩散MRI、MEG模态,其他数据还包括人口统计学数据、神经心理学数据 研究领域标准数据库(RDoC db)和NIH小儿MRI数据存储库等。 从内容上来说,该数据数据内容丰富,包含临床、影像学,基因组等方面的数据。 BrainMap不仅提供用于荟萃分析和数据挖掘的数据,还发布用于定量整合神经影像数据的软件和工具。

    2.7K10编辑于 2022-08-17
  • 来自专栏3D视觉从入门到精通

    汇总|医学图像数据

    四、阿尔茨海默氏病神经影像数据 数据下载链接:http://adni.loni.usc.edu/data-samples/access-data/ 数据介绍:阿尔茨海默氏病患者和健康对照的MRI数据库。 数据介绍:先天性心脏病(CHD)图集代表来自患有各种先天性心脏病的成年人和儿童的MRI数据集,生理临床数据和计算机模型。 九、大脑MRI数据数据下载链接:http://www.oasis-brains.org/ 数据介绍:OASIS影像研究开放获取系列(OASIS)是一个旨在向科学界免费提供大脑的MRI数据集的项目。 十一、森尼布鲁克心脏数据 数据下载链接:http://www.cardiacatlas.org/studies/ 数据介绍:Sunnybrook心脏数据(SCD)也称为2009心脏MR左心室分割挑战数据 十五、SCR数据库(胸部X光片中的分割) 数据下载链接:http://www.isi.uu.nl/Research/Databases/SCR/ 数据介绍:所有胸部X光片均取自JSRT数据库,这是一个公开可用的数据

    5.4K30发布于 2020-12-11
  • 来自专栏逸鹏说道

    数据学习资源汇总

    关系数据库管理系统(RDBMS) SQLServer:世界最有活力的数据库; MySQL:世界最流行的开源数据库; PostgreSQL:世界最先进的开源数据库; Oracle 数据库:对象- NoSQL数据库技术; MongoDB:面向文档的数据库系统; RavenDB:一个事务性的,开源文档数据库; RethinkDB:支持连接查询和群组依据等查询的文档型数据库。 前一组在这里被称为“key map数据模型”,这两者和Key-value 数据模型之间的界限是相当模糊的。后者对数据模型有更多的存储格式,可在列式数据库中列出。 可为内存列表数据提供SQL接口,在HDFS中较持久化; SAP HANA:是在内存中面向列的关系型数据库管理系统; SenseiDB:分布式实时半结构化的数据库; Sky:用于行为数据的灵活、高性能分析的数据库 列式数据库 注意:请在键-值数据模型 阅读相关注释。

    2.5K110发布于 2018-04-10
  • 来自专栏VBA 学习

    VBA汇总多个Sheet数据

    1、需求: 有1个工作簿,多个工作表,格式一致,按某列作为关键字(具有唯一性),汇总数据,以工作表名称作为汇总后的新列名称,并生成1列合计。 2、实际例子: 有1个记录员工工资的工作簿,姓名是唯一的,需要汇总每一个人当年的工资数据,举例3个月的数据: ? 3个月中,人员也会有变动。 需要的结果表: ? 3、代码实现 简单分析: 读取数据 根据姓名确定数据要存放的行号,并累加到合计列 输出 个人碰到的很多VBA实际问题基本都可以按这3步完成,所以我习惯首先把代码的框架搭好,而且我基本固定按这个模式了 因为要汇总的表格数量是不确定的,所以vba_main必须要放一个循环语句,-1是因为最后1个表格是输出的汇总表: For i = 1 To Worksheets.Count - 1 i If RetCode.ErrRT = GetResult(d) Then Exit Sub Next '输出结果 Worksheets("汇总

    1.9K20发布于 2020-07-28
  • 来自专栏优雅R

    「R」如何汇总数据

    问题 你想要按照组别总结你的数据(均值、标准差等等)。 方案 有三种方法描述基于一些特定变量的分组数据,然后对每一组使用总结函数(像均值、标准差等等)。 - 这意思是,因子组合可能存在,但原始数据框里又没有实际出现。 它在自动填满有NA值的数据框时有用。要做到这一点,当调用ddply或summarySE时设置.drop=FALSE。 - 这意思是,因子组合可能存在,但原始数据框里又没有实际出现。 它在自动填满有NA值的数据框时有用。

    2.8K30发布于 2020-07-06
  • 来自专栏数据 学术 商业 新闻

    数据分享 | 最常用的GIS数据汇总

    最常用的GIS数据,也就是我在公众号后台被问到最多的数据,大部分都能在以下两个网站找到。分别是中国科学院资源环境科学数据中心、地理信息专业知识服务系统。 接下来,我将介绍那些被问过最多的数据,也是最常用的GIS数据,建议点击在看和收藏。 1 行政区划 2015年中国省级行政边界数据 http://www.resdc.cn/data.aspx? 、河流、建筑轮廓等) 《如何用OSM道路路网图做壁纸和城市名片(OSM数据下载方法)》 1:100万矢量地图数据 QGIS一键另存为1:100万基础地理数据库 3 人口 中国人口空间分布公里网格数据集 DATAID=251 《【数据分享】扩张的世界,收缩的城市(分享世界人口密度数据)》 《数据福利|全球人口密度数据汇总与共享》 4 GDP 中国GDP空间分布公里网格数据集 http://www.resdc.cn DATAID=228 6 土地利用、土地覆盖 《数据福利|土地利用(覆盖)数据下载汇总》 http://kmap.ckcest.cn/resource/search/normal?

    1.8K40发布于 2021-02-22
  • 来自专栏Java架构师必看

    数据挖掘算法汇总_python数据挖掘算法

    今天说一说数据挖掘算法汇总_python数据挖掘算法,希望能够帮助大家进步!!! 朴素贝叶斯的优点:   对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点:   对输入数据的表达形式很敏感。 线性回归优点:   实现简单,计算简单; 缺点:   不能拟合非线性数据; KNN算法:   KNN即最近邻算法,其主要过程为:   1. 随着数据趋于无限,算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值,K近邻保证错误率不会超过贝叶斯理论误差率。    (5)对于"噪声"和孤立点数据敏感,少量的该类数据能够对平均值产生极大影响。   2. 基于层次的聚类:   自底向上的凝聚方法,比如AGNES。   

    84310编辑于 2022-07-06
  • 来自专栏JNing的专栏

    深度学习: 经典 数据汇总

    官网:www.cs.toronto.edu/~kriz/cifar 介绍:CIFAR-10数据集说明、TensorFlow CNN 测试CIFAR-10数据集 PASCAL VOC ? 、Pascal VOC 数据集介绍 COCO ? Leader Board:detection-leaderboard 官网:cocodataset.org 介绍:Microsoft COCO 数据集、COCO数据库 2015年举办的COCO比赛 ,是COCO数据集的第一次问世。 官网:www.image-net.org 介绍:Imagenet数据集 专用为 分类任务 的数据集,现被用于训练basemodel。

    2.1K30发布于 2018-09-27
  • 来自专栏医学数据库百科

    2021.10在线数据汇总

    在 10月期间 ,总共发表了医学相关在线数据库49个。下面就来给大家介绍一下主要有哪些数据库,以及笔者比较感兴趣的数据库。如果想要所有相关数据库信息的,后台回复:==2110==。 疾病和药物相关数据库 在这个部分,一共发表了5个数据库 。其中有四个是和药物有关的数据库。 其中Inxight Drugs 是一个由NIH 创建的药物综合性检索数据库。 微生物和病毒相关数据库 在这个部分,总共发表了8个数据库 。加上前面疾病的那个COVID19数据库,相当于一共有3个 COVID19 相关数据库了。 随着对于 COVID19 研究的逐渐深入,目前这类的数据库的数据和类型也就越来越多。甚至出现了关于 COVID19 的单细胞数据库: DNA相关数据库 在这个部分,总共发表了 7 个数据库。 流程化分析数据库 在这个部分,总共发表了 4 个数据库 。 其中, SignaLink 是一个用来分析基因组织特异性相互作用的数据库。 其他方面数据库 在这个部分,总共发表了 4 个数据库。

    1.8K30发布于 2021-11-02
  • 来自专栏完美Excel

    使用字典汇总数据

    标签:VBA,Dictionary对象 以一个简单的数据集为例,通过唯一的标识符对其进行汇总。如果我们有一个水果店,想按售出的商品汇总销售额。如下图1所示。 图1 水果的汇总如下图2所示,使用字典生成这个简单的汇总。这是展示的第一种方法:根据唯一条件生成一个求和,而这里唯一的部分是水果的名称。 .Item(ar(i, 1)) = .Item(ar(i, 1)) + ar(i, 6) 上面一行末尾的6表示示例数据集中的第6列(总和),可以将6更改为与数据相关的列。 第二种方法是,生成汇总但包含表中的每一个唯一行,如下图3所示。 图3 上图3中每个项目有更多详细信息,可以看到汇总中包含了更多的细节。这次在列O和列P中进行汇总。 你也会惊讶地发现,即使扩展到数千行的数据集,它的运行速度也很快。

    1.1K61编辑于 2022-11-16
  • 来自专栏Albert陈凯

    数据结构与算法汇总

    二维码如下: hadoop123 1、常见数据结构 线性:数组,链表,队列,堆栈,块状数组(数组+链表),hash表,双端队列,位图(bitmap) 树:堆(大顶堆、小顶堆),trie树(字母树or

    86150发布于 2018-04-04
  • 来自专栏栗霖积跬步之旅

    第12章:汇总数据

    表名:products  字段:product_id、product_name、product_price、vend_id(供应商) 12.1聚集函数: 我们常常需要汇总数据,而不是把数据检索出来,MySQL MAX():求某一列上的最大值(最大数值或日期,对于文本数据返回最后一行,会自动忽略null值行)。 MIN():求某一列上的最小值(最小值与最小日期,对于文本数据返回第一行,会自动忽略null值行)。 SUM():求某一列上的所有值之和(会自动忽略null值行)。

    1.7K00发布于 2017-12-27
  • 来自专栏allsmallpi博客

    MySQL(五)汇总和分组数据

    一、汇总数据 工作中经常需要汇总数据而不是将它们全部检索出来(实际数据本身:返回实际数据是对时间和处理资源的浪费),这种类型的检索有以下特点: ①确定表中的行数(或者满足某个条件或包含某个特定值的行数) ,如果数据按相应的列排序,则max()返回最后一行(max()函数忽略列值为null的行) 4、min()函数 min()返回指定列的最小值,min()也要求指定列名,例子如下: select min( 子句中嵌套分组,数据将在最后规定的分组上进行汇总,即:建立分组时,指定的所有列都一起计算(所以不能从个别列取回数据); ③group by子句中列出的每个列都必须是检索列或有效的表达式(但不能是聚集函数 将作为一个分组返回(如果列中有多行null值,他们将分为一组); ⑥group by子句必须出现在where子句之后,order by子句之前; PS:使用with rollup关键字,可以得到每个分组以及每个分组汇总级别 order by的重要性:一般使用group by子句时,应该也给出order by子句,这是保证数据正确性的唯一方法(千万不要依赖group by排序数据)。 4、select子句顺序 ?

    6.1K20发布于 2021-02-25
  • 来自专栏医学数据库百科

    2022.03在线数据汇总

    在 3 月期间 ,总共发表了医学相关在线数据库==30 个==。下面就来给大家介绍一下主要有哪些数据库,以及笔者比较感兴趣的数据库。如果想要所有相关数据库信息的,后台回复:2203。 疾病和药物相关数据库 在这个部分,一共发表了4个数据库。 其中SDC是一个在肿瘤当中研究性别和肿瘤关系的数据库。 关于基本信息的数据库,之前也介绍过一个[[ADEIP-年龄相关差异基因分析数据库]]。 微生物和病毒相关数据库 在这个部分,总共发表了5个数据库。 dbGSRV是一个分析人类基因的[[SNP]]和呼吸道病毒关系的数据库。 DNA相关数据库 在这个部分,总共发表了1个数据库。 RNA相关数据库 在这个部分,总共发表了2个数据库。 ATGPred-FL是一个用来预测自噬相关蛋白的数据库。 其他方面数据库 在这个部分,总共发表了10个数据库。

    1.2K10编辑于 2022-05-17
  • 来自专栏医学数据库百科

    2021.04在线数据汇总

    在4月期间,总共发表了医学相关在线数据库34个。下面就来给大家介绍一下主要有哪些数据库,以及笔者比较感兴趣的数据库。如果想要所有相关数据库信息的,后台回复:2104。 疾病和药物相关数据库 在这个部分,一共发表了4个数据库。其中两个基因和疾病相关的数据库。 ? 其中, GPCards是一个在基因组水平分析基因和疾病相关性的数据库。通过数据相对应的基因组信息。 其中, CanDriS是一个肿瘤驱动基因查询数据库。这个数据库使用TCGA、ICGC数据库的数据利用多种不同的算法来预测肿瘤相关驱动基因。 这个数据库的团队之前也发表了很多关于转录调控的数据库,例如我们之前介绍的:KnockTF、SEanalysis。 ? 蛋白相关数据库 在和蛋白相关的数据库当中,总共发表了7个相关的数据库。 流程化分析数据库 在这个部分,这个月发表了3个数据库。包括多个组学的数据分析。 ? 其他方面数据库 在3月份其他方面一共发表了3个数据库。 ?

    1.3K50发布于 2021-04-30
领券