首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Hank’s Blog

    4-7 总结数据信息

    > head(airquality,10) Ozone Solar.R Wind Temp Month Day 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 313 11.5 62 5 4 5 NA NA 14.3 56 5 5 6 28

    32610发布于 2020-09-16
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 4-7 数据归一化

    本小节主要介绍数据归一化(Feature Scaling)。 为什么要进行数据归一化 下面使用肿瘤的例子: ? 此时两个样本之间的距离又被肿瘤大小所主导,将肿瘤发现的时间转换为年的话,0.55-0.27差值变的特别的小,而在这个量纲下,5-1又相对特别的,因此如果不对数据进行一些基本的处理的话,直接计算两个样本之间的距离很有可能是有偏差的 ,不能非常好的同时反映样本中每一个特征的重要程度,正是因为如此,我们需要对数据进行归一化的处理。 还有一类情况就是没有明显的边界,比如收入问题,没有固定的收入范围,有的人收入极其高,一旦有了这个outlier对使用最值归一化的影响就比较大,比如大多数人的月收入是1万块钱,有一个的月收入是100万元 均值方差归一化比较实用数据分布没有明显边界,有可能存在outlier的情况,但是在有明显分布边界的情况下表现也是非常好的。

    82100发布于 2019-11-13
  • 来自专栏博文视点Broadview

    运营看哪些数据

    ---- --正文-- 运营看哪些数据? 第一大类是原始数据,包括如下几类。 (1)市场属性数据:行业数据、竞品数据,以及获得用户流量的渠道属性数据,包括渠道分类、曝光、点击、播放、流量、成本等数据。 (4)商品或内容方向的属性数据:如电商中商品的信息数据,包括分类、属性、详情页面、视频、图片等数据,或资讯内容文章的分类、作者、时效、标签等数据。 (6)运营策略干预产生的数据:本质上还是上述几类数据,只是与活动或实验等项目相关的数据会被打上某次活动或实验的标签,可以单独拿出来统计和分析。 第二大类是对原始数据的统计数据,包括如下几类。 ▊《运营之上:互联网业务的全局运营方法论与实践》 徐全安 著 10年+跨越不同行业、多次从0到1经验总结 通用运营框架、抓手方法论总结 让运营“做且只做”有价值的工作 本书是在运营的基础职能之上对“

    73110编辑于 2023-05-19
  • 来自专栏华章科技

    数据解读城市:北京 本地VS外地

    今天小编找来一篇运用大数据解读城市人口分布的文章,供大家阅读!

    42410发布于 2018-08-13
  • 来自专栏华章科技

    写给准数据数据世界入门指南

    接下来,再来看一句话: 成交10亿民币! 有些可能已经猜到了,我要分享的这两个词就是:维度+度量。 下图中,我将重点放到大道至简几个字,以及维度+度量上,而维度和度量下面分别放了所在家族的一些其他常用词汇,我稍后会解释。 ? (能有这个问题的妹子,你真想多了……),其实这里仔细分析,无非也是涉及到维度和度量两词: 维度:啊。 当然,则个领域,水很深,我只能简单描述一下,再深的也担心大家晕菜了——毕竟本文是写给非数据的。(其实作者本人也讲不粗来了……哈哈) ▍ 应用 ? 我说了,我无法教你具体复杂的数据分析案例。 过去放凤姐一晚,100个里只有5个点,现在放了林志玲一晚,100个人居然有99个点击。老板很高兴,而且确实成交额似乎是比过去略微高那么一点点了。

    59560发布于 2018-08-15
  • 来自专栏小小挖掘机

    数据团队思考:数据的通用技能要求

    0x00 前言 最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据该具备哪些通用的技能。 “数据开发到底用不用学算法?” “Excel 有必要学吗?” 0x01 Excel 掌握指数:5颗星 掌握人群:所有数据 Excel 是每个数据都应该掌握的一项技能,不管是研发还是产品,Excel 应该是必备的一项基本技能。 0x02 Sql 掌握指数:4.5颗星 掌握人群:所有数据 从研发岗来讲,数据开发、数据仓库、数据分析都应该具备 Sql 能力,这点不用多做解释。那么数据产品和数据运营是否应该掌握 Sql 呢? 至于说数据产品和运营是否需要,居士认为,简单了解就行,不是核心技能要求。 0x04 大数据 掌握指数:4.5颗星 掌握人群:所有数据数据时代,所有数据都应该具备一定的大数据知识! 0x05 统计学 掌握指数:4颗星掌握人群:所有数据 统计学,玩数据的同学都应该了解一定的统计学知识!一般来讲,大部分数据分析都应该具备统计学的知识。那么问题来了?数据仓库是否也需要了解统计学?

    62220发布于 2019-11-21
  • 来自专栏木东居士的专栏

    数据团队思考:数据的通用技能要求

    0x00 前言 最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据该具备哪些通用的技能。 “数据开发到底用不用学算法?” “Excel 有必要学吗?” 0x01 Excel 掌握指数:5颗星 掌握人群:所有数据 Excel 是每个数据都应该掌握的一项技能,不管是研发还是产品,Excel 应该是必备的一项基本技能。 0x02 Sql 掌握指数:4.5颗星 掌握人群:所有数据 从研发岗来讲,数据开发、数据仓库、数据分析都应该具备 Sql 能力,这点不用多做解释。那么数据产品和数据运营是否应该掌握 Sql 呢? 至于说数据产品和运营是否需要,居士认为,简单了解就行,不是核心技能要求。 0x04 大数据 掌握指数:4.5颗星 掌握人群:所有数据数据时代,所有数据都应该具备一定的大数据知识! 0x05 统计学 掌握指数:4颗星掌握人群:所有数据 统计学,玩数据的同学都应该了解一定的统计学知识!一般来讲,大部分数据分析都应该具备统计学的知识。那么问题来了?数据仓库是否也需要了解统计学?

    91930发布于 2019-07-15
  • 来自专栏数据森麟

    数据团队思考:数据的通用技能要求

    作者:木东居士 来源:木东居士 0x00 前言 最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据该具备哪些通用的技能。 “数据开发到底用不用学算法?” 0x01 Excel 掌握指数:5颗星 掌握人群:所有数据 Excel 是每个数据都应该掌握的一项技能,不管是研发还是产品,Excel 应该是必备的一项基本技能。 0x02 Sql 掌握指数:4.5颗星 掌握人群:所有数据 从研发岗来讲,数据开发、数据仓库、数据分析都应该具备 Sql 能力,这点不用多做解释。那么数据产品和数据运营是否应该掌握 Sql 呢? 至于说数据产品和运营是否需要,居士认为,简单了解就行,不是核心技能要求。 0x04 大数据 掌握指数:4.5颗星 掌握人群:所有数据数据时代,所有数据都应该具备一定的大数据知识! 0x05 统计学 掌握指数:4颗星掌握人群:所有数据 统计学,玩数据的同学都应该了解一定的统计学知识!一般来讲,大部分数据分析都应该具备统计学的知识。那么问题来了?数据仓库是否也需要了解统计学?

    49730发布于 2019-09-27
  • 来自专栏SDNLAB

    下一代数据中心需要应用程序交付控制器(ADC)的新特性

    一项研究显示,在下一代数据中心中,更多的被需要的是应用程序交付控制器(ADC)的特性和功能。在数据中心方面仍然缺乏可扩展性和编制框架的可集成性。 下一代数据中心将在4-7层网络上规定一种新方法。 此外,在4-7层网络中,软件在计算机硬件上占的主导地位,这是ADC特性集的关键组成部分。 这一工作负载比例表明,大多数企业将在4-7层网络上采用混合方式——混合使用ADC设备和虚拟ADCs。 但同时,ADC虚拟化也带来了一些问题。 例如,只有很少的IT专业人员致力于解决虚拟ADCs的硬件稳定性缺乏问题,甚至更少抱怨虚拟ADCs和ADC应用设备间功能的不匹配问题。相反,主要的问题是与云或网络编排系统的不兼容。 后一种需求表明,企业正在4-7层网络中探寻一种通用的操作环境,用于在其本地数据中心和公有云之间。 必要的ADC特性:安全性和身份认证 研究人员在转换后的数据中心网络中定义了ADCs最重要的特性。

    1K80发布于 2018-03-29
  • 来自专栏PPV课数据科学社区

    假如把地球的70亿浓缩为100,这组数据感到震撼

    因为有人制作了这组有趣的统计报告,把世界上的70亿想象成100,然后各种百分比的统计数据看起来就有点意思了. ? 统计数据看起来会是这样的: 11在欧洲、5在北美洲、9在南美洲、15在非洲、60在亚洲 ? 49生活在乡下、51生活在城市 ? 12讲中文、5讲西班牙语、5讲英语、3讲阿拉伯语、3讲印度语、3讲孟加拉语、3讲葡萄牙语、2讲俄罗斯语、2讲日语、还有62各讲一种语言 ? 83个能识字、17是文盲 ? 33是基督徒、22是穆斯林、14是印度教徒、7是佛教徒、12信仰其他宗教、还有12没有宗教信仰 ? 26不到14岁、66在15-64岁之间、8超过65岁 ? 男人有50个,女人有50个 ? 看完这组数据,假如你能上网,有手机,上过大学,还有什么理由抱怨?

    1.5K40发布于 2018-04-19
  • 来自专栏PPV课数据科学社区

    【推荐】从设计到数据——写给非数据数据入门

    原因很正常:大部分都投入到了业务系统建设中(彼时,供应链管理系统、物流管理系统、认证系统、以及前台都处于开荒建设阶段)。 接下来,再来看一句话:成交10亿民币! (能有这个问题的妹子,你真想多了……),其实这里仔细分析,无非也是涉及到维度和度量两词: 维度:啊。 当然,则个领域,水很深,我只能简单描述一下,再深的也担心大家晕菜了——毕竟本文是写给非数据的。(其实作者本人也讲不粗来了……哈哈) 四. 应用 我说了,我无法教你具体复杂的数据分析案例。 过去放凤姐一晚,100个里只有5个点,现在放了林志玲一晚,100个人居然有99个点击。老板很高兴,而且确实成交额似乎是比过去略微高那么一点点了。

    1.2K70发布于 2018-04-23
  • 来自专栏PPV课数据科学社区

    一个资深数据数据挖掘解读

    (一)纯粹的数据加工 侧重于变量加工和预处理,从源系统或数据仓库,对相关数据进行提取、加工、衍生处理,生成各种业务表。 文本和湿。关于文本分析,最近朋友圈有篇分享,很有意思,号称可以让你瞬间变成湿。原理很简单,就是先把《全宋词》分词,然后统计频数前100的词语。 数据基本上来源于仓库系统,然后运用SQL、SAS、R,提取、加工、建模和分析。 (二)数据类型 数据类型,主要包括“结构化”和“非结构化”两类数据。前者就是传统的二维表结构。 银行里面的数据,更多的是结构化数据,也有少量的非结构化数据(投诉文本、贷款审批文本等)。业务部门对非结构化数据的分析需求比较少。因此,在非结构化数据的分析建模方面,稍显不足。 互联网,更多的是网络日志数据,以文本等非结构化数据为主,然后通过一定的工具将非结构化数据转变为结构化数据,进一步加工和分析。

    71250发布于 2018-04-25
  • 来自专栏数据科学与人工智能

    数据】关于数据质量,营销必知六问

    小编邀请您,先思考: 1 如何让数据优质? 数据驱动的广告需要优质数据。但大量的不良数据和经不起推敲的数据使用方式可能会给营销活动造成不良影响。 营销人员需要知道何时使用自己的数据,何时依赖合作伙伴。 如果你定义了一个非常精准的人群: 30-40岁,女性,在过去14天,在指定的四个区域,买了特定的某一本杂志,最后找到30。这是一个很有价值的目标人群,但数量太少了。 例如,将Cookie数据或设备ID相匹配可能会降低数据质量。你可能会合并一堆数据,但是匹配率太低,所以最终得到的数据集没什么价值。 相反,与其他数据集合匹配良好的数据集可以提高数据质量。 当说到一个数据集与其他数据集的集成,那一般必须合并三到四个数据集,才可以清晰整理出阅读数据可见率或广告欺诈行为,但与此同时这些数据集的集成将面临相当大的复杂性。 每个营销人员都应该询问在引入新数据或分析现有数据时如何合并数据。如果你不明白数据是如何构建的,它可能导致非常错误的结论。

    1.1K70发布于 2018-03-27
  • 来自专栏速入大数据

    数据无罪,使用有度:从技术角度谈数据伦理

    数据无罪,使用有度:从技术角度谈数据伦理在大数据时代,数据几乎无处不在,它记录我们的行为、偏好,甚至影响我们的生活决策。 然而,随着数据利用的价值被不断挖掘,数据伦理的问题也愈加突出:我们是否能够确保在采集、存储和使用数据时不侵害他人的权益?本文从技术的视角,聊聊如何负责任地使用数据,践行数据伦理。 一、数据不是“万能钥匙”数据有它的价值,但也不能成为“为所欲为”的借口。在很多情况下,数据的滥用并不是技术问题,而是道德问题。 二、数据分析:不偏不倚数据分析是技术的核心任务,但如果不注意,就容易陷入伦理风险。例如,一些模型训练过程中可能会因数据本身存在偏见,导致结果不公平。 四、总结数据伦理从来不是“后置选项”,而是贯穿技术开发全流程的责任。从数据收集到分析、再到应用,技术需要始终保持对法律、道德和社会责任的敏感性。

    54510编辑于 2025-03-27
  • 来自专栏机器学习AI算法工程

    一个资深数据数据挖掘 的解读

    (一)纯粹的数据加工 侧重于变量加工和预处理,从源系统或数据仓库,对相关数据进行提取、加工、衍生处理,生成各种业务表。 文本和湿。关于文本分析,最近朋友圈有篇分享,很有意思,号称可以让你瞬间变成湿。原理很简单,就是先把《全宋词》分词,然后统计频数前100的词语。 数据基本上来源于仓库系统,然后运用SQL、SAS、R,提取、加工、建模和分析。 (二)数据类型 数据类型,主要包括“结构化”和“非结构化”两类数据。前者就是传统的二维表结构。 银行里面的数据,更多的是结构化数据,也有少量的非结构化数据(投诉文本、贷款审批文本等)。业务部门对非结构化数据的分析需求比较少。因此,在非结构化数据的分析建模方面,稍显不足。 互联网,更多的是网络日志数据,以文本等非结构化数据为主,然后通过一定的工具将非结构化数据转变为结构化数据,进一步加工和分析。

    93290发布于 2018-03-13
  • 来自专栏PPV课数据科学社区

    【聚焦】数据的痛苦:提供的数据用不上

    数据变革在数据本身 ━━━━━━━━━━━━━━━━ 大数据公司最大的痛苦是什么?不是没有数据,而是有太多的数据。 各种各样包括结构性和非结构性的数据从四面八方而来,但哪些是有用数据,如何捡选数据,才是最大的难题。 其功能如下: 第一,读取数据: 读取任何形式的数据,自动解析,自动识别数据的类型(如日期,产品名称等), 以及数据的意义; 第二,数据探索: 通过人机交互的形式,帮助用户主动发现数据质量问题。 这个世界日新月异,变化之快令人咋舌,我们数据也只有不断颠覆自己使用数据的能力,不断创新,才能找出大数据未来的方向。 知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

    86450发布于 2018-04-23
  • 来自专栏机器人小农

    机器运动需要哪些数据支持?

    今天我们来聊聊机器最最初级的,却又有很多人始终不是很理解的内容——机器运动 1 机器是如何记住位置的 在机器程序中有这样的一条一条运动指令,这些指令相分别对应了一个位置。 那么机器是怎么知道这些位置在哪呢? Touch Up 的时候机器怎么把这些位置记住的呢? 这些点都有他们自己的名字。 我们都知道在专家模式下一个程序模块就变成了两个文件,***.src和***.dat那么***.dat就是机器数据文件。 数据文件中能找到和运动点名称一样的声明,不用怀疑,这就是运动点的记录方式。 S,T:机器的姿态数据 E1...E6:外部轴位置数据 这些数据也是一个运动点不可或缺的数据,KUKA利用这些数据来描述一个目标位置。 除了这些数据外还需要运动参数数据来描述到达目标点的过程,不如速度,加速度,参考坐标,TCP,逼近,逼近距离。

    71711编辑于 2022-06-29
  • 来自专栏数据社

    一个数据的思考

    部署了自己博客 http://vertica.club/ ,又该续费了……) 了解了zeppelin,参与了早期的一些功能建议和验证,虽然后来工作中没用到,自己也没有再跟社区,但这个工具真好用,这是专门给数据的工具 三、数据应该做什么 还是说说我熟悉的数据仓库建设。个人认为数据人员可以走两个大方向提升自己(当然数仓理论知识必须得掌握),一、精通业务,熟练SQL,加强工程能力。记住工程能力很重要! 要做到了解SQL的执行计划,掌握执行数据库环境的调优。当然很多人会说这是DBA做的工作,但是数据应该比DBA写的SQL多吧,当你发现你写的一段逻辑能从1个小时优化到5分钟,你就会发现这是多有成就感。 很多数据通过博客认知了自己,于是有了这个数据群。(也可留言加申请加入) 4),提升工程能力 工程能力是在团队中将项目做好的能力,就像敏捷,按照移动的流程,规范完成项目的初版,慢慢迭代。 所以我只是一个从传统BI转到大数据数仓的数据。见解可能会很片面,仅供大家参考,另外欢迎大神留言指正!

    51530发布于 2020-05-25
  • 来自专栏医学数据库百科

    血液外泌体数据

    今天小编给大家介绍一个在线外泌体数据库:exoRBase(http://www.exorbase.org)。 它是一个环状RNA(circRNA),长非编码RNA(lncRNA)和信使RNA(mRNA)的存储库,这些RNA来源于人类血液外泌体的RNA-seq数据分析,还包括已发表文献的实验验证。 该数据库基于标准化的RNA-seq数据(涵盖正常个体和不同疾病的患者)对RNA表达谱进行整合和可视化。旨在收集和表征血液外泌体中所有长的RNA。 这里小编给大家简要介绍一下该数据库的使用。 Browse exoRBase数据库为用户提供了提取感兴趣的RNA候选物的功能。这里我们点击 “浏览”页面的“lncRNA和mRNA”部分。 点击Gene symbol列内基因的超链接,可转至该基因在其他疾病中的表达情况、基因的详细基本信息及通往其他数据库的链接。

    68720编辑于 2022-05-17
  • 来自专栏3D视觉从入门到精通

    机器抓取领域相关数据

    前言 针对机器抓取中的检测、分割、姿态识别、抓取点检测、路径规划等任务,总结了对应的数据集,在这里分享下,数据格式为类别+数量。 一、检测任务 ? 抓取路径规划数据集: 1、Supersizingself-supervision: Learning to grasp from 50k tries and 700 robot hours. 2、Learning

    2.1K20发布于 2020-12-11
领券