首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学与人工智能

    数据科学小技巧3数据透视表

    这是我的第78篇原创文章,关于Python语言和数据科学。 阅读完本文,你可以知道: 1 使用Python语言实现数据透视表功能 “正是问题激发我们去学习,去实践,去观察。” 数据透视表是Excel里面常用的分析方法和工具,通过行选择,指定需要分组指标;通过列选择,指定需要计算指标,最后在指定需要聚合计算类型,比方说是计数,还是求均值,还是累加和等等。 第三个数据科学小技巧:数据透视表。前面的数据科学小技巧,可以点击下面链接进入。 数据科学小技巧系列 1数据科学小技巧1:pandas库apply函数 2数据科学小技巧2:数据画像分析 我们用Python语言和pandas库轻松实现数据透视表功能。 第二步:导入数据集 ? 第三步:数据检视 ? 第四步:数据透视表 ?

    1.5K30发布于 2020-03-25
  • 来自专栏数据科学与人工智能

    数据科学数据科学家与数据科学

    Jeff Wu做出题为“统计学=数据科学吗? 的演讲,建议统计改名数据科学统计数据科学家。 二、数据科学家的定义 数据科学(Data Science)是从数据中提取知识的研究,关键是科学数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。 数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。 如何系统地学习数据挖掘? 做数据分析不得不看的书有哪些? 怎么学习用R语言进行数据挖掘? (3) 数据可视化(Visualization) 信息的质量很大程度上依赖于其表达方式。 (ETL(Extract、Transform、Load)、数据治理、管理责任、元数据) * 优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法)) (3) 春学期 * 大数据分析

    1.4K90发布于 2018-02-26
  • 来自专栏范传康的专栏

    sqlite3数据科学的使用

    sqlite3是一种很好的数据科学工程实践中保存数据(包括原始数据和中间结果存储)的方法。相比于csv/tsv、pickle、parquet,sqlite3的使用场景和意义被大量低估了。 这里数据科学(data scientist),既指机器学习的数据处理,又指数据分析的数据处理。1. Sqlite3数据科学散人的最佳选择 csv存储效率低,基于字符解析,类型识别(特别datetime)还需要额外处理;pickle,parquet跨工具使用不友好;数据库/数据仓库具有强类型、ER sqlite3一定程度上数据科学散人进行数据探索的最佳选择:0配置,使用方便服务器-客户端一体,文件读取方式操作数据库(对比于常规数据库)强类型,不需要后置处理(相比于CSV)多语言支持:python, Sqlite3 Tips1) 基础:csv写入sqlite3from sqlite3 import connectimport csvDB_PATH = "..

    1.3K61编辑于 2022-11-11
  • 来自专栏Python攻城狮

    Python数据科学(一)- python与数据科学应用(Ⅰ)1.数据科学简介与应用2.Python与数据科学3.安装Anaconda4.使用Jupyter notebook5.Python 3 语法

    传送门: Python数据科学(一)- python与数据科学应用(Ⅰ) Python数据科学(二)- python与数据科学应用(Ⅱ) Python数据科学(三)- python与数据科学应用 (Ⅲ) Python数据科学(四)- 数据收集系列 Python数据科学(五)- 数据处理和数据采集 Python数据科学(六)- 资料清理(Ⅰ) Python数据科学(七)- 资料清理(Ⅱ) Python 数据科学(八)- 资料探索与资料视觉化 Python数据科学(九)- 使用Pandas绘制统计图表 1.数据科学简介与应用 数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论 ) 图表、商业智能系统 2.数据科学主要分为以下几个步骤 按职能来拆分可分为数据科学家和数据工程师, 其中数据科学家主要负责前三步、而数据工程师则负责后两步。 也可以百度搜索Anaconda 根据自己的电脑系统选择 建议安装使用Python3,理由如下 python3和python2有很多语法的差异,具体参考解释 Python 2 和 Python 3 的版本之间差别

    1.2K40发布于 2018-08-23
  • 来自专栏数据科学与人工智能

    数据科学数据科学入门指南

    数据科学虽然刚刚兴起,却发展迅速。 只要有数据的地方,就需要数据科学团队来分析、挖掘数据。 因而,在各个行业都需要大量的数据科学家。 所以我并不建议从最基础的数学理论开始学习数据科学。 下面的这些建议会告诉你如何高效、快速的入门数据科学 ? 数据科学知识体系图 1. 随着你获取的数据量的增长,你会考虑的数据存取的问题,这个时候你就需要学习数据库方面的知识了。 这种边做边学的模式会带你避开那些冗杂的细节,并且在这个过程中,你会学会如何真正的做数据科学3. 数据科学是一座高山,停止学习意味着你永远无法到达顶点。 但是,养成这些良好的习惯,你会很自然的成为以为数据科学专家。 掌握正确的方法和习惯,任何人都可以掌握这门科学

    1K90发布于 2018-02-26
  • 来自专栏数据科学与人工智能

    数据科学】如何学习数据科学

    学习基本的统计知识:统计202课程是非常合适的入门资料 学习一种统计工具:作为一个菜鸟,我用了3个月的时间埋头学习R语言,R学起来非常有趣。(为什么要学习R?) 有很多的培训材料可以在网上找到: 统计202 加州理工学院的数据科学课程 Coursera:数据科学,机器学习,数据分析,数据分析计算 加州大学伯克利分校 - 数据科学 骑士新闻中心的课程:资讯图像和数据可视化 例如我对零售,医疗保健和体育数据分析很有兴趣。 3)加速学习: 教学相长:我会给同事和朋友教一些R语言和数据挖掘的入门知识。这使我在这方面的知识更为扎实,也使得周围的人对这个主题更有兴趣。 关注业内领袖:网络中有很多厉害的数据科学家,关注这些人可以得到很好的启发。 3、有用的数据科学读物 数据挖掘导论 果壳中的R 数据之魅 可视化之美 查看更多的数据科学的书籍:O'Reilly,Manning 4、对我感觉没多大用的东西 学习多个统计工具:一年前,我开始有一些

    957100发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学】什么是数据科学家与数据科学

    Jeff Wu做出题为“统计学=数据科学吗? 的演讲,建议统计改名数据科学统计数据科学家。 数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。 数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。 如何系统地学习数据挖掘? 做数据分析不得不看的书有哪些? 怎么学习用R语言进行数据挖掘? (3) 数据可视化(Visualization) 信息的质量很大程度上依赖于其表达方式。 (ETL(Extract、Transform、Load)、数据治理、管理责任、元数据) * 优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法)) (3) 春学期 * 大数据分析 《大数据的冲击》. 城田真琴. 野村综合研究所创新开发部高级研究员、IT分析师,日本政府“智能云计算研究会”智囊团成员 [3].麦肯锡.

    1.8K60发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学数据科学可以做什么

    机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。 许多数据科学问题看起来是这种形式,或者可以被组织成这种形式。这是最简单也最常提到的数据科学问题。几个典型的例子: 这名顾客会不会继续订阅? 这图片上是一只猫还是一只狗? 这名顾客会不会点击顶部链接? 无监督学习和增强学习的算法家族则有完全不同的数据科学问题。 数据是如何构成? 有关数据如何构成的问题属于无监督学习。有许多技术试图提炼数据的结构。 维度归约是另一种简化数据的方式,让数据能更容易传播,更快速计算,更容易存储。 在根本上,维度归约都是在创造一种描述数据点的简易方法。一个简单的例子是GPA学分绩点。 这里的优势是多数增强学习算法可以在没有数据的情况下开始工作。它们在运行中收集数据,从尝试和错误中学习。

    1.4K100发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学数据科学的教育体系

    数据科学领域里工作的人才需要具备两方面的素质:一是概念性的,主要是对模型的理解和运用;二是实践性的,主要是处理实际数据的能力。 (2)计算机科学的基本知识,如计算机语言、数据库、数据结构、可视化技术等。 (3)算法方面的基本知识,包括数值代数、函数逼近、优化、蒙特卡洛方法、网络算法、计算几何等等。 总结一下,大数据的影响将主要来自以下几个方面。 首先是数据科学将成为科研体系中的重要部分,并逐渐达到与包括物理、化学、生命科学等学科在内的自然科学分庭抗礼的地位。 数据科学的兴起,将极大地推动许多社会科学学科朝着量化的方向发展,使他们逐步由经验性的模式转变成科学性的模式。 如果做好了这一点,我们在数据科学领域就自然而然地走到了世界的前沿。 来源:大数据栋察

    81470发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学数据科学中隐藏的数据智慧

    这样一个有信息量的名称可以使人们意识到应用统计作为数据科学一部分的重要性。 “数 据智慧“是数学、自然科学和人文主义这三方面能力的融合,是科学和艺术的结合。在缺乏有实践经验者的指导下,个人很难仅仅靠从读书中获得“数据智慧”, 想要学习它的最好方法就是和拥有它的人一起共事。 1.要回答的问题 数 据科学的问题最开始往往来自于统计学或者数据科学以外的学科。例如,神经科学中的一个问题:大脑是如何工作的?或银行业中的一个问题:该对哪组顾客推广新 服务? 而这种交流对于数据科学项目的成功是必不可少的。在有充足数据来源的情况下,经常发生情况的是在数据收集前要回答的问题还没有被精确定义。 总之,试着想象自己亲身在数据收集现场。 3.数据含义 数据中的某个数值代表了什么含义?它测量了什么?它是否测量要测量的?哪些环节可能会出差错?在哪些统计假设下可以认为数据收集没有问题?

    1K50发布于 2018-02-28
  • 来自专栏用户画像

    数据科学

    https://blog.csdn.net/jxq0816/article/details/82823331 数据科学:如何从实际的生活中提取数据,然后利用计算机的运算能力和模型算法从这些数据中找出一些有价值的内容 1、数据科学在工程上的挑战可以大致分为3类:特征提取、矩阵运算和分布式机器学习。 (1)一个建模项目的成功很大程度上依赖于建模前期的特征提取。它包含数据清洗、数据整合、变量归一化等。 为了提高模型的训练速度,需要将对应的矩阵运算(模型参数的估算过程)移植到GPU或者特制的计算芯片上,比如TPU (3) 近年来,随着分布式系统的流行和普及,存储海量数据成为了业界的标配。 2、模型搭建的挑战 数据科学对模型搭建的要求也可以总结为3点:模型预测效果好、模型参数是稳定且“正确”的、模型结果容易解释。 (1)模型的预测效果好,这是数据科学成功的关键。 (3数据科学家将模型搭建好了,并不是一个数据科学项目的终点。为了充分发挥数据的价值,需要将模型结果应用到实际的生产中,参与这个过程的不仅有懂模型的数据科学家,还有更多非技术的业务人员。

    64120发布于 2018-09-29
  • 来自专栏SeanCheney的专栏

    数据科学家访谈录》总结·3

    统计学的重要性 “数据科学里很重要的一块是对统计学的训练。从根本上来说,“数据科学”这个名词意味着你是一个科学家,而科学家有责任和义务去做出正确结果。 数据科学的范畴 数据科学自有其规律和底蕴,是一个结合了应用数学、计算机科学、商业资讯和新产品开发的综合职位,最后一项目前在数据科学的比例越来越大。 概括来说,一个数据科学项目的目的是提高某一项现存的商业流程的利润效率。 一名成功的数据科学家应该具备什么? 一名成功的数据科学家应该有能力去改变他周边的世界。 未来数据科学的走向是怎样的? 数据科学将会带来数据产品的井喷式爆发,提供数据产品的公司与使用数据产品的客户都会快速增长——也就是说,这一项基于大数据和高级分析的科学将会进入千家万户。 ) 卓越的数据科学家与普通数据科学家之间的区别在哪里?

    85610发布于 2018-09-19
  • 来自专栏数据科学与人工智能

    数据科学】教你成为数据科学“大咖”!

    以往高等学府才能接触到的计算机科学数据科学,也随着这次风潮来到了公众面前。OSDSM,即数据科学开源课程,能够从理论和技术两方面,帮助人们学习有效利用数据的核心技能。 二、学习数据科学的动力 现在数据科学家岗位面临极大的缺口。所谓数据科学家,就是同时掌握统计学 知识与程序设计技巧,能够服务大数据开发的技术专家。成为一名数据科学家,就有了大数据时代互联网行业的通行证。 数据科学的平台和工具正通过开源得到了极大丰富,大数据时代的数据科学家也通过开源不断增加。 此外,还有另一项趋势可以缓解现在的人才缺口:数据科学民主化。 (3)编程 算法部分,推荐斯坦福大学在Coursera上的课程《Algorithms Design & Analysis》,Kleinberg、Tardos 的《Algorithm Design》。 练习资源可在Scott Murray的《Interactive Data Visualization for the Web》一书及博客的D3 Library得到。

    1.4K40发布于 2018-02-28
  • 来自专栏数据科学与人工智能

    数据科学数据科学中的 Spark 入门

    Apache Spark 为数据科学提供了许多有价值的工具。 随着 Apache Spark 1.3.1 技术预览版的发布,强大的 Data Frame API 也可以在 HDP 上使用数据科学家使用数据挖掘和可视化来帮助构造问题架构并对学习进行微调。 我们将通过一系列的博客文章来描述如何结合使用 Zeppelin、Spark SQL 和 MLLib 来使探索性数据科学简单化。 总结 数据科学家们使用许多种工具进行工作。Zeppelin 为他们提供了一个新工具来构建出更好的问题。 在下一篇文章中,我们将深入讨论一个具体的数据科学问题,并展示如何使用 Zeppelin、Spark SQL 和 MLLib 来创建一个使用 HDP、Spark 和 Zeppelin 的数据科学项目。

    1.9K60发布于 2018-02-26
  • 来自专栏PPV课数据科学社区

    【推荐】数据科学家与数据科学

    Jeff Wu做出题为“统计学=数据科学吗?的演讲,建议统计改名数据科学统计数据科学家。 二、数据科学家的定义 数据科学(Data Science)是从数据中提取知识的研究,关键是科学数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。 数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。 (3) 数据可视化(Visualization) 信息的质量很大程度上依赖于其表达方式。 (ETL(Extract、Transform、Load)、数据治理、管理责任、元数据) * 优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法)) (3) 春学期 * 大数据分析

    90360发布于 2018-04-20
  • 来自专栏数据科学与人工智能

    数据科学数据科学的整合与细分

    自从大数据这个词出来以后,数据已经成为一个非常明确的科学领域。在这当中很少有人详细地探讨数据科学的结构和它面临的问题,包括我们行业面临的问题。 数据科学有三个非常重要的层次:数据的获取、数据的描述和数据的分析,这三件事是不同的,不要把它混淆了。 1.数据的获取 ? 以前数据的稀缺导致行业内出现非常大的非良性循环。 ? ? 而在这个时候,机器化数据出来的东西做点频率表,做点交互表很简单。如果数据描述能够替代数据分析,这个世界一定会毁掉,因为数据想骗人太容易了。 ? 而且别忘了机器化数据的成本趋近于零,所以大中型研究公司的解体、兼并、重组在不远的将来一定会频现,这是没有办法的趋势。 ? 现在数据科学有七大危险趋势: ? ? ? ? ? ? ? 3.数据的分析 以上七个危险趋势将直接导致数据分析中的危险,什么是数据分析?我先从最简单的案例说起。 案例一:简单表格的危险 ? ? 这个数据的结果,意味着什么?老年人比年轻人更喜欢这个东西。

    1.1K80发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学】需求高涨的数据科学

    数据科学家所需的技能 数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才。 (3) 数据可视化(Visualization) 信息的质量很大程度上依赖于其表达方式。 Facebook对数据科学家的招聘信息 Facebook计划为数据科学团队招聘数据科学家。应聘该岗位的人,将担任软件工程师、量化研究员的工作。 (3) 好奇心 庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。 、Transform、Load)、数据治理、管理责任、元数据) 优化与启发(整数计划法、非线性计划法、局部探索法、超启发(模拟退火、遗传算法)) (3) 春学期 大数据分析(非结构化数据概念的学习、

    1.2K80发布于 2018-02-27
  • 来自专栏数据科学人工智能

    数据科学通识第二讲:数据科学

    信用风险评估是一个运用数据科学来帮助金融企业进行决策的典型案例。 2 数据科学的基本内涵 数据科学的基本内涵有两层意思:用数据的方法研究科学和用科学的方法研究数据。 在如今这个数据爆炸的时代,数据驱动来推进相关原理和方法发现的科学研究方法被称为科学研究的第四范式,比如生物信息学、天体信息学等等。 数据科学基本内涵的第二层意思,是指用科学的方法研究数据。 这就是数据科学的另一层含义,用科学的方法研究数据。 2.1 数据的方法研究科学 科学研究的第四范式也称作数据密集型科学。 2.2 科学的方法研究数据科学的方法研究数据数据科学的另一层内涵,它的意思是指数据科学在数学、统计学、计算机科学的多学科的支撑下,从数据采集、数据管理、数据治理、数据分析、数据可视化、数据伦理等众多的方面来开展科学的研究 3 数据科学:交叉学科 数据科学是一门交叉学科,德鲁·康为(Drew Conway)的韦恩图展示了数据科学多学科交叉的特性。 图上有三个圆,分别代表计算机科学、数学与统计学和领域知识。

    1.1K40发布于 2020-04-21
  • 来自专栏数据科学与人工智能

    数据科学数据科学岗位工作面试指南

    结束 Galvanize 全栈专业和数据科学专业课程的学习后,我们的学生将接受面试辅导和实践,经过简历筛选之后介绍给合作伙伴公司。 一个数据科学专业的毕业生 Greg Kamradt 讨论了他个人在求职面试过程中遇到的挑战和成功之处。 因为市场上对数据科学家有非常高的需求(而且需求逐年增长),潜在的就业者可能会遇到众多的面试机会。 考虑其他可供选择的数据科学行业 关注类似 Hacker News 的热门招聘网站 目标:编制一个巨大的公司名单,然后再逐步精简名单 2.为自己和面试官提供便利 给自己设计一个能引起面试官或技术人员注意的说辞 3.创造力投资 你投入的工作、时间和精力越多,你就能得到更好的结果。投入额外努力的最佳方式是设身处地为面试官着想。在你进入办公室或者电话来临之前,你要尽可能地去做好各种准备。 以下是 Greg 的完整版演讲视频:https://youtu.be/3BRLGRqj8ps

    65370发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学数据科学岗位工作面试指南

    结束 Galvanize 全栈专业和数据科学专业课程的学习后,我们的学生将接受面试辅导和实践,经过简历筛选之后介绍给合作伙伴公司。 一个数据科学专业的毕业生 Greg Kamradt 讨论了他个人在求职面试过程中遇到的挑战和成功之处。 因为市场上对数据科学家有非常高的需求(而且需求逐年增长),潜在的就业者可能会遇到众多的面试机会。 考虑其他可供选择的数据科学行业 关注类似 Hacker News 的热门招聘网站 目标:编制一个巨大的公司名单,然后再逐步精简名单 2.为自己和面试官提供便利 给自己设计一个能引起面试官或技术人员注意的说辞 3.创造力投资 你投入的工作、时间和精力越多,你就能得到更好的结果。投入额外努力的最佳方式是设身处地为面试官着想。在你进入办公室或者电话来临之前,你要尽可能地去做好各种准备。 以下是 Greg 的完整版演讲视频:https://youtu.be/3BRLGRqj8ps

    71350发布于 2018-02-27
领券