首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学与人工智能

    数据科学】想学大数据10条激励人心的数据科学家名言

    本文由36大数据翻译组-黄小肺翻译 几年前,哈佛商业评论说数据科学家是“二十一世纪最性感的工作”。但你知道做一个数据科学家意味着什么吗?来,我们先看看这些数据科学专家的名言。 statistics than a computer scientist and more Computer science than a statistician” – Josh Blumenstock “数据科学家是一个比计算机科学家懂更多统计学 数据科学家不仅要处理数据,还要把数据本身作为一个五星产品。” 这是我自己关于整个数据科学过程的描绘。 ? 那么, 数据科学家都做些什么呢?简单来说,他收集数据、清洗、创建数据集、分析数据然后提出新观点。 这里有数据科学家最应该具备三个的特质: 1.一个优秀的数据科学家知道如何提出好问题 2.理解他手上的数据的结构 3.能够很好地解读这些数据 简单来说,数据科学就是关于提出合适的问题,然后提出有意义的见解来指导正确的决策

    1.4K80发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学数据科学家推荐你必看的10部烧脑电影

    如果觉得数据科学和机器学习技术枯燥乏味,那你就错了。在电影中,精密计算推演的是激动人心的故事情节,计算机智能衍生的是感人至深的爱恨情仇。 本文推荐的10部影片经由数据科学家投票产生,让你在欣赏电影的同时深入理解数据科学和机器学习技术。 ? ? ? ? ? ? ? ? ? ? 来源:36大数据

    77290发布于 2018-02-27
  • 来自专栏钱塘大数据

    蹩脚数据科学家的10种现象

    如今,数据科学家已是炙手可热,那些曾经对其毫无所知的企业,眼下也开始在全世界搜寻最好的数据科学家。问题在于,优秀数据科学家的标准是什么? 凭借一批出色的数据科学家,Facebook为自己的社交媒体平台注入了富有创造力的新功能,令用户为之兴奋。 过去10年里,数据呈现爆炸式增长。 所以,在寻找优秀的数据科学家时,你也应该警惕蹩脚数据科学家的迹象。如果发现以下10个迹象中的任何一个,你都应该迅速远离。 1. 10. 不会用通俗语言来解释 数据科学家应该能用通俗易懂的日常用语来解释最复杂的问题,不能与现实世界脱节,这会导致你的解决方案无法被人理解,而且你需要花费一定的时间和精力来克服语言障碍。 原文:10 Signs of a Bad DataScientist 来源:Datanami

    67370发布于 2018-03-01
  • 来自专栏数据科学与人工智能

    数据科学数据科学家与数据科学

    Jeff Wu做出题为“统计学=数据科学吗? 的演讲,建议统计改名数据科学统计数据科学家。 关于数据科学家的更多讨论: 你能列出十个著名的女性数据科学家吗?Can you name 10 famous data scientist women? 谁是最富有的数据科学家? 二、数据科学家的定义 数据科学(Data Science)是从数据中提取知识的研究,关键是科学数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。 数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。 are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10%

    1.4K90发布于 2018-02-26
  • 来自专栏磐创AI技术团队的专栏

    数据科学家常遇到的10个错误

    数据科学家是“在统计方面比任何软件工程师都要出色,在软件工程方面比任何统计学家都出色的人”。许多数据科学家都有统计学背景,但很少有软件工程经验。 我是一位高级数据科学家,在Python编码的Stackoverflow上排名第一,并与许多(初级)数据科学家合作。下面是我经常看到的10个常见错误。 1. 不共享代码中引用的数据 数据科学需要代码和数据。因此,要使其他人能够重现您的结果,他们需要有权访问数据。虽然看起来很基础,但是很多人忘记了共享代码的数据。 将数据与代码混合 由于数据科学代码需要数据,为什么不将其存储到同一目录?当您使用它时,也可以在其中保存图像,日志和其他垃圾文件。 d6tflow自动将任务的数据输出保存为parquet,不需要你进行处理。 10. 使用jupyter笔记本 让我们以一个有争议的结论来结束:jupyter notebooks 与CSV一样普遍。

    1K20发布于 2019-09-25
  • 来自专栏张俊红

    数据科学中的10个重要概念和图表

    K = 1时WCSS值最大 6、Scree Plot (PCA) 它帮助我们在对高维数据执行主成分分析后,可视化每个主成分解释的变异百分比。 7、线性和逻辑回归曲线 对于线性可分数据,我们可以进行线性回归或逻辑回归,二者都可以作为决策边界曲线/线。 经验法则指出,按照正态分布观察到的数据中有 99.7% 位于平均值的 3 个标准差以内。 根据该规则,68% 的数据在一个标准差内,95% 在两个标准差内,99.7% 在三个标准差内。 10、学生 T 分布 T 分布(也称为学生 T 分布)是一系列分布,看起来几乎与正态分布曲线相同,只是更短和更宽/更胖。 当我们有较小的样本时,我们使用 t 分布而不是正态分布。

    68920编辑于 2022-08-26
  • 来自专栏加米谷大数据

    10本机器学习和数据科学必读书

    10本机器学习和数据科学必读书(附PDF下载)。 作者:Jake VanderPlas 链接: https://github.com/jakevdp/PythonDataScienceHandbook 这本书介绍了在Python中处理数据所需要的基本而重要的库 链接: https://web.stanford.edu/~hastie/StatLearnSparsity/ 过去的十年里,计算和信息技术出现了爆炸性增长,同时出现了大量的源自不同领域的数据 inference for data science 作者:Brian Caffo 链接: https://leanpub.com/LittleInferenceBook 这本书是Coursera数据科学项目 目标读者是有数学或计算机背景的并且希望在统计和数据科学领域中得以运用的学生。这本书在Github上以markdown文档的形式免费提供。

    67120发布于 2019-04-19
  • 来自专栏数据科学与人工智能

    数据数据科学家喜欢Jupyter Notebook的10个原因

    在过去的二十年中,Python越来越多地用于科学计算和数据分析。 今天,Python的主要优势以及它如此受欢迎的主要原因之一是它将科学计算功能带给了许多研究领域和行业中使用的通用语言。 IPython是一个Python库,最初旨在改进Python提供的默认交互式控制台并使其对科学家友好。 在2011年,IPython首次发布10年后,IPython Notebook被引入。 该平台为交互式科学计算和数据分析提供了理想的门户。 IPython已经成为研究人员,工程师,数据科学家,教师和学生不可或缺的一部分。 ? 几年后,IPython在科学界和工程界获得了不可思议的盛誉。 作者:Aarthi Kumaraswamy 链接:https://hub.packtpub.com/10-reasons-data-scientists-love-jupyter-notebooks/ 关于更多数据科学内容,请阅读数据科学系列文章。 数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。

    1.9K70发布于 2018-04-18
  • 来自专栏数据科学与人工智能

    数据科学数据科学入门指南

    数据科学虽然刚刚兴起,却发展迅速。 只要有数据的地方,就需要数据科学团队来分析、挖掘数据。 因而,在各个行业都需要大量的数据科学家。 2015年,数据科学家的平均年薪已经达到10万美元,而且还在快速的上涨。 丰厚的待遇和对人才的大量需求吸引着大批的人开始学习这一领域。 所以我并不建议从最基础的数学理论开始学习数据科学。 下面的这些建议会告诉你如何高效、快速的入门数据科学 ? 数据科学知识体系图 1. 数据科学是一座高山,停止学习意味着你永远无法到达顶点。 但是,养成这些良好的习惯,你会很自然的成为以为数据科学专家。 掌握正确的方法和习惯,任何人都可以掌握这门科学

    1K90发布于 2018-02-26
  • 来自专栏数据科学与人工智能

    数据科学】如何学习数据科学

    解决一些好玩的小问题:好奇心是数据科学的关键。如果你对国家的经济问题,犯罪统计,体育成绩等感兴趣的话,去收集数据并开始回答你的问题吧。 有很多的培训材料可以在网上找到: 统计202 加州理工学院的数据科学课程 Coursera:数据科学,机器学习,数据分析,数据分析计算 加州大学伯克利分校 - 数据科学 骑士新闻中心的课程:资讯图像和数据可视化 关注业内领袖:网络中有很多厉害的数据科学家,关注这些人可以得到很好的启发。 ) 定期参加聚会:本地的数据科学/ R聚会,这一领域的发展非常迅速,我至少每隔一年去那里。 3、有用的数据科学读物 数据挖掘导论 果壳中的R 数据之魅 可视化之美 查看更多的数据科学的书籍:O'Reilly,Manning 4、对我感觉没多大用的东西 学习多个统计工具:一年前,我开始有一些

    957100发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学】什么是数据科学家与数据科学

    Jeff Wu做出题为“统计学=数据科学吗? 的演讲,建议统计改名数据科学统计数据科学家。 关于数据科学家的更多讨论: 你能列出十个著名的女性数据科学家吗?Can you name 10 famous data scientist women? 谁是最富有的数据科学家? 数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。 数据科学的从业者被称为数据科学家。数据科学家通过精深的专业知识在某些科学学科解决复杂的数据问题。 are a major component of the Internet of Things, will grow from 2% of the digital universe in 2013 to 10% [8].Data Science and Prediction [9].The key word in “Data Science” is not Data, it is Science [10].Data

    1.8K60发布于 2018-02-27
  • 来自专栏大数据文摘

    征服数据科学面试的10个小技巧(附资源)

    对于一个公司来说,与其雇佣一个不合适的人,不如拒绝一个合适的人(作为数据科学家,我们都知道如何在假阳性与真阳性中作出取舍!)。 如果你是一个数据科学家,SQL(结构化查询语言)的问题很常见。 ◆ ◆ ◆ 掌握常见的技术概念 如果你从事数据科学,你需要了解偏差/方差。你需要知道如何检测和处理过度拟合模型。 进行分类(classification)分析时,你需要知道数据在每个类别的分布极度不平衡时如何处理。你需要知道各种模型的优点和缺点。你还需要了解算法的基本知识,比如,随机森林为什么“随机”?

    57070发布于 2018-05-25
  • 来自专栏AI科技大本营的专栏

    数据科学家」必备的10种机器学习算法

    也就是说,没有人能否认这样的事实:作为数据科学家的实践者,我们必须了解一些通用机器学习的基础知识算法,这将帮助我们解决所遇到的新领域问题。 在机器学习中,你可以将它们用于拟合具有低维度的小型数据集的曲线。(而对于具有多个维度的大型数据数据集来说,实验的结果可能总是过度拟合,所以不必麻烦)。 v=GF3iSJkgPbA ▌10.决策树 例如我有一张有关各种水果数据的Excel工作表,我必须标明哪些是苹果。我们需要做的是提出一个问题“哪些水果是红的,哪些水果是圆的?” 我们之前谈及的10种算法都是模式识别,而非策略学习者。为了学习能够解决多步骤问题的策略,比如赢得一盘棋或玩Atari游戏机,我们需要让一个空白的智能体在这世界上根据其自身面临的奖惩进行学习。 v=2pWv7GOvuf0 我们介绍了可以助你成为数据科学家的10中机器学习算法。

    89050发布于 2018-04-26
  • 来自专栏磐创AI技术团队的专栏

    带有源代码的 10 个 GitHub 数据科学项目

    这就是数据科学快速发展的原因,需要热爱数据和处理数据的熟练专业人士。 如果你正在考虑进军基于数据的职业,最好的方法之一是参与GitHub数据科学项目,建立一个数据科学家组合,展示你的技能和经验。 因此,如果你对数据科学充满热情并渴望探索新的数据集和技术,请阅读并探索你可以贡献的十大数据科学项目。 适合初学者的 10 个 GitHub 数据科学项目列表 1. 如果你是一名有抱负的数据科学家,那么参与 GitHub 数据科学项目并熟悉该平台的工作原理是必要的。 如何在 GitHub 上展示你的数据科学项目? 如果你想知道如何推进你的 GitHub 数据科学项目,本节可供你参考。你可以从在 GitHub 上构建合法的数据分析师或数据科学家作品集开始。 这就是为什么本博客为初学者探索了 10 个 GitHub 数据科学项目,这些项目提供了不同的应用程序和挑战。通过探索这些项目,你可以更深入地了解数据科学工作流程,包括数据准备、探索、可视化和建模。

    3K31编辑于 2023-08-29
  • 来自专栏目标检测和深度学习

    数据科学家」必备的10种机器学习算法

    也就是说,没有人能否认这样的事实:作为数据科学家的实践者,我们必须了解一些通用机器学习的基础知识算法,这将帮助我们解决所遇到的新领域问题。 在机器学习中,你可以将它们用于拟合具有低维度的小型数据集的曲线。(而对于具有多个维度的大型数据数据集来说,实验的结果可能总是过度拟合,所以不必麻烦)。 v=GF3iSJkgPbA ▌10.决策树 例如我有一张有关各种水果数据的Excel工作表,我必须标明哪些是苹果。我们需要做的是提出一个问题“哪些水果是红的,哪些水果是圆的?” 我们之前谈及的10种算法都是模式识别,而非策略学习者。为了学习能够解决多步骤问题的策略,比如赢得一盘棋或玩Atari游戏机,我们需要让一个空白的智能体在这世界上根据其自身面临的奖惩进行学习。 v=2pWv7GOvuf0 我们介绍了可以助你成为数据科学家的10中机器学习算法。

    86550发布于 2018-04-18
  • 来自专栏CDA数据分析师

    最受欢迎的数据科学TED演讲Top10

    在这里,我们针对数据科学家,从统计,社交媒体和经济等领域筛选了十个优质演讲。 (以下所有视频均在TED官网可以找到,根据自己的需求还可以选择中文字幕哦) 1. The best stats you’ve ever seen 你见过最好的数据统计 (播放次数:10,406,507) ? 你从未见过这样的数据。 Battling bad science 与伪科学抗争 (播放次数:1,891,208) ? 每天都有新的健康建议出现,但是如何辨别其真伪呢? language=en) 10. 计算机科学 Jennifer Golbeck 解释了这一点,并指出技术的一些应用不是那么友好,以及为什么她认为我们应该把信息的控制权归还给合法的所有者。

    2.1K60发布于 2018-02-26
  • 来自专栏数据科学与人工智能

    数据科学数据科学可以做什么

    机器学习是数据科学的发动机。每种机器学习方法(也称为算法)获取数据,反复咀嚼,输出结果。机器学习算法负责数据科学里最难以解释又最有趣的部分。数学的魔法在此发生。 许多数据科学问题看起来是这种形式,或者可以被组织成这种形式。这是最简单也最常提到的数据科学问题。几个典型的例子: 这名顾客会不会继续订阅? 这图片上是一只猫还是一只狗? 这名顾客会不会点击顶部链接? 无监督学习和增强学习的算法家族则有完全不同的数据科学问题。 数据是如何构成? 有关数据如何构成的问题属于无监督学习。有许多技术试图提炼数据的结构。 维度归约是另一种简化数据的方式,让数据能更容易传播,更快速计算,更容易存储。 在根本上,维度归约都是在创造一种描述数据点的简易方法。一个简单的例子是GPA学分绩点。 这里的优势是多数增强学习算法可以在没有数据的情况下开始工作。它们在运行中收集数据,从尝试和错误中学习。

    1.4K100发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学数据科学的教育体系

    数据科学领域里工作的人才需要具备两方面的素质:一是概念性的,主要是对模型的理解和运用;二是实践性的,主要是处理实际数据的能力。 总结一下,大数据的影响将主要来自以下几个方面。 首先是数据科学将成为科研体系中的重要部分,并逐渐达到与包括物理、化学、生命科学等学科在内的自然科学分庭抗礼的地位。 现在的物理学、化学、机械工程等学科,以及生命科学、材料科学、天体物理、地球科学等学科的大部分都是沿着这样一条主线展开的。另一条是以数据为主线。 数据科学的兴起,将极大地推动许多社会科学学科朝着量化的方向发展,使他们逐步由经验性的模式转变成科学性的模式。 如果做好了这一点,我们在数据科学领域就自然而然地走到了世界的前沿。 来源:大数据栋察

    81470发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学数据科学中隐藏的数据智慧

    这样一个有信息量的名称可以使人们意识到应用统计作为数据科学一部分的重要性。 “数 据智慧“是数学、自然科学和人文主义这三方面能力的融合,是科学和艺术的结合。在缺乏有实践经验者的指导下,个人很难仅仅靠从读书中获得“数据智慧”, 想要学习它的最好方法就是和拥有它的人一起共事。 当然,我们也可以通过问答方式来帮助形成和培养“数据智慧”的能力。我这里有10个基本问题,我鼓励人们 在开始从事数据分析项目或者在其过程中可以经常问问自己。 1.要回答的问题 数 据科学的问题最开始往往来自于统计学或者数据科学以外的学科。例如,神经科学中的一个问题:大脑是如何工作的?或银行业中的一个问题:该对哪组顾客推广新 服务? 同样,商业和政府实体也应该要求从数据分析中得出的结论,当用新的同质数据检验时是可再重复 的。 10.结果验证 人们怎样能知道数据分析是不是做的好呢?衡量标准是什么?

    1K50发布于 2018-02-28
  • 来自专栏用户画像

    数据科学

    https://blog.csdn.net/jxq0816/article/details/82823331 数据科学:如何从实际的生活中提取数据,然后利用计算机的运算能力和模型算法从这些数据中找出一些有价值的内容 1、数据科学在工程上的挑战可以大致分为3类:特征提取、矩阵运算和分布式机器学习。 (1)一个建模项目的成功很大程度上依赖于建模前期的特征提取。它包含数据清洗、数据整合、变量归一化等。 经过处理后,原本搅作一团的原始数据将被转换为能被模型使用的特征。这些工作需要大量的自动化程序来处理,特别是面向大数据时,因为这些大数据无法靠“人眼”来检查。 2、模型搭建的挑战 数据科学对模型搭建的要求也可以总结为3点:模型预测效果好、模型参数是稳定且“正确”的、模型结果容易解释。 (1)模型的预测效果好,这是数据科学成功的关键。 (3)数据科学家将模型搭建好了,并不是一个数据科学项目的终点。为了充分发挥数据的价值,需要将模型结果应用到实际的生产中,参与这个过程的不仅有懂模型的数据科学家,还有更多非技术的业务人员。

    64120发布于 2018-09-29
领券