首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏钱塘大数据

    蹩脚数据科学家10种现象

    如今,数据科学家已是炙手可热,那些曾经对其毫无所知的企业,眼下也开始在全世界搜寻最好的数据科学家。问题在于,优秀数据科学家的标准是什么? 凭借一批出色的数据科学家,Facebook为自己的社交媒体平台注入了富有创造力的新功能,令用户为之兴奋。 过去10年里,数据呈现爆炸式增长。 所以,在寻找优秀的数据科学家时,你也应该警惕蹩脚数据科学家的迹象。如果发现以下10个迹象中的任何一个,你都应该迅速远离。 1. 10. 不会用通俗语言来解释 数据科学家应该能用通俗易懂的日常用语来解释最复杂的问题,不能与现实世界脱节,这会导致你的解决方案无法被人理解,而且你需要花费一定的时间和精力来克服语言障碍。 原文:10 Signs of a Bad DataScientist 来源:Datanami

    67370发布于 2018-03-01
  • 来自专栏磐创AI技术团队的专栏

    数据科学家常遇到的10个错误

    数据科学家是“在统计方面比任何软件工程师都要出色,在软件工程方面比任何统计学家都出色的人”。许多数据科学家都有统计学背景,但很少有软件工程经验。 我是一位高级数据科学家,在Python编码的Stackoverflow上排名第一,并与许多(初级)数据科学家合作。下面是我经常看到的10个常见错误。 1. 不共享代码中引用的数据 数据科学需要代码和数据。因此,要使其他人能够重现您的结果,他们需要有权访问数据。虽然看起来很基础,但是很多人忘记了共享代码的数据。 x = range(10) avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x)); zscore = [(i-avg d6tflow自动将任务的数据输出保存为parquet,不需要你进行处理。 10. 使用jupyter笔记本 让我们以一个有争议的结论来结束:jupyter notebooks 与CSV一样普遍。

    1K20发布于 2019-09-25
  • 来自专栏数据科学与人工智能

    数据数据科学家喜欢Jupyter Notebook的10个原因

    IPython是一个Python库,最初旨在改进Python提供的默认交互式控制台并使其对科学家友好。 在2011年,IPython首次发布10年后,IPython Notebook被引入。 该平台为交互式科学计算和数据分析提供了理想的门户。 IPython已经成为研究人员,工程师,数据科学家,教师和学生不可或缺的一部分。 ? 几年后,IPython在科学界和工程界获得了不可思议的盛誉。 作者:Aarthi Kumaraswamy 链接:https://hub.packtpub.com/10-reasons-data-scientists-love-jupyter-notebooks/ 您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。 我们努力坚持做原创,聚合和分享优质的省时的数据知识! 我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!

    1.9K70发布于 2018-04-18
  • 来自专栏目标检测和深度学习

    数据科学家」必备的10种机器学习算法

    也就是说,没有人能否认这样的事实:作为数据科学家的实践者,我们必须了解一些通用机器学习的基础知识算法,这将帮助我们解决所遇到的新领域问题。 在机器学习中,你可以将它们用于拟合具有低维度的小型数据集的曲线。(而对于具有多个维度的大型数据数据集来说,实验的结果可能总是过度拟合,所以不必麻烦)。 v=GF3iSJkgPbA ▌10.决策树 例如我有一张有关各种水果数据的Excel工作表,我必须标明哪些是苹果。我们需要做的是提出一个问题“哪些水果是红的,哪些水果是圆的?” 我们之前谈及的10种算法都是模式识别,而非策略学习者。为了学习能够解决多步骤问题的策略,比如赢得一盘棋或玩Atari游戏机,我们需要让一个空白的智能体在这世界上根据其自身面临的奖惩进行学习。 v=2pWv7GOvuf0 我们介绍了可以助你成为数据科学家10中机器学习算法。

    86550发布于 2018-04-18
  • 来自专栏AI科技大本营的专栏

    数据科学家」必备的10种机器学习算法

    也就是说,没有人能否认这样的事实:作为数据科学家的实践者,我们必须了解一些通用机器学习的基础知识算法,这将帮助我们解决所遇到的新领域问题。 在机器学习中,你可以将它们用于拟合具有低维度的小型数据集的曲线。(而对于具有多个维度的大型数据数据集来说,实验的结果可能总是过度拟合,所以不必麻烦)。 v=GF3iSJkgPbA ▌10.决策树 例如我有一张有关各种水果数据的Excel工作表,我必须标明哪些是苹果。我们需要做的是提出一个问题“哪些水果是红的,哪些水果是圆的?” 我们之前谈及的10种算法都是模式识别,而非策略学习者。为了学习能够解决多步骤问题的策略,比如赢得一盘棋或玩Atari游戏机,我们需要让一个空白的智能体在这世界上根据其自身面临的奖惩进行学习。 v=2pWv7GOvuf0 我们介绍了可以助你成为数据科学家10中机器学习算法。

    89050发布于 2018-04-26
  • 来自专栏数据科学与人工智能

    数据科学家】揭秘数据科学家

    数据科学家”这个新称谓近两年才被叫响。大数据数据科学家有着千丝万缕的联系,因此容易让人产生一种错觉,数据科学家是大数据时代特有的一类专才。 但其实在传统的结构化数据处理过程中,数据科学家的身影就已经出现。记者最近采访了一些中国的大数据企业,其中很多企业并没有设立数据科学家这一职位,但数据分析师、数据工程师等都在做着数据科学家的工作。 陈弢认为,数据科学目前还处在“白盒研究”的阶段,也就是说数据科学家至少在未来5~10年内还需要先协助其他领域的学者解决大数据带来的技术挑战问题,等到知识的积累达到一定程度,才可能在数据界抽象出通用性较强的 尽管大数据项目的实施在没有数据科学家的情况下也能够成功地完成,但有鉴于数据科学家将成为大数据项目的工具、系统和输出的最终用户,数据科学家在大数据项目的计划阶段至关重要。 自己培养数据科学家 在品友互动其实并没有数据科学家这个职位,有的只是算法工程师、数据工程师等,他们从事的是数据科学家的工作。

    1.4K100发布于 2018-02-27
  • 来自专栏大数据文摘

    KDnuggets调查|数据科学家最常用的10种算法

    图1:数据科学家最常用的10大算法,所有算法见文末表格 每个受访者平均用到了8.1种算法,这相比于 2011 的相似调查显示的结果有了巨大的增长。 政府和产业界的数据科学家们使用的算法类型比学生和科学界要多。产业数据科学家们更倾向于使用元算法。 ◆ ◆ ◆ 不同职业类型最常用的10大算法+深度学习情况 接下来,我们分析了不同职业类型最常用的10大算法+深度学习情况 表2: 不同职业类型的10大算法+深度学习 ? 图2:不同场所的算法使用率偏倚 我们注意到,产业数据科学家们更倾向于用回归,可视化,统计,随机森林和时间序列。政府/非盈利组织则更倾向于使用可视化,主成分分析和时间序列。 表4:KDnuggets 2016 调研:数据科学家使用的算法 ?

    88240发布于 2018-05-24
  • 来自专栏数据科学与人工智能

    数据科学家数据科学家修炼之路

    经常有人问我“要成为数据挖掘工程师或者数据科学家应该读什么书?”类似的问题。下面是一份建议书单,同时也是成为数据科学家的指南,当然,这不包括取得合适大学学位的要求。 在深入探讨之前,数据科学家似乎需要掌握许多技巧,如:统计学、编程、数据库、演讲技巧、数据清理与变换知识。 ? 理想情况下,你需要具备以下技能: 了解统计学与数据预处理知识。 理解统计陷阱。 数据预处理 我必须再次强调确认并检查你数据的重要性。数据预处理除了能将数据转换成算法更易识别或处理的模式还能防止将输入数据错误。 信息提取与文本分析是数据科学家需要掌握的重要技能。 结语 最后,这里还有一些数据科学家不该错过的书籍: Data Mining and Statistics for Decision Making by Stéphane Tufféry (A personal

    1.1K100发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学】想学大数据10条激励人心的数据科学家名言

    本文由36大数据翻译组-黄小肺翻译 几年前,哈佛商业评论说数据科学家是“二十一世纪最性感的工作”。但你知道做一个数据科学家意味着什么吗?来,我们先看看这些数据科学专家的名言。 statistics than a computer scientist and more Computer science than a statistician” – Josh Blumenstock “数据科学家是一个比计算机科学家懂更多统计学 数据科学家不仅要处理数据,还要把数据本身作为一个五星产品。” 这是我自己关于整个数据科学过程的描绘。 ? 那么, 数据科学家都做些什么呢?简单来说,他收集数据、清洗、创建数据集、分析数据然后提出新观点。 这里有数据科学家最应该具备三个的特质: 1.一个优秀的数据科学家知道如何提出好问题 2.理解他手上的数据的结构 3.能够很好地解读这些数据 简单来说,数据科学就是关于提出合适的问题,然后提出有意义的见解来指导正确的决策

    1.4K80发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学】数据科学家推荐你必看的10部烧脑电影

    如果觉得数据科学和机器学习技术枯燥乏味,那你就错了。在电影中,精密计算推演的是激动人心的故事情节,计算机智能衍生的是感人至深的爱恨情仇。 本文推荐的10部影片经由数据科学家投票产生,让你在欣赏电影的同时深入理解数据科学和机器学习技术。 ? ? ? ? ? ? ? ? ? ? 来源:36大数据

    77290发布于 2018-02-27
  • 来自专栏数据科学与人工智能

    数据科学家】LInkedin数据科学家如何工作

    为什么人们现在如此的关心统计和数据,为什么数据科学家成了最性感的工作, 最近,在TiE的峰会上, LinkedIn的首席数据科学家Manu Sharma 接受了采访, 揭秘了LinkedIn的数据分析的工作 LinkedIn的业务, 就是建立在对这些数据进行分析的基础上的。 为了达到对数据实时快速处理的目的,我们开发了自己独特的算法, 叫Metropolis。它可以每天实时处理10亿条数据数据科学家需要具备好奇心和直觉。 他们需要想的问题是:我能用这些数据来做什么呢? 我需要问什么样的问题?这些数据能告诉我什么? 他们还需要足够的直觉来了解他们所采用方法的局限性。 数据科学家的工作包括, 采集数据, 整理数据, 建立正确的模型, 测试模型, 还要有一定的编程能力。 一个数据科学家需要具备这些技能, 而这些技能也是一个初创企业在建立它的数据科学家团队所需要的技能。 问: LinkedIn数据应用的重点是那几个方面?

    76490发布于 2018-02-27
  • 来自专栏银河系资讯

    成为数据科学家应该知道的10种机器学习算法

    了解为了成为数据科学家而应该了解的十种机器学习算法。 机器学习从业者有不同的个性。虽然其中一些是“我是X专家,X可以训练任何类型的数据”,其中X =某种算法,其他人是“正确的工具用于正确的工作”的人。 也就是说,没有人可以否认这样一个事实:作为实践数据科学家,我们必须了解一些常见机器学习算法的基础知识,这将有助于我们处理我们遇到的新域问题。 对于维度较小的非常小的数据集,你可以使用它们在机器学习中拟合曲线。(对于具有多个维度的大型数据数据集,你可能最终会过度拟合,因此请不要打扰。) 在此之前我们讨论的所有10种算法都是模式识别,而不是策略学习者。要学习解决多步问题的策略,例如赢得国际象棋或玩Atari控制台,我们需要让世界上没有代理人,并从其面临的奖励/惩罚中学习。 v=2pWv7GOvuf0 这些是你可以学习成为数据科学家的十种机器学习算法。 你还可以在此处阅读有关机器学习库的信息。 (未经同意,请勿转载)

    93530发布于 2019-04-12
  • 来自专栏博文视点Broadview

    数据科学家 VS 真数据科学家

    但在过去10数据快速增长的领域(如搜索引擎、社交媒体、移动数据、协同过滤推荐等)运用不多。R跟C、Perl或者Python的语法不一样(后三者语法根源一样),其简易性使得写R的程序员比较广泛。 管理决策层在搭建其数据科学家团队时,有时也不是很清楚他们想要的到底是什么。他们往往最终招募的是很纯粹的技术极客、计算机科学家,或者缺乏恰当大数据经验的人。 只是在过去的10年里变得更成熟而已,但数据科学并不只是这些。 一些数据科学家也是数据策略师——他们可以开发数据收集策略,并使用数据来发现可操作的、能对商业产生影响的见解。这就要求数据科学家具有创造性,能根据业务要求,制定分析、提出解决方案。 本文选自《数据天才:数据科学家修炼之道》

    68420发布于 2020-06-11
  • 来自专栏庄闪闪的R语言手册

    数据科学家10个提示和技巧Vol.3

    原文:10 Tips And Tricks For Data Scientists Vol.3[1] 译者:赵西西 原博客简介:Predictive Hacks是与数据科学相关的一切的在线资源中心。 该博客由一群数据科学家所运营,专注于讲解在各种领域如何使用大数据技术(从机器学习和人工智能到业务领域)。 1 引言 前面已经介绍了一些数据分析的技巧,主要是用Python和R实现。 具体内容可见:翻译|给数据科学家10个提示和技巧Vol.1;翻译|给数据科学家10个提示和技巧Vol.1;翻译|记住一些常用的R包;翻译|R用于研究,Python用于生产。 2 R 2.1 判断两个数据框之间的相关性 两个数据框,如下: df1 = data.frame(x11 = c(10,20,30,40,50,55,60), x12 3.4 判断两个数据框之间的相关性 和前面R中的做法类似,python中利用的是corr()函数: df1 = pd.DataFrame({'x11' : [10,20,30,40,50,55,60],

    1.3K40发布于 2021-06-25
  • 来自专栏数据科学与人工智能

    数据科学家】SparkR:数据科学家的新利器

    摘要:R是非常流行的数据统计分析和制图的语言及环境,有调查显示,R语言在数据科学家中使用的程度仅次于SQL,但大数据时代的海量数据处理对R构成了挑战。 摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。 项目背景 R是非常流行的数据统计分析和制图的语言及环境,有一项调查显示,R语言在数据科学家中使用的程度仅次于SQL。 为了方便数据科学家使用Spark进行数据挖掘,社区持续往Spark中加入吸引数据科学家的各种特性,例如0.7.0版本中加入的python API (PySpark);1.3版本中加入的DataFrame 工欲善其事,必先利其器,SparkR必将成为数据科学家在大数据时代的又一门新利器。 (责编/仲浩) 作者:孙锐,英特尔大数据团队工程师,HIVE和Shark项目贡献者,SparkR主力贡献者之一。

    4.3K100发布于 2018-02-27
  • 来自专栏ATYUN订阅号

    数据科学家应该知道的10个深度学习的高级架构!

    高级架构主要可以在ImageNet中看到,你在ImageNet中的任务是解决一个问题,比如使用给定的数据进行图像识别。 然而,AlexNet在使用GPU的情况下,将训练速度提高了10倍。 尽管目前有点过时,但AlexNet仍然被用作应用深度神经网络的起点,无论是在计算机视觉还是语音识别方面。 2. 10. GAN GAN是一种完全不同的神经网络架构,在这种架构中,神经网络被用来生成一个全新的图像,而这个新图像并不存在于训练数据集里,但在数据集里是足够真实的。 此文为编译作品,作者FAIZAN SHAIKH,原文链接:https://www.analyticsvidhya.com/blog/2017/08/10-advanced-deep-learning-architectures-data-scientists

    1.1K50发布于 2018-03-02
  • 来自专栏庄闪闪的R语言手册

    数据科学家10个提示和技巧Vol.4

    原文:10 Tips And Tricks For Data Scientists Vol.4[1] 译者:赵西西 原博客简介:Predictive Hacks 是与数据科学相关的一切的在线资源中心。 该博客由一群数据科学家所运营,专注于讲解在各种领域如何使用大数据技术(从机器学习和人工智能到业务领域)。 1 引言 前面已经介绍了一些数据分析的技巧,主要是用Python和R实现。 具体内容可见:翻译|给数据科学家10个提示和技巧Vol.1;翻译|给数据科学家10个提示和技巧Vol.2;给数据科学家10个提示和技巧Vol.3。 以下面数据为例: df<-data.frame(id=seq(1,10), ColumnA=c(10,9,8,7,NA,NA,20,15,12,NA), ColumnB=factor 参考资料 [1] 10 Tips And Tricks For Data Scientists Vol.4: https://predictivehacks.com/10-tips-and-tricks-for-data-scientists-vol

    73340发布于 2021-07-23
  • 来自专栏庄闪闪的R语言手册

    翻译|给数据科学家10个提示和技巧Vol.1

    原文:10 Tips And Tricks For Data Scientists Vol.1 译者:赵西西 原博客简介:Predictive Hacks是与数据科学相关的在线资源中心。 该博客是由一群数据科学家运营,专注于讲解在各种领域如何运用大数据技术(从机器学习和人工智能到业务领域)。 1 引言 这一系列对数据科学世界中常见的任务提供了一些代码作为参考。 这一期主要展示在不同应用场景下的10个提示。 2 R 2.1 利用dplyr包实现多个列上连接数据框 dplyr包允许我们在多个列上连接两个数据框。 ], y1 = LETTERS[11:20], a = rnorm(10) ) df2 <- tibble( x2 = letters[1:10], y2 = LETTERS 例如,生成10个随机日期: library(lubridate) lubridate::as_datetime( runif(10, 1546290000, 1577739600)) [1] "

    73440发布于 2021-05-17
  • 来自专栏大数据杂货铺

    谁是数据科学家

    他/她是否整日忙于数据或在他/她的实验室中尝试复杂的数学?毕竟,“谁是数据科学家”? Ť 这里有对数据科学家提供了一些定义。简而言之,数据科学家就是实践数据科学艺术的人。 当今的数据科学家面临的主要挑战不是找到现有业务问题的解决方案,而是确定对组织及其成功至关重要的问题。 为什么数据科学家被称为“数据科学家”? 数据科学家的作用确实是具有挑战性的!尽管数据科学家使用的技能和能力差异很大,但要成为一名高效的数据科学家,他应该: 1. 创建可帮助任何人轻松了解数据分析趋势的可视化文件。 10. 成为团队负责人,并与其他业务分析师,产品经理和工程师进行有效沟通。 ? 数据科学家就像网站管理员一样,不仅需要成为所有行业的杰作,而且还需要掌握以上领域中的至少一个。 数据科学家做什么呢? 数据科学家扮演着双重角色-“分析师”和“艺术家”!

    66110发布于 2020-02-11
  • 来自专栏华章科技

    数据科学家必会10个统计分析方法(附学习资源)

    著名求职网站Glassdoor根据庞大的就业数据和员工反馈信息,将数据科学家排名为美国最佳的25个工作之首。虽然名头不小,但毫无疑问,数据科学家所做的具体工作是不断发展变化的。 尽管具有强大的编程能力很重要,但数据科学家不需要都是软件工程师(实际上会用Python你就可以上路了)。数据科学家处于编程、统计学和批判性思维的交叉区域。 最后,统计学习也是一名现代数据科学家的重要素养。 在接触了这本书两次之后,我想分享这本书中的10个统计分析方法,我相信任何数据科学家,若想更有效的处理大数据集,都应该学习这些方法。 在介绍这10个分析方法之前,我想先对统计学习和机器学习做一个区分。 10 无监督学习 到目前为止,我们只讨论了监督学习,即数据类别是已知的,算法的目标是找出实际数据与它们所属的类别之间的关系。

    93520发布于 2018-08-16
领券