首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学与人工智能

    数据科学家5种特质

    人力资源主管还应注意数据科学家的其他特征。 数据显示,招聘到一个合适的数据科学家平均需要53天的时间,而这些数据科学家的身上通常带有这5种特质: 1.分析能力和定量推理能力 软件公司SAS通过调查数据了解数据科学工作者。 调查发现,60%的数据科学家花最多时间打扫和整理数据。几年前纽约时报认为这个数据应该是80%。当被问及他们最不喜欢的工作中的哪一部分时,57%的科学家回答数据清理和组织数据。 重要的是,公司雇佣一个团队成员或一个数据科学家,他们应该接受在工作中需要数据清理和数据组织。企业可以努力向数据科学家提供其他有趣的任务,但应聘者应该明白,清理和组织数据是工作的一部分。 随着行业针对社会需求的发展,数据科学家应该能够应付技术的缺乏,并完成必要的工作项目。 5.好奇心 数据科学正以惊人的速度增长,行业内的突破时刻在发生,因为从事IT工作的人渴望推动数据的使用。

    1.2K40发布于 2018-02-28
  • 来自专栏SeanCheney的专栏

    数据科学家访谈录》总结·5

    展示数据 我确实认为对数据科学家这项工作来说,沟通需要是最重要的技巧之一。在招人的时候,在不同的技能之间总有一些权衡,但是良好的沟通能力是必需的。 面试数据科学家时所看重的技能? 招聘数据科学家时,我最看重的东西是他们过往的机器学习是否全面、系统。我最想知道的问题是他们是否了解他们所采用的模型的底层原理。 因此,我们不仅可以建立基于暴动的虚拟模型,还可以调整这些模型来精确地复制我们在实时收集的数据的统计特征。 我们通过挖掘开源情报,获得了比整个美国军方还要优质的数据集。 数据都已经在LinkedIn了,我可以很快就直接开始从数据中寻找答案。 开发了“你可能认识的人”。 给博士的建议? 找到符合你的价值观的公司去工作,确保你的工作有机会能给世界带来重大的变革和影响。 一旦获得了能帮你解答你好奇的问题的数据,你就请学者去解决和回答这些问题,无论用什么技术,都尽量去尝试。

    47110发布于 2018-09-19
  • 来自专栏PPV课数据科学社区

    数据科学家应该掌握的5个工具

    即使是知识渊博的数据科学家也能提升他们的技术水平。当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据。 我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括5数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的5数据科学工具。 数据科学家发现他们经常需要使用SELECT DISTINCT * FROM my_messy_dataset;不幸的是,现实世界中的数据集往往更加复杂。 在你的工作流中可以使用Plotly,这里有三种可用方式: 为数据科学家整合其它工具。Plotly的R,Python和MATLAB的API可以让你做交互、更新仪表面板和图像。 1、回复“数据分析师”查看数据分析师系列文章 2、回复“案例”查看大数据案例系列文章 3、回复“征信”查看相关征信的系列文章 4、回复“可视化”查看可视化专题系列文章 5、回复“SPPS”查看SPSS系列文章

    1.2K50发布于 2018-04-20
  • 来自专栏CSDN技术头条

    数据科学家应该掌握的5个工具

    即使是知识渊博的数据科学家也能提升他们的技术水平。当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据。 我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括5数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的5数据科学工具。 数据科学家发现他们经常需要使用SELECT DISTINCT * FROM my_messy_dataset;不幸的是,现实世界中的数据集往往更加复杂。 在你的工作流中可以使用Plotly,这里有三种可用方式: 为数据科学家整合其它工具。Plotly的R,Python和MATLAB的API可以让你做交互、更新仪表面板和图像。 去阅读“数据科学家应该掌握的七个Python工具”这篇文章。

    1.5K80发布于 2018-02-11
  • 来自专栏人工智能头条

    数据科学家应该掌握的5个工具

    即使是知识渊博的数据科学家也能提升他们的技术水平。当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据。 我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括5数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的5数据科学工具。 数据科学家发现他们经常需要使用SELECT DISTINCT * FROM my_messy_dataset;不幸的是,现实世界中的数据集往往更加复杂。 在你的工作流中可以使用Plotly,这里有三种可用方式: 为数据科学家整合其它工具。Plotly的R,Python和MATLAB的API可以让你做交互、更新仪表面板和图像。 去阅读“数据科学家应该掌握的七个Python工具”这篇文章。

    1K30发布于 2018-06-05
  • 来自专栏数据科学与人工智能

    数据科学家】揭秘数据科学家

    数据科学家”这个新称谓近两年才被叫响。大数据数据科学家有着千丝万缕的联系,因此容易让人产生一种错觉,数据科学家是大数据时代特有的一类专才。 陈弢认为,数据科学目前还处在“白盒研究”的阶段,也就是说数据科学家至少在未来5~10年内还需要先协助其他领域的学者解决大数据带来的技术挑战问题,等到知识的积累达到一定程度,才可能在数据界抽象出通用性较强的 中桥调研咨询曾经在2013年7月针对中国市场做过一次调研,结果显示:中国目前实现近实时和实时分析的企业不到5%,远远落后于欧美市场53%的比例;在大数据处理中,中国用户目前还主要局限在结构化数据方面,其大数据工作的主要目标是通过批量分析控制成本 王丛认为,中国的大数据市场还处于“清理整合数据”的阶段,不过在未来2~5年内,数据科学家将逐步成为企业中的必设职位,而在企业中负责应用管理的中层人员如果增加综合知识的储备,更容易被培养成数据科学家。 陈弢认为,未来5年,数据科学家将出现供不应求的局面。 数据科学家不是一个噱头。企业已经从大数据中开始赚钱了。比如Google通过提供免费的搜索服务来搜集网民的信息,然后根据意图推送广告。

    1.4K100发布于 2018-02-27
  • 来自专栏AIRX三次方

    数据科学家应该学习的5种编程语言

    数据则是从多个数字来源收集的数据集的集合。这些数据的大小、种类(数据类型)和速度(收集数据的速度)都非常大。这是由于全球信息的爆炸式增长和数字化,以及存储、处理和分析海量数据池的能力的增加。 计算机科学家、图灵奖得主吉姆·格雷(Jim Gray)认为,数据科学是科学的“第四个范式”——在实证、理论和计算之后添加数据驱动。 受到软件开发人员和数据科学家的一致好评,Python已经证明了自己是一种既易于使用又动态的编程语言。 但是,如果你认为它不成熟,那么你就错了,尽管Julia属于较新的语言,但它在数据科学家中越来越受欢迎,这些数据科学家需要一种能够在高性能计算环境中执行数值分析的动态语言。 5、Scala 作为一种基于JVM平台的高级编程语言,Scala的设计目的是利用许多与Java相同的优点来解决它的一些缺点。Scala的目标是高度可扩展性,因此非常适合处理复杂的大数据

    1.1K00发布于 2021-01-19
  • 来自专栏数据科学与人工智能

    数据科学家数据科学家修炼之路

    经常有人问我“要成为数据挖掘工程师或者数据科学家应该读什么书?”类似的问题。下面是一份建议书单,同时也是成为数据科学家的指南,当然,这不包括取得合适大学学位的要求。 在深入探讨之前,数据科学家似乎需要掌握许多技巧,如:统计学、编程、数据库、演讲技巧、数据清理与变换知识。 ? 理想情况下,你需要具备以下技能: 了解统计学与数据预处理知识。 理解统计陷阱。 数据预处理 我必须再次强调确认并检查你数据的重要性。数据预处理除了能将数据转换成算法更易识别或处理的模式还能防止将输入数据错误。 信息提取与文本分析是数据科学家需要掌握的重要技能。 结语 最后,这里还有一些数据科学家不该错过的书籍: Data Mining and Statistics for Decision Making by Stéphane Tufféry (A personal

    1.1K100发布于 2018-02-27
  • 来自专栏AI研习社

    数据科学家需要了解的 5 种采样方法

    采样问题是数据科学中的常见问题,对此,WalmartLabs 的数据科学家 Rahul Agarwal 分享了数据科学家需要了解的 5 种采样方法,AI 开发者将文章编译整理如下。 数据科学实际上是就是研究算法。 我每天都在努力学习许多算法,所以我想列出一些最常见和最常用的算法。 本文介绍了在处理数据时可以使用的一些最常见的采样技术。 假设我们必须从无限大的流中抽取 5 个对象,且每个元素被选中的概率都相等。 number# Create as stream generator stream = generator(10000)# Doing Reservoir Sampling from the stream k=5 我们经常会遇到不平衡的数据集。 一种广泛采用的处理高度不平衡数据集的技术称为重采样。它包括从多数类(欠采样)中删除样本或向少数类(过采样)中添加更多示例。 让我们先创建一些不平衡数据示例。

    1.9K20发布于 2019-08-01
  • 来自专栏数据科学与人工智能

    数据科学家】LInkedin数据科学家如何工作

    为什么人们现在如此的关心统计和数据,为什么数据科学家成了最性感的工作, 最近,在TiE的峰会上, LinkedIn的首席数据科学家Manu Sharma 接受了采访, 揭秘了LinkedIn的数据分析的工作 数据科学家需要具备好奇心和直觉。 他们需要想的问题是:我能用这些数据来做什么呢? 我需要问什么样的问题?这些数据能告诉我什么? 他们还需要足够的直觉来了解他们所采用方法的局限性。 数据科学家的工作包括, 采集数据, 整理数据, 建立正确的模型, 测试模型, 还要有一定的编程能力。 一个数据科学家需要具备这些技能, 而这些技能也是一个初创企业在建立它的数据科学家团队所需要的技能。 问: LinkedIn数据应用的重点是那几个方面? 数据标准和数据质量非常重要 4. 简单模型比复杂模型要好 5. 建模就是要不断进行试错。

    76490发布于 2018-02-27
  • 来自专栏博文视点Broadview

    数据科学家 VS 真数据科学家

    管理决策层在搭建其数据科学家团队时,有时也不是很清楚他们想要的到底是什么。他们往往最终招募的是很纯粹的技术极客、计算机科学家,或者缺乏恰当大数据经验的人。 事实上,你可以成为一名真正的数据科学家,且不需要掌握这些技能。NoSQL和MapReduce不是新概念——在这些关键词被创建之前,就有很多人接触到它们。 成为一名数据科学家,你需要以下能力。 真正的大数据专业知识(例如,可以在几个小时内快速地处理一个5 000万行的数据集)。 认知数据的能力。 对模型具有猜疑精神。 了解大数据“诅咒”。 有能力沟通并理解管理人员正在试图解决哪些问题。 一些数据科学家也是数据策略师——他们可以开发数据收集策略,并使用数据来发现可操作的、能对商业产生影响的见解。这就要求数据科学家具有创造性,能根据业务要求,制定分析、提出解决方案。 本文选自《数据天才:数据科学家修炼之道》

    68420发布于 2020-06-11
  • 来自专栏AI科技大本营的专栏

    数据科学家必须要掌握的5种聚类算法

    给定一组数据点,我们可以使用聚类算法将每个数据点分类到一个特定的簇中。理论上,属于同一类的数据点应具有相似的属性或特征,而不同类中的数据点应具有差异很大的属性或特征。 现在,我们来看看数据科学家们需要掌握的5种常见聚类算法以及它们的优缺点! ▌K-均值聚类 K-Means可能是最知名的聚类算法,没有之一。在很多介绍性的数据科学和机器学习课程中,都有讲授该算法。 5、一旦我们完成了当前的聚类,就检索和处理新的未访问的点,就能进一步发现新的簇或者是噪声。重复上述过程,直到所有点被标记为已访问才停止。由于所有点已经被访问完毕,每个点都被标记为属于一个簇或是噪声。 ▌结论 数据科学家应该掌握的前5种聚类算法!感谢Scikit Learn工具箱,我们能用非常美的可视化图来展示更多聚类算法卓越的效果。 作者| George Seif 原文链接 https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68

    1.1K50发布于 2018-04-26
  • 来自专栏博文视点Broadview

    数据科学家常见的5个SQL面试问题

    在任何以数据为中心的工作中,对SQL有深刻的理解都是成功的关键,尽管这不是工作中最有趣的部分。 DepartmentId , Salary) IN ( SELECT DepartmentId, MAX(Salary) FROM Employee GROUP BY DepartmentId ) 问题5: 1 | Abbot | | 2 | Doris | | 3 | Emerson | | 4 | Green | | 5 1 | Doris | | 2 | Abbot | | 3 | Green | | 4 | Emerson | | 5 第二个WHEN语句为每个id加1(例如,1,3,5变为2,4,6) 同样,第三个WHEN语句将每个id减1(2,4,6变为1,3,5) SELECT CASE WHEN((SELECT MAX(id)

    1.7K10发布于 2020-06-12
  • 来自专栏DeepHub IMBA

    提高数据科学家讲故事能力的5个小技巧

    作为数据科学家,我们也被教导要善于讲故事。原因是我们经常需要向不同的利益相关者展示我们的工作。因为他们来自不同的背景,所以我们必须相应地改变我们的语气。但在任何情况下,你的故事都是一样的。 当你作为一名数据科学家工作时,尽可能多地与不同的利益相关者沟通变得更加重要。 使用统计学来理解你的数据 统计学对理解数据和理解数据有很大帮助。然后你就可以从中推断出许多事实,并利用它们来更好地理解它。 统计学主要分为两类:描述性和推理性。 描述性统计试图描述现有的数据,而推理统计向您提供数据中不同特征或变量之间关系的概述。 作者:Saeed Ahmad 原文地址:https://medium.com/towards-artificial-intelligence/5-tips-to-effectively-tell-a-story-as-a-data-scientist

    48430发布于 2021-01-25
  • 来自专栏ATYUN订阅号

    数据科学家需要知道的5个基本统计概念

    编译:yxy 出品:ATYUN订阅号 在执行数据科学(DS)时,统计是一种强大的工具。笼统来看,统计学是利用数学来进行数据的技术分析。 使用统计数据,我们可以获得更深入,更细致的了解我们的数据是如何构建的,并且可以知道基于该结构,我们如何最好地应用其他数据科学技术来获取更多信息。 现在,我们来看看数据科学家需要了解的5个基本统计概念以及如何最有效地应用它们! 统计特征 统计特征可能是数据科学中最常用的统计概念。 我们有一个数据集,我们想减少它的维度数。在数据科学中,维度数是特征变量的数量。如下图: ? 降维 立方体表示我们的数据集,它有3个维度,总共1000个点。 频率统计是大多数人在听到“概率”一词时所想到的统计数据类型。它涉及应用数学来分析某些事件发生的概率,即,我们计算的唯一数据是先验数据。 ? 我们来看一个例子。

    1.1K30发布于 2018-12-04
  • 来自专栏数据科学与人工智能

    数据科学家】SparkR:数据科学家的新利器

    摘要:R是非常流行的数据统计分析和制图的语言及环境,有调查显示,R语言在数据科学家中使用的程度仅次于SQL,但大数据时代的海量数据处理对R构成了挑战。 摘要:R是数据科学家中最流行的编程语言和环境之一,在Spark中加入对R的支持是社区中较受关注的话题。 项目背景 R是非常流行的数据统计分析和制图的语言及环境,有一项调查显示,R语言在数据科学家中使用的程度仅次于SQL。 为了方便数据科学家使用Spark进行数据挖掘,社区持续往Spark中加入吸引数据科学家的各种特性,例如0.7.0版本中加入的python API (PySpark);1.3版本中加入的DataFrame 工欲善其事,必先利其器,SparkR必将成为数据科学家在大数据时代的又一门新利器。 (责编/仲浩) 作者:孙锐,英特尔大数据团队工程师,HIVE和Shark项目贡献者,SparkR主力贡献者之一。

    4.3K100发布于 2018-02-27
  • 来自专栏数据派THU

    独家 | 数据科学家应该了解的5个 Python库(附链接)

    Streamlit — 小而快的Web应用程序 Streamlit是数据科学家最受欢迎的前端框架。 它是一个开源的Python框架,允许用户快速轻松地创建交互式数据应用程序,对于那些没有Web开发基础知识的数据科学家和机器学习工程师来说特别有益。 使用Streamlit。 以下是ML工程师和数据科学家应该学习FastAPI的一些原因: 速度:FastAPI非常快。它使用现代异步编程模型,能够同时高效处理多个请求,这对于部署需要处理大量数据的机器学习模型至关重要。 它的易用性、速度和生产就绪性使其成为ML工程师和数据科学家的理想选择。 4.XGBoost — 既快又好地预测表格数据 XGBoost是一种功能强大的机器学习算法,以其准确性、速度和可扩展性而闻名。 结论 我们探索了五个领先的数据科学框架,如果你掌握了这些库,你将获得多重优势:‍ 1.与其他数据科学家相比,你将有更多的机会获得工作,因为你在机器学习的各个方面都获得了多项技能。

    55510编辑于 2024-04-25
  • 来自专栏IT派

    推荐|数据科学家需要了解的5大聚类算法

    IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 聚类是一种涉及数据点分组的机器学习技术。给定一个数据点集,则可利用聚类算法将每个数据点分类到一个特定的组中。 理论上,同一组数据点具有相似的性质或(和)特征,不同组数据点具有高度不同的性质或(和)特征。聚类属于无监督学习,也是在很多领域中使用的统计数据分析的一种常用技术。本文将介绍常见的5大聚类算法。 为了计算所使用类的数量,最好快速查看数据并尝试识别任何一个不同的分组。中心点是和每个数据点矢量长度相同的矢量,上图标记为“X”。 5.一旦我们完成了当前的聚类,我们对新的未访问到的点进行检索和处理,发现一个更进一步的聚类或噪声。重复这个过程,直到我们标记完成所有的点,每个点都被标记为一个聚类或噪声。 在本例中,我们使用平均连接,它将两个聚类间的距离定义为第一个数据集中的数据点和第二个聚类中数据点之间的平均距离。 2.每迭代一次,将两个聚类合并成为一个,作为平均连接最小的聚类。

    1.2K70发布于 2018-03-27
  • 来自专栏Python数据科学

    5数据科学家必须知道的特征选择方法

    模型好坏很大程度上还是取决于数据的质量、特征的选择。 面对海量数据我们无法手动挨个EDA挑选,那么如何科学地使用方法筛选特征显得尤为重要,今天个大家介绍数据科学家必须掌握的5种常用特征选择方法。 source=post_page 一般经验是当数据中的列数多于行数,可能会对模型产生不好的影响,即模型会过度地拟合数据,导致模少泛化能力。 下面介绍上面提及的也是常用的5种特种选择方法,这些方法在Scikit-learn中已经有了封装好的方法可以直接使用。 使用特征kaggle的一个数据集作为示例。 训练数据X 1. 皮尔逊相关(pearson) ? 这是一种基于过滤器的方法。 在数据集中目标变量和数值特征之间Pearson相关的绝对值。根据此标准保留前n个特征。 rfe_selector = RFE(estimator=LogisticRegression(), n_features_to_select=num_feats, step=10, verbose=5)

    2K30发布于 2019-10-10
  • 来自专栏数据派THU

    独家 | 数据科学家应该避免的5种统计陷阱(附链接)

    作者:Matthew Mayo 翻译:冯羽 校对:陈雨琳 本文长度约为2500字,建议阅读5分钟 本文介绍了数据科学家应该避免的五种统计陷阱。 标签:偏见,谬误,辛普森悖论,统计 这篇文章讲了五种统计谬误,也可以称为数据陷阱,数据科学家应该重视并绝对避免它们。谬误就是我们所说的错误推理的结果。 这里有五个统计谬误,或者称之为陷阱,数据科学家应该重视并绝对避免它们。做不到这一点对数据结果和数据科学家的信誉的打击都是灾难性的。 全面的统计分析应成为数据科学家的工作方案的一部分,并且是确保你不屈服于这种现象的一种有效方法。 5数据疏浚 数据疏浚还有其他更加不好的名字,例如 p-hacking,它是“误用数据分析以查找数据中具有统计学意义的模式,而这些模式实际上没有任何真实潜在影响。”

    1.4K20发布于 2019-12-10
领券