首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏最新最全的大数据技术体系

    11月数据面试题复习

    1)从 high-level 的角度来看,两者并没有的差别。 8、RDD有哪些缺陷?   1)不支持细粒度的写和更新操作(如网络爬虫),spark写数据是粗粒度的。所谓粗粒度,就是批量写入数据,为了提高效率。但是读数据是细粒度的也就是说可以一条条的读。   当表和小表join时,用map-side join能显著提高效率。 不一定,当数据规模小,Hash shuffle快于Sorted Shuffle数据规模的时候;当数据量大,sorted Shuffle会比Hash shuffle快很多,因为数量大的有很多小文件,不均匀 ,甚至出现数据倾斜,消耗内存,1.x之前spark使用hash,适合处理中小规模,1.x之后,增加了Sorted shuffle,Spark更能胜任大规模处理了。

    92912编辑于 2021-12-06
  • 来自专栏华章科技

    详解数据资产的8重要特征

    从广义上讲,企业拥有的所有数据资源,包括原始数据、中间数据、临时数据数据类目体系、标签类目体系、标签、标签类目体系方法论等都是数据资产。 ▲图2-12 数据资产运营闭环 以标签为组织载体的数据资产区别于传统的数据资源,具有8个显著而独特的重要特征,如图2-13所示。 ? ▲图2-13 数据资产8特征 01 能确权 所有的数据资产都应该是由某企业或机构合法取得或有效管理的数据源清洗加工而来,否则不能称为资产。 在大型集团公司中,会划分拥有数据资产归属权、管理权、使用权的角色: 数据源采集、提供部门拥有数据资产的归属权; 数据资产的设计、加工、管理、运营部门拥有数据资产的管理权; 数据资产的使用、消耗部门拥有数据资产的使用权 等到业务人员想要了解数据信息,或数据部门自查数据规范性,又或者若干年后数据人员更迭交接的时候,就会发现存在非常多的数据信息缺项和填写不规范的问题,最终只能进行信息补录或元数据管理。

    3.7K30发布于 2021-07-12
  • 来自专栏IT知识进阶学习

    JAVA自学-8基础数据类型详解

    本篇文章中,我们也将依据此思想,去更加深入地认识JAVA中最基础的八数据类型,看看它们在JAVA世界中都存在哪些用途。 非常的整数 -2^63^ ~ 2^63^-1 浮点型 float 4 普通实数 -3.402 823*10^38^ ~ 3.402 823*10^38^ 双精度 double 8 非常的实数 -1.7977 当我们将低精度的数据类型赋值给高精度的数据类型时,系统会自动完成数据类型的转换(类比思想:将小容量的物体存放到容量的容器中,当然是没有问题的),如:   但如果需要将高精度的类型转换成低精度的类型, 那么就会出现精度的丢失,所以必须显示指定类型转换,格式如下:(需要转换的类型)要转换的值 小结 ----   本篇文章通过类比的方式介绍了JAVA中自带的8基础数据类型的特点和使用场景,这8基础类型将伴随着我们整个编程生涯 下一篇我们将介绍如何通过这8基础数据类型进行相应的算术运算,设计实现一个简单的计算器案例。

    1.1K30编辑于 2022-09-13
  • 来自专栏大数据文摘

    数据,看贵州! 贵州大数据产业发展8看点

    2013年下半年,中国电信、联通、移动纷至沓来,三电信运营商数据中心在贵州开工建设、中关村贵阳科技园成立、富士康第四代产业园落户……这一系列大手笔,正助推贵州迈上“云端”,成为发展大数据产业的黄金宝地 贵州大数据产业发展8看点 看点一:三运营商南方数据中心落户贵安新区 2013年10月21日开工建设的中国电信云计算中心总占地500亩,总投资70亿元,一期建成后服务器容量为100万台,2014年底起可陆续投入商用 看点三:山区里的数据中心基地 爽爽贵阳,能源富集,是数据中心基地的理想选择。贵阳和贵安新区的山区较多,使得贵阳的很多数据中心设置在山区。 看点四:大数据为媒,中关村联姻贵阳 2013年9月8日“中关村贵阳科技园”揭牌,为贵阳市发展新一代信息技术产业提供重要支撑,也为大数据产业的发展提供强大支撑。 看点五:贵州省打造千万服务器的大数据集群 三运营商的数据中心在贵安新区相继建成后,将使贵阳周边特定区域快速集聚20万—30万的机架、百万台的服务器,数据存储规模可达EB以上,随着大数据产业持续发酵,将形成一个千万服务器集群的数据中心基地

    1.8K100发布于 2018-05-22
  • 来自专栏张俊红

    数据分析师8经典问题

    数据的同学们,你们在工作中被刁难过吗?有哪些问题是经常遇到,又让人恨得咬牙切齿的呢?从之前同学们吐槽的话题里,我精选了8个高频问题,今天一起来看一下。注意! 应该多转发一些大数据/数据仓库/数据治理/数据分析的书单、技能树一类,让他们直观体验下“卧槽,这个东西这么复杂呀!” 问题2:“我们的数据可大了,都在那里了,你为啥分析不出来?” 这个问题和上个问题是同胞姐妹,本质都是领导不懂数据,以为有几个数字就是“大数据”了。 如果再加上“没有数据团队”,或者“你自己孤悬于数据团队以外”这一条,请谨慎入职,你会被PUA到怀疑人生的。 问题3:“数据不是数据分析的事吗,为啥要我参与?” 注意,这一句是疑问句,不是反问句。 问题8:“你怎么证明,你做的分析和公司业绩提升有关系!” 这个问题一般在考核绩效的时候才冒出来。听到问题的时候,都会让人恨得咬牙切齿,好想骂一句:“当初求数像条狗,看完数据嫌人丑!”

    59860编辑于 2023-03-21
  • 来自专栏CSDNToQQCode

    数据面试题【十三、数据查询,怎么优化】

    优化shema、sql语句+索引; 第二加缓存,memcached, redis; 主从复制,读写分离; 垂直拆分,根据你模块的耦合度,将一个的系统分为多个小的系统,也就是分布式系统; 水平切分 ,针对数据量大的表,这一步最麻烦,最能考验技术水平,要选择一个合理的sharding key, 为了有好的查询效率,表结构也要改动,做一定的冗余,应用也要改,sql中尽量带sharding key,将数据定位到限定的表上去查

    82810编辑于 2022-11-28
  • 来自专栏全栈程序员必看

    JDK8新特性_JDK8面试题

    JDK8新特性 lambda表达式 要求:接口必须是函数式接口,一个接口如果只有一个抽象方法,那他就是函数式接口,我们可以在一个接口上使用__Functionallnterface__注解 package 与大括号若都有,均可省略 Comparator<Integer> con2 = (o1,o2) -> o1.compareTo(o2); } } java内置4核心函数式接口 ,与CPU打交道,集合关注的是数据,与内存打交道 Stream自己不会存储内存。 操作是延迟执行的,等到需要的结果的时候才会执行 Stream执行流程:1.Stream实例化2.一系列中间操作3.终止操作 说明: 一个中间操作链,对数据源的数据进行处理 一旦执行终止操作,就执行中间操作链 可以将流中的元素反复结合起来,得到一个值,返回一个T // 练习:计算1-10自然数的和 List<Integer> list = Arrays.asList(1,2,3,4,5,6,7,8,9,10

    1.2K40编辑于 2022-09-21
  • 来自专栏章工运维

    k8s面试题

    什么是Kubernetes(k8s)?它的主要功能是什么? Kubernetes(简称 k8s)是一个开源的容器编排平台,用于自动化应用程序的部署、扩展和管理。

    70111编辑于 2023-05-19
  • 来自专栏CDA数据分析师

    数据在企业运营中的8落地应用

    制造,即运营管理是供应链的四环节之一,负责规划,组织,管理所有制造产品所需要的资源,包括设备,人力,技术,流程,信息等。 笔者结合自己企业的发展和管理,以及大量客户和机构的研究与实践,提出了大数据在企业运营管理过程中可落地的八应用场景: 1消费者需求分析 很多企业管理者都意识到了消费者再也不是营销产品的被动接收器了,通过大数据来了解并设计消费者的需求的产品 借助大数据,我们对采集来的企业内部(内源数据),例如销售网点的数据,消费者直接反馈等,与外部数据(外源数据),例如社交媒体的评论,描述产品用途的传感器数据等,通过微观细分,情感分析,消费者行为分析以及基于位置的营销等手段 利用大数据的实时数据分析,将数字勾勒出来的消费者偏好转化成为有形的产品特点,利用数据设计产品,实现研发与运营共享数据,共同参与产品设计的改进和调整。 这一切都源自于100%数据驱动的,尽可能避免主观判断和推测。 8资产智能管理 物联网(IOT)的发展以及感应技术的兴起,为我们开创了一个能紧密连接物理空间许多事物的信息网络。

    3.4K60发布于 2018-02-24
  • YashanDB数据库的8技术亮点与实践

    YashanDB 是一种新兴的数据库解决方案,具有多项技术亮点和实际应用价值。以下是 YashanDB 的八技术亮点与实践:1. 高性能和低延迟:YashanDB 采用了高效的数据存储和索引算法,能够提供极高的查询性能和低延迟响应。这使得它在高并发场景下仍能保持快速的数据处理能力。2. 智能的数据分片:YashanDB 具备自动数据分片的能力,能够根据数据的热点和负载情况进行动态调整,确保负载均衡和资源的高效利用。7. YashanDB 的生态系统支持与流行的大数据和机器学习框架集成,便于数据分析和处理。8. 安全性和数据隐私:YashanDB 提供了多层次的安全机制,包括数据加密、访问控制和审计日志等,确保数据在存储和传输过程中的安全性,同时满足行业合规要求。

    11610编辑于 2025-11-20
  • 来自专栏CSDNToQQCode

    数据面试题【十一、InnoDB引擎的4特性】

    1、插入缓冲(insert buffer) 2、二次写(double write) 3、自适应哈希索引(ahi) 4、预读(read ahead)

    35120编辑于 2022-11-28
  • 来自专栏GEE数据专栏,GEE学习专栏,GEE错误集等专栏

    Landsat 8 Landsat8 Collection2气层顶反射率数据

    简介 Landsat8 TOA数据集是将数据每个波段的辐射亮度值转换为大气层顶表观反射率TOA,是飞行在大气层之外的航天传感器量测的反射率,包括了云层、气溶胶和气体的贡献,可通过辐射亮度定标参数、太阳辐照度 数据集ID: LC08/02/T1 时间范围: 2022年01月-现在 范围: 全国 来源: USGS 复制代码段: var images = pie.ImageCollection("LC08/02 collection2 TOA影像 */ // 加载Landsat 8 TOA影像 var landsat8 = pie.ImageCollection("LC08/02/T1") Map.addLayer(landsat8,{min:0.05,max:0.3,bands:["B4","B3","B2"]},"Landsat8-TOA"); Map.centerObject(landsat8,7 landsat_product_id string 影像名称 scene_id string 影像id correction string 产品级别 collection_number string 数据集编号

    50000编辑于 2024-05-24
  • 来自专栏痴心阿文的专栏

    子元素相对父元素垂直居中的8方法,CSS面试题常考

    DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-<em>8</em>" /> <meta name="viewport" content body>

    </body> </html>  子元素相对父元素垂直居中的8方法 ,CSS面试题常考,上面是基本代码样式,下面是方法整理如下,话不多说,肝着!

    1.2K30编辑于 2022-11-21
  • 来自专栏前端技术分享小合集

    8月总结高频vue面试题

    ,该层向上与视图层进行双向数据绑定,向下与 Model 层通过接口请求进行数据交互,起呈上启下作用 (1)View 层 View 是视图层,也就是用户界面。 (2)Model 层 Model 是指数据模型,泛指后端进行的各种业务逻辑处理和数据操控,对于前端来说就是后端提供的 api 接口。 在这一层,前端开发者对从后端获取的 Model 数据进行转换处理,做二次封装,以生成符合 View 层使用预期的视图数据模型。 数据流动单向,都支持服务器的渲染SSR 4. 都有支持native的方法,react有React native, vue有wexx => 不同点: 1.数据绑定:Vue实现了双向的数据绑定,react数据流动是单向的 2.数据渲染:大规模的数据渲染

    72640编辑于 2022-08-04
  • 来自专栏全栈程序员必看

    HashMap常见面试题_java面试题汇总

    8.数组扩容的过程? 9.拉链法导致的链表过深问题为什么不用二叉查找树代替,而选择红黑树?为什么不一直使用红黑树? 10.说说你对红黑树的见解? 11.jdk8中对HashMap做了哪些改变? 1.HashMap的数据结构? 哈希表结构(链表散列:数组+链表)实现,结合数组和链表的优点。当链表长度超过8时,链表转换为红黑树。 2.HashMap的工作原理? 因为位运算直接对内存数据进行操作,不需要转成十进制,所以位运算要比取模运算的效率更高 第二:当length为2的N次方的时候,数据分布均匀,减少冲突 那么为什么默认是16呢?怎么不是4?不是8? 比如某些人通过找到你的hash碰撞值,来让你的HashMap不断地产生碰撞,那么相同key位置的链表就会不断增长,当你需要对这个HashMap的相应位置进行查询的时候,就会去循环遍历这个超级的链表,性能及其地下 java8使用红黑树来替代超过8个节点数的链表后,查询方式性能得到了很好的提升,从原来的是O(n)到O(logn)。

    58220编辑于 2022-09-22
  • 来自专栏灯塔大数据

    8数据看2016车市风水流转

    2016年中国汽车产销均超2800万辆,连续8年蝉联全球第一。而在另一半球的美国,2016全年销量约为1754万辆,保持了7年的连续增长。 在美国,皮卡和SUV支撑车市主要数据。《美国汽车新闻》的新年评论中悲观地认为:“这种增长在2017年很难持续,因为低油价即将结束,皮卡和SUV的好日子不多了。” SUV在多年连续高速增长之后再次全线飘红,据乘用联的数据,去年SUV市场全年销量高达902.3万辆,占乘用车销量的38.2%,增速高达47.1%! 汉兰达的热卖、7座SUV途观L的推出都是信号。 6 .2%B级车现颓势市占比创新低 今年合资品牌B级车表现一般,市场的动荡让B级车局被动混乱。 今年车辆购置税优惠幅度也正式由5%退坡至2.5%,对于A级车来说也是一挑战,车厂如何迎战?我们拭目以待。 84%新能源车销量增幅突飞猛进 根据乘联会发布的2016年新能源汽车市场的销售情况。

    80550发布于 2018-04-08
  • 数据清洗怎么做?一文总结8数据清洗方法

    数据清洗就是把原始数据里的错误改掉、把格式标准统一、补齐缺失的部分,最终让数据完整、统一、真实有效,能直接拿来分析、建模。 很多人花大量时间研究模型、算法,可真到了实际项目里,卡住他们的往往不是模型选的对不对,而是数据不干净、不能用。今天我给大家总结了最实用的8数据清洗方法,能帮你解决绝大多数场景下的数据问题。 二、处理重复数据数据重复是数据整合、多源采集过程中的高频问题,同一数据记录多次录入、多平台同步冗余,会直接导致数据统计失真、计算结果偏大。 数据类型转换,就是将数据统一为标准格式、规范数据类型,让数据具备可计算、可匹配、可分析的基础属性。 五、标准化与归一化实际数据中,不同字段的数值范围、量纲差异极大,比如身高以厘米为单位、收入以元为单位,数值跨度差距很大,这类数据直接用于分析或建模,会导致数值的字段占据主导地位,影响结果公平性。

    1K10编辑于 2026-03-19
  • 来自专栏Java研发军团

    Java的8数据结构面试题(附答案),你会几道?

    有些面试题会明确提及某种数据结构,例如,“给定一个二叉树。”而另一些则隐含在面试题中,例如,“我们希望记录每个作者相关的书籍数量。” 即便是对于一些非常基础的工作来说,学习数据结构也是必须的。 什么是数据结构? 简单地说,数据结构是以某种特定的布局方式存储数据的容器。这种“布局方式”决定了数据结构对于某些操作是高效的,而对于其他操作则是低效的。 数据是计算机科学当中最关键的实体,而数据结构则可以将数据以某种组织形式存储,因此,数据结构的价值不言而喻。 关注Java技术栈微信公众号,回复"面试"获取更多博主精心整理的面试题。 关注Java技术栈微信公众号,回复"面试"获取更多博主精心整理的面试题。 链表就像一个节点链,其中每个节点包含着数据和指向后续节点的指针。

    3.8K10发布于 2019-06-05
  • 来自专栏Java,后端开发,网站开发,数据结构,算法分析.

    数据结构-8.Java. 七排序算法(上篇)

    内部排序 :数据元素全部放在内存中的排序。 外部排序 :数据元素太多不能同时放在内存中,根据排序过程的要求不能在内外存之间移动数据的排序。 1.3 常见的排序算法 2. 遍历数组, 在内循环中, tmp 与 array[ j ] 进行比较,, 若是 tmp 小 则 [ j + 1] = [ j ]; 若是 tmp 则 直接 break; 3. 稳定性:不稳定 2.2.3 堆排序 堆排序 (Heapsort) 是指利用堆积树(堆)这种数据结构所设计的一种排序算法,它是选择排序的一种。它是通过堆来进行选择数据。 int end) { int child = (parent*2)+1; while(child < end) { //保证右子树存在并且当右子树的时候 parent = child; child = parent*2+1; }else { //本身就是根堆

    28010编辑于 2024-11-20
  • 来自专栏灯塔大数据

    2016年数据专家值得期待的8件事

    当然,这在聘用大数据专家时也一样奏效。数据质量总监、软件工程师、平台软件工程师、数据库工程师、大数据平台工程师,安全分析师,分析师和信息系统开发管理工作这些职位都需要精通大数据。 很明显,大数据在接下来的发展的中将变成“更大的”数据。 ? 在此列举八件2016年数据专家值得期待的事: 1. 而在加利福尼亚州,大数据工作是最吃香的。尤其在湾区的弗里蒙特、桑尼维尔、奥克兰、三藩、圣克拉 拉和圣若泽。 3. 销售代表一职的需求量 “暴涨”这个词常拿来形容大数据解决方案的销量。 更多行业将用到大数据 多个行业将需要大数据专家,比如:制造业、金融保险业、零售业、信息技术,以及其他科学及技术服务业。专家们认为,像制造业这样的垂直市场的投资回报率是最高的。 8. 大数据是量化的主观事物 2016年会有越来越多的有关大数据的职位,因为大数据本身每年都在不断的更新。它不只是用来处理数据,或者解释人们暗号交流这样的非语言交际线索(比如声音、手势和表情)。

    52160发布于 2018-04-10
领券