首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏最新最全的大数据技术体系

    11月数据面试题复习

    1)从 high-level 的角度来看,两者并没有的差别。 Spark中的数据本地性有三种:   1)PROCESS_LOCAL是指读取缓存在本地节点的数据   2)NODE_LOCAL是指读取本地节点硬盘数据3)ANY是指读取非本地节点数据   当表和小表join时,用map-side join能显著提高效率。 不一定,当数据规模小,Hash shuffle快于Sorted Shuffle数据规模的时候;当数据量大,sorted Shuffle会比Hash shuffle快很多,因为数量大的有很多小文件,不均匀 ,甚至出现数据倾斜,消耗内存,1.x之前spark使用hash,适合处理中小规模,1.x之后,增加了Sorted shuffle,Spark更能胜任大规模处理了。

    92912编辑于 2021-12-06
  • 来自专栏听雨堂

    测试数据——猜想验证(3

    数据,不妨测试一下,非常有趣: 1.各个信用等级的逾期率 其他的都比较符合预期,但A的偏高,我也很纳闷,把数据调出来,从高到低排是这样的: 借的量巨大,一旦逾期,在整个逾期率的计算中必然拖累整体。 看来数据没啥毛病。将来对选择标的进行模拟时,如果加上金额限制,同样没啥问题。如限制借款上限为6000,则逾期率就降低很多: 2.性别,女人比男人靠谱 3.借期,6月和12月是主体,但6月明显逾期率低。

    1.2K100发布于 2018-01-23
  • 来自专栏算法研习社

    海量数据面试题总结(3)-多层桶划分

    本系列文章对海量数据面试题进行了归类和总结,给出海量数据处理问题的通用解决思路,后面附有例题,希望大家能够举一反三。 往期回顾: 海量数据面试题总结(1)-Hash映射+Hash统计+归并排序 海量数据面试题总结(2)-BitMap 模式三:多层桶划分 一、解决思路: 多层桶划分,本质思想还是分而治之,可以认为是BitMap (1) 如果数据类型为int16,首先申请一块2^16个bit的内存区域,然后将5亿个数依次划分到这些区域中,依次统计落到各个区域里的数的个数,之后我们根据计算出中间位置的数应该落到那个区域,同时知道这个区域的第几个数刚好是中位数 (2) 实际上,如果不是int16而是int64,2^64个Bit在内存中是存不下的,但可以经过3次划分降低到可以计算的程度。

    63620发布于 2020-07-20
  • 来自专栏技术翻译

    数据Python:3数据分析工具

    pd.read_csv('access_logs_parsed.csv', quotechar="'", names=headers) 大约一秒后它应该回复: [6844 rows x 4 columns] In [3] 15 +000... 2 2018-08-01 17:10 www2 www_access 108.162.238.234 - - [01/Aug/2018:17:10:22 +000... 3 admintome resolves to a loopback address: 127.0.1.1; using 192.168.1.153 instead (on interface enp0s3) --------+----+----------+--------------------+ | _c0| _c1| _c2| _c3| 原文标题《Big Data Python: 3 Big Data Analytics Tools》 作者:Bill Ward 译者:February 不代表云加社区观点,更多详情请查看原文链接

    5K20发布于 2018-12-13
  • 来自专栏CSDNToQQCode

    数据面试题【十三、数据查询,怎么优化】

    优化shema、sql语句+索引; 第二加缓存,memcached, redis; 主从复制,读写分离; 垂直拆分,根据你模块的耦合度,将一个的系统分为多个小的系统,也就是分布式系统; 水平切分 ,针对数据量大的表,这一步最麻烦,最能考验技术水平,要选择一个合理的sharding key, 为了有好的查询效率,表结构也要改动,做一定的冗余,应用也要改,sql中尽量带sharding key,将数据定位到限定的表上去查

    82810编辑于 2022-11-28
  • 来自专栏小数志

    3数据分析师面试题实录

    导读 今天参加了一场数据分析师面试,遴选3道记录以资后鉴。 1. SQL求两表差集 ? not exists (SELECT 1 FROM B WHERE A.id=B.id) 用子查询实现逻辑简单,语句更为直接,但执行效率一般较差,至于用in还是exists又要取决于索引情况和A、B两表数据规模情况 第9轮竞技 经过此轮,能得到很多信息量: 第1名是总冠军,且其原来所在组的2-4名均可能是总排名前4 第2、3、4名所在组仅需分别保留3-2-1匹马作为总排名前4的候选空间 此时问题转化为9选3 9匹马中 第10轮,选出最终2-3-4名 最终,总轮次仅需10-11轮。 3. 业务异常点分析 业务面中,遇到了一个经典的异常业务数据分析题,虽然是一道主观题,但实际上也是有框架的,不幸的是自己当时陷入了分析陷阱中:想当然的顺着面试官的暗示,将这个问题归结为一定是异常,然后展开具体分析

    1K10发布于 2020-06-09
  • 来自专栏全栈程序员必看

    Java面试题3

    发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/110115.html原文链接:https://javaforall.cn

    18610编辑于 2022-07-05
  • 来自专栏数据科学与人工智能

    3月20日数据动态早报 | 健康,大数据

    数据动态早报,让您了解数据新变化、新创造和新价值。 一、通信行业数据动态 1 5G网络一旦正式商用,除了会使通信业进入新一轮发展期外,还将带动多个规模万亿级别的新兴产业。 多个市场机构预测,车联网、大数据、云计算、智能家居、无人机等典型的物联网细分行业,在技术和应用层面上已相当成熟,但现有4G网络的通讯能力大大限制了上述产业的发展。 【腾讯科技】 二、电子商务数据动态 1 所谓新零售就是个性化地提供服务,线上、线下形式不重要,本质是从传统的品牌、商品、通路、营销等大规模、工业化和大众化转向个性化定制服务。 【南方都市报】 三、互金行业数据动态 1 宜人贷发布金融科技能力共享平台,将向行业内其他机构输出“数据获取”“反欺诈”“精准获客”三能力,解决目前普遍存在的投资人信用意识薄弱、权威信用评级缺失和团伙欺诈等问题 【人民日报】 四、医疗健康数据动态 1 中国数亿人群日常工作繁忙,节奏极快,身体或多或少处于亚健康状态,存在强大的养生刚需。【大公网】

    78170发布于 2018-02-28
  • 来自专栏CSDNToQQCode

    数据面试题【十一、InnoDB引擎的4特性】

    1、插入缓冲(insert buffer) 2、二次写(double write) 3、自适应哈希索引(ahi) 4、预读(read ahead)

    35120编辑于 2022-11-28
  • 来自专栏用户5305560的专栏

    面试题3):Python基础

    data = { 'a_b_h':1, 'a_b_i':2, 'a_c_j':3, 'a_d':4, 'a_c_k':5, 'a_e':6 } new_data 'a':{ 'b':{ 'h':1, 'i':2 }, 'c':{ 'j':3, 根据这个思路,初步代码如下: data = { 'a_b_h':1, 'a_b_i':2, 'a_c_j':3, 'a_d':4, 'a_c_k':5, 如果使用字典引用的特性是合格分的话,那么当你用出 setdefault 这个方法后,面试官已经给你打了优秀,因此一定要熟悉基础数据对象的所有内置方法。

    32230发布于 2021-08-11
  • 来自专栏java金融

    Java基础面试题3

    答:如果数据将在线程间共享。例如正在写的数据以后可能被另一个线程读到,或者正在读的数据可能已经被另一个线程写过了,那么这些数据就是共享数据,必须进行同步存取。

    49420发布于 2020-08-05
  • 来自专栏python3

    3、文件管理-面试题

    /lib64/libc.so.6 3、-p 4、ln -s 5、pwd 6、 [root@centos7 tmp]# mkdir dic 7、cp -a; 将alias cp='cp -a'写入vim ~]# sed 's/test/good/g' /home/test/ct -i
    20、 [root@centos7 tmp]# ls -hl 总用量 1012M drwxr-xr-x. 3 991M 0 991M 0% /sys/fs/cgroup /dev/sda1 1014M 166M 849M 17% /boot /dev/sda3

    47210发布于 2020-01-10
  • 来自专栏全栈程序员必看

    HashMap常见面试题_java面试题汇总

    目录 1.HashMap的数据结构? 2.HashMap的工作原理? 3.当两个对象的hashCode相同会发生什么? 4.你知道hash的实现吗?为什么要这样实现? 5.为什么要用异或运算符? 3.当两个对象的hashCode相同会发生什么? 因为hashCode相同,不一定就是相等的(equals方法比较),所以两个对象所在数组的下标相同,”碰撞”就此发生。 比如某些人通过找到你的hash碰撞值,来让你的HashMap不断地产生碰撞,那么相同key位置的链表就会不断增长,当你需要对这个HashMap的相应位置进行查询的时候,就会去循环遍历这个超级的链表,性能及其地下 使用链地址法(使用散列表)来链接拥有相同hash值的数据; 2. 使用2次扰动函数(hash函数)来降低哈希冲突的概率,使得数据分布更平均; 3. ③、存储对象时(put()方法): 1.如果没有初始化,就调用initTable()方法来进行初始化; 2.如果没有hash冲突就直接CAS无锁插入; 3.如果需要扩容,就先进行扩容;

    58220编辑于 2022-09-22
  • 来自专栏华章科技

    3道TMD热门数据分析面试题,我们帮你解了

    某顶尖外卖平台数据分析师面试题 现有交易数据表user_goods_table如下: user_name 用户名 goods_kind 用户订购的的外卖品类 现在老板想知道每个用户购买的外卖品类偏好分布 某顶尖支付平台数据分析面试题 现有交易数据表user_sales_table如下: user_name 用户名 pay_amount 用户支付额度 现在老板想知道支付金额在前20%的用户。 by sum(pay_amount) desc) as level from user_sales_table group by user_name ) b where b.level = 1 3. 某顶尖小视频平台数据分析面试题 现有用户登陆表user_login_table如下: user_name 用户名 date 用户登陆时间 现在老板想知道连续7天都登陆平台的重要用户 where b.date is not null and date_sub(cast(b.date as date,7)) = cast(b.date_7 as date) 03 总结 本文分别从3数据分析面试题了解了窗口函数的实际应用场景

    49010发布于 2019-12-11
  • 来自专栏Node.js开发

    Promise面试题3控制并发

    在写这篇文章的时候我有点犹豫,因为先前写过一篇类似的,一道关于并发控制的面试题,只不过那篇文章只给出了一种解决方案,后来在网上又陆续找到两种解决方案,说来惭愧,研究问题总是浅尝辄止,所以今天便放在一起 ,借着这道面试题再重新梳理一下。 但是我们要求,任意时刻,同时下载的链接数量不可以超过 3 个。 请写一段代码实现这个需求,要求尽可能快速地将所有图片下载完成。 ++; console.log("并发数:",count) //条件判断,urls长度大于0继续,小于等于零说明图片加载完成 if(urls.length>0&&count<=3) { request(); } } function async1(){ for(var i=0;i<3;i++){ request(); } }

    2.9K31发布于 2019-07-19
  • 来自专栏java学习

    关于Spring面试题讲解3

    所以开发者只需写statements 和 queries从数据存取数据,JDBC也可以在Spring框架提供的模板类的帮助下更有效地被使用,这个模板叫JdbcTemplate (例子看43) 43. JdbcTemplate JdbcTemplate 类提供了很多便利的方法解决诸如把数据数据转变成基本数据类型或对象,执行写好的或可调用的数据库操作语句,提供自定义的数据错误处理。 44. Spring对DAO的支持 Spring对数据访问对象(DAO)的支持旨在简化它和数据访问技术如JDBC,Hibernate or JDO结合使用。这使我们可以方便切换持久层。 它和Spring各种数据访问抽象层很好得集成。 50. 你更倾向用那种事务管理类型? ⊙面试题68(加深你对栈的理解_让你知道什么是栈) ⊙来测试一下你对数据结构中的栈和队列的了解有多少? ⊙面试题63(链表,哈希表) ⊙ 请你对Java中树的了解有多少? ⊙ 这个培训机构怎么?

    53120发布于 2018-07-25
  • 来自专栏计算机工具

    python 面试题--3(15题)

    示例: my_list = [1, 2, 3, 4] iterable = iter(my_list) # 获取迭代器 print(next(iterable)) # 输出: 1 print(next (iterable)) # 输出: 2 print(next(iterable)) # 输出: 3 在上面的示例中,my_list是一个可迭代对象,可以使用iter()函数获取它的迭代器iterable 生成器中的出就像数据结构中的出栈一样,出栈的多少取决于你栈里面有多少,栈里面出完了也就变成空了,什么都没有了。像装了稻谷的袋子一样,倒出的时候不可能无限的倒出稻谷,只能倒出袋子中原有的稻谷。 列表可以在每个索引处填充不同类型的数据。 数组需要同构元素。 列表上的算术运算可从列表中添加或删除元素。 数组上的算术运算按照线性代数方式工作。 列表还使用更少的内存,并显著具有更多的功能。 Dict是Python的一种数据类型,是经过索引但无序的键和值的集合。 JSON只是一个遵循指定格式的字符串,用于传输数据。 模块(module)和包(package)有什么区别?

    37510编辑于 2024-12-14
  • 来自专栏对线JAVA面试

    3道Redis高频面试题

    本文分享一下Redis几道常见的面试题: 缓存雪崩 1.1什么是缓存雪崩? 如果我们的缓存挂掉了,这意味着我们的全部请求都跑去数据库了。 缓存与数据库双写一致 3.1对于读操作,流程是这样的 如果我们的数据在缓存里边有,那么就直接取缓存的。 如果缓存里没有我们想要的数据,我们会先去查询数据库,然后将数据库查出来的数据写到缓存中。 最后将数据返回给请求。 3.2什么是缓存与数据库双写一致问题? 如果仅仅查询的话,缓存的数据数据库的数据是没问题的。但是,当我们要更新时候呢?各种情况很可能就造成数据库和缓存的数据不一致了。 这里不一致指的是:数据库的数据跟缓存的数据不一致 从理论上说,只要我们设置了键的过期时间,我们就能保证缓存和数据库的数据最终是一致的。因为只要缓存数据过期了,就会被删除。 随后读的时候,因为缓存里没有,就可以查数据库的数据,然后将数据库查出来的数据写入到缓存中。 除了设置过期时间,我们还需要做更多的措施来尽量避免数据库与缓存处于不一致的情况发生。

    24810编辑于 2022-10-27
  • 来自专栏墨白的Java基地

    面试题-----五框架总结!!!

    2、请求经过过滤器 3、再被Struts调用,通过Struts2的核心配置文件决定调用某个action 三、hibernate的特点 1、轻量级的框架 2、是持久层框架 3、内置简单的sql语句 4、 是实体类与数据库表字段的关系型映射 5、移植性强 6、全自动 四、mybatis的特点 1、手动编写sql语句 2、动态实现sql 3、是实体类与sql语句的关系映射 4、也是持久层框架 5、半自动 五 、hibernate与mybatis的区别 1、数据库表数量较多,需要批量处理 推荐使用mybatis框架 2、数据库表结构复杂,推荐使用mybatis框架 3、人员方面不是经常使用hibernate的情况下 ,使用mybatis框架简单易学 六、mybatis 工作原理 1、加载mybatis全局配置文件(数据源、mapper映射文件等),解析配置文件,MyBatis基于XML配置文件生成Configuration 3、SqlSession对象完成和数据库的交互: a、用户程序调用mybatis接口层api(即Mapper接口中的方法) b、SqlSession通过调用api的Statement ID找到对应的MappedStatement

    79840发布于 2019-09-19
  • 来自专栏python3

    网管面试题3-windows

    3)读取和运行:这也是NTFS文件和文件夹都拥有的一个标准权限,包含读和列出文件夹内容的所有操作。 SUS需要客户端安装自动更新客户程序,该程序已经包括在Windows 2000 SP3/SP4、Windoiws XP SP1中了。

    1.7K10发布于 2020-01-07
领券