搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏最新最全的大数据技术体系
11月大数据面试题复习
1）从 high-level 的角度来看，两者并没有大的差别。 11、Spark为什么要持久化，一般什么场景下要进行persist操作？为什么要进行持久化？当大表和小表join时，用map-side join能显著提高效率。不一定，当数据规模小，Hash shuffle快于Sorted Shuffle数据规模大的时候；当数据量大，sorted Shuffle会比Hash shuffle快很多，因为数量大的有很多小文件，不均匀，甚至出现数据倾斜，消耗内存大，1.x之前spark使用hash，适合处理中小规模，1.x之后，增加了Sorted shuffle，Spark更能胜任大规模处理了。
92912编辑于 2021-12-06
来自专栏数据结构与算法
11:大整数减法
11:大整数减法查看提交统计提问总时间限制: 1000ms 内存限制: 65536kB描述求两个大的正整数相减的差。输入共2行，第1行是被减数a，第2行是减数b(a > b)。 char a[10001]; 6 char b[10001]; 7 int a1[10001]; 8 int b1[10001]; 9 int c[10001]; 10 int main() 11
1.4K100发布于 2018-04-11
来自专栏全栈程序员必看
淘宝双11大数据分析（数据可视化）
文章目录前言本篇环境结果展示项目结构前言这一篇是最终篇，也是展示数据分析之后的结果的一篇。其他文章：淘宝双11大数据分析（环境篇）淘宝双11大数据分析（数据准备篇）淘宝双11大数据分析（Hive 分析篇-上）淘宝双11大数据分析（Hive 分析篇-下）淘宝双11大数据分析（Spark
5.8K20编辑于 2022-09-14
来自专栏历史专栏
【愚公系列】2021年11月 Elasticsearch数据库-面试题
Elasticsearch面试题文章目录 Elasticsearch面试题 1、Elasticsearch是如何实现master选举的？ 11、Elasticsearch了解多少，说说你们公司es的集群架构，索引数据大小，分片有多少，以及一些调优手段。 12、Elasticsearch 索引数据多了怎么办，如何调优，部署？ 11、Elasticsearch了解多少，说说你们公司es的集群架构，索引数据大小，分片有多少，以及一些调优手段。这样做的好处：不至于数据量激增导致单个索引数据量非常大，接近于上线2的32次幂-1，索引存储达到了TB+甚至更大。一旦单个索引很大，存储等各种风险也随之而来，所以要提前考虑+及早避免。数据结构优缺点 Array/List 使用二分法查找，不平衡 HashMap/TreeMap 性能高，内存消耗大，几乎是原始数据的三倍 Skip List 跳跃表，可快速查找词语，在lucene,redis
1.4K10编辑于 2021-12-03
来自专栏PPV课数据科学社区
大数据挖掘中易犯的11大错误
按照Elder博士的总结，这11大易犯错误包括： 0.缺乏数据(LackData) 1.太关注训练(FocusonTraining) 2.只依赖一项技术(RelyonOneTechnique) 3.提错了问题如果数据+工具就可以解决问题的话，还要人做什么呢4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。给数据加上时间戳，避免被误用。 6.抛弃了不该忽略的案例(DiscountPeskyCases) IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”? ，而是“这就有点奇怪了……” 　　数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。　　 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了) 　　解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。
71870发布于 2018-04-20
来自专栏PPV课数据科学社区
【译文】关于数据科学难以忽视的11大真相
. 9、Presentation is key - be a master of Power Point. 10、All models are false, but some are useful. 11 You need to get your hands dirty. 1、数据都是没有清洗过的。 2、你总是需要花费大量的时间准备和清洗数据。 3、 95%的任务不需要深度学习。 11、没有完全自动化的数据科学。很多你需要人工手动操作。翻译：lily PPV课原创编译转载请注明出处原文链接：http://www.ppvke.com/Answer/? 2、回复“答案”查看大数据Hadoop面试笔试题及答案 3、回复“设计”查看这是我见过最逆天的设计，令人惊叹叫绝 4、回复“可视化”查看数据可视化专题-数据可视化案例与工具 5、回复“禅师”查看当禅师遇到一位理科生知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、
81070发布于 2018-04-20
来自专栏华章科技
干货：数据挖掘中易犯的11大错误
11大易犯错误——Elder博士 0. 缺乏数据（Lack Data） 1. 太关注训练（Focus on Training） 2. 如果数据＋工具就可以解决问题的话，还要人做什么呢？ 4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。给数据加上时间戳，避免被误用。 6. 抛弃了不该忽略的案例（Discount Pesky Cases） IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”？，而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。（问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了）解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。 10.
29220发布于 2018-08-13
来自专栏全栈前端精选
11个棘手的JavaScript面试题
/javascript-in-plain-english/do-you-know-javascript-1f2b44461333 翻译 | web前端开发（ID：web_qdkf) 在本文中，将分享11 11、导入&&导出输出是什么？
1.4K10发布于 2021-01-28
来自专栏爪哇缪斯
面试题11：引用级别有哪些？
在Java中，引用级别一共有四种，分别为：强引用就是一般程序中的引用，例如 Student student = new Student(); ---- 软引用（java.lang.ref.SoftReferenct）当堆空间不足时，才会被回收。因此，软引用对象不会引起内存溢出。示例如下所示： ---- 弱引用（java.lang.ref.WeakReferenct）当GC的时候，只要发现存在弱引用，无论系统堆空间是否不足，均会将其回收。示例如下所示： ---- 虚引用（java.
22710编辑于 2023-05-09
来自专栏CSDNToQQCode
数据库面试题【十三、大表数据查询，怎么优化】
优化shema、sql语句+索引；第二加缓存，memcached, redis；主从复制，读写分离；垂直拆分，根据你模块的耦合度，将一个大的系统分为多个小的系统，也就是分布式系统；水平切分，针对数据量大的表，这一步最麻烦，最能考验技术水平，要选择一个合理的sharding key, 为了有好的查询效率，表结构也要改动，做一定的冗余，应用也要改，sql中尽量带sharding key，将数据定位到限定的表上去查
82810编辑于 2022-11-28
来自专栏灯塔大数据
必看：大数据挖掘中易犯的11大错误
4 只靠数据来说话(Listen(only)totheData) IDMer：“让数据说话”没有错，关键是还要记得另一句话：兼听则明，偏听则暗！如果数据+工具就可以解决问题的话，还要人做什么呢？ 4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。 4b.经过设计的实验：某些实验设计中掺杂了人为的成分，这样的实验结果也常不可信。给数据加上时间戳，避免被误用。 6 抛弃了不该忽略的案例(DiscountPeskyCases) IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”？，而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了) 解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。
67370发布于 2018-04-09
来自专栏PPV课数据科学社区
世界杯11大数据:20位前冠军出战
随着全部32支参赛队的23人名单基本敲定，国际足联官方列出本届杯赛的11大数据，本届杯赛共有236人参加过世界杯，包括20位前冠军，最年轻及最年长的球队分别是加纳和阿根廷，所有球员的平均年龄为岁零1个月，是本届杯赛最年轻的球员，也有望成为世界杯历史第9年轻的球员，但即便是喀麦隆历史，也有3名球员出征世界杯时比他年轻，分别是埃托奥（17岁零3个月）、奥莱姆贝（17岁零6个月）以及宋（17岁零11
74460发布于 2018-04-19
来自专栏学习内容
常见面试题整理(2022-11)
采用分片处理： 2、大Key和大value危害及处理内存不均：单value较大时，可能会导致节点之间的内存使用不均匀，间接地影响key的部分和负载不均匀；阻塞请求：redis为单线程，单value较大读写需要较长的处理时间大key的风险：读写大key会导致超时严重，甚至阻塞服务。如果删除大key，DEL命令可能阻塞Redis进程数十秒，使得其他请求阻塞，对应用程序和Redis集群可用性造成严重的影响。 redis使用会出现大key的场景：单个简单key的存储的value过大； hash、set、zset、list中存储过多的元素。将大key进行分割，为了均匀分割，可以对field进行hash并通过质数N取余，将余数加到key上面，我们取质数N为997。缺点循环时间长，开销大。只能保证1个共享变量的原子操作。会有ABA问题。 spring boot中的start装载上去的。实现MyBatis的自动。
36920编辑于 2023-08-10
来自专栏从零开始学自动化测试
关于面试总结11-selenium面试题
面试web自动化必然会问到selenium，问selenium相关的问题定位是最基本的，也是自动化的根本，所以面试离不开元素定位问题。之前看到招聘要求里面说“只会复制粘贴xpath的就不要投简历了”，说明面试官对求职者的自动化能力要求不能停留在复制粘贴上。还是那句话，想学自动化的话，需牢记：录制穷三代，复制毁一生！
4.1K21发布于 2019-01-02
来自专栏猴子聊数据分析
图解面试题：双11用户如何分析？
表如下：问题：生成一张临时表（表名：用户登录表），表中呈现四列数据分别为：姓名，最后登录时间，登录时间排名，登录天数排名要求： 1. 4.考察时间格式的数据如何灵活转换，用date_format(date,format)根据format的指定的格式显示date值。【举一反三】下表是双十一客户购买清单表。
2.4K00发布于 2020-06-01
来自专栏程序员千羽
剑指offer | 面试题11：矩阵覆盖
死磕算法系列文章干货 | 手撕十大经典排序算法剑指offer | 认识面试剑指offer | 面试题2：实现Singleton模式剑指offer | 面试题3：二维数组的查找剑指offer | 面试题4：替换空格剑指offer | 面试题5：从尾到头打印链表剑指offer | 面试题6：重建二叉树剑指offer | 面试题7：用两个栈实现队列剑指offer | 面试题8：旋转数组的最小数字 _RectCover/Solution.java 剑指 Offer 11. 请问用 n 个 2X1 的小矩形无重叠地覆盖一个 2Xn 的大矩形，总共有多少种方法？ _11_RectCover; /** * @date Created by 邵桐杰 on 2021/11/20 11:26 * @微信公众号程序员千羽 * @个人网站 www.nateshao.cn
35820编辑于 2021-12-29
来自专栏数据饕餮
数据仓库专题（7）-维度建模11大基本原则
遵循这些原则进行维度建模可以保证数据粒度合理，模型灵活，能够适应未来的信息资源，违反这些原则你将会把用户弄糊涂，并且会遇到数据仓库障碍。本文适用于多维建模，不使用于3NF建模。用户想要掩盖哪些数据，想要显示哪些数据，如果只有汇总数据，那么你已经设定了数据的使用模式，当用户想要深入挖掘数据时他们就会遇到障碍。当然，原子数据也可以通过概要维度建模进行补充，但企业用户无法只在汇总数据上工作，他们需要原始数据回答不断变化的问题。原则9、创建一致的维度集成整个企业的数据　　对于企业数据仓库一致的维度，是最基本的原则，在ETL系统中管理一次，然后在所有事实表中都可以重用，一致的维度在整个维度模型中可以获得一致的描述属性，可以支持从多个业务流程中整合数据原则11、基于OLAP分析各操作进行维度设计指导从结果反思设计过程，基于OLAP钻取、上钻、下钻、切片、切块的业务需求，设计你的维度模型。三、未完待续
2.2K30发布于 2019-01-14
来自专栏CSDNToQQCode
数据库面试题【十一、InnoDB引擎的4大特性】
1、插入缓冲（insert buffer) 2、二次写(double write) 3、自适应哈希索引(ahi) 4、预读(read ahead)
35120编辑于 2022-11-28
来自专栏最新最全的大数据技术体系
大数据面试题百日更新_Hadoop专题_Yarn专题(Day11)
大的应用可能会占用所有集群资源，这就导致其它应用被阻塞，比如有个大任务在执行，占用了全部的资源，再提交一个小任务，则此小任务会一直被阻塞。比如：当第一个大 job 提交时，只有这一个 job 在运行，此时它获得了所有集群资源；当第二个小任务提交后，Fair 调度器会分配一半资源给这个小任务，让这两个任务公平的共享集群资源。
42720发布于 2021-04-09
来自专栏全栈程序员必看
HashMap常见面试题_java面试题大汇总
11.jdk8中对HashMap做了哪些改变? 12.HashMap,LinkedHashMap,TreeMap有什么区别? 如果节点是红色的,则它的子节点必须是黑色的(反之不一定) 4、每个叶子节点都是黑色的空节点(NIL节点) 5、从根节点到叶节点或空子节点的每条路径,必须包含相同数目的黑色节点(即相同的黑色高度) 11 HashMap; ③、HashMap最多只允许一条记录的键为null,允许多条记录的值为null,而HashTable不允许; ④、HashMap默认初始化数组的大小为16,HashTable为11 比如某些人通过找到你的hash碰撞值，来让你的HashMap不断地产生碰撞，那么相同key位置的链表就会不断增长，当你需要对这个HashMap的相应位置进行查询的时候，就会去循环遍历这个超级大的链表，性能及其地下 HashMap的数据结构在Java中，保存数据有两种比较简单的数据结构：数组和链表。
58220编辑于 2022-09-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

11月大数据面试题复习

11:大整数减法

淘宝双11大数据分析（数据可视化）

【愚公系列】2021年11月 Elasticsearch数据库-面试题

大数据挖掘中易犯的11大错误

【译文】关于数据科学难以忽视的11大真相

干货：数据挖掘中易犯的11大错误

11个棘手的JavaScript面试题

面试题11：引用级别有哪些？

数据库面试题【十三、大表数据查询，怎么优化】

必看：大数据挖掘中易犯的11大错误

世界杯11大数据:20位前冠军出战

常见面试题整理(2022-11)

关于面试总结11-selenium面试题

图解面试题：双11用户如何分析？

剑指offer | 面试题11：矩阵覆盖

数据仓库专题（7）-维度建模11大基本原则

数据库面试题【十一、InnoDB引擎的4大特性】

大数据面试题百日更新_Hadoop专题_Yarn专题(Day11)

HashMap常见面试题_java面试题大汇总

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

11月大数据面试题复习

11:大整数减法

淘宝双11大数据分析（数据可视化）

【愚公系列】2021年11月 Elasticsearch数据库-面试题

大数据挖掘中易犯的11大错误

【译文】关于数据科学难以忽视的11大真相

干货 ：数据挖掘中易犯的11大错误

11个棘手的JavaScript面试题

面试题11：引用级别有哪些？

数据库面试题【十三、大表数据查询，怎么优化】

必看 ：大数据挖掘中易犯的11大错误

世界杯11大数据:20位前冠军出战

常见面试题整理(2022-11)

关于面试总结11-selenium面试题

图解面试题：双11用户如何分析？

剑指offer | 面试题11：矩阵覆盖

数据仓库专题（7）-维度建模11大基本原则

数据库面试题【十一、InnoDB引擎的4大特性】

大数据面试题百日更新_Hadoop专题_Yarn专题(Day11)

HashMap常见面试题_java面试题大汇总

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

干货：数据挖掘中易犯的11大错误

必看：大数据挖掘中易犯的11大错误