首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏分享学习

    数据库-面试

    简述数据库的三大范式 第一范式:数据库表中的所有字段都是不可分解的原子值,说明该数据库满足了第一范式。 简述乐观锁和悲观锁 乐观锁:对于数据冲突保持一种乐观态度,操作数据时不会对操作的数据进行加锁,只有到数据提交的时候才通过一种机制来验证数据是否存在冲突。 悲观锁:对于数据冲突保持一种悲观态度,在修改数据之前把数据锁住,然后再对数据进行读写,在它释放锁之前任何人都不能对其数据进行操作,直到前面一个人把锁释放后下一个人数据加锁才可对数据进行加锁,然后才可以对数据进行操作 索引是存储引擎中用于快速找到记录的一种数据结构。在关系型数据库中,索引具体是一种对数据库中一列或多列的值进行排序的存储结构。 引入索引的好处:提高数据查询的效率。 每行数据具有多个版本,每次事务更新数据都会生成新的数据版本,而不会直接覆盖旧的数据版本。 读提交和可重复读都基于MVCC实现,有什么区别?

    1.4K30编辑于 2022-02-28
  • 来自专栏全栈程序员必看

    Hbase面试题总结(大数据面试

    (2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 (3) Hbase为null的记录不会被存储. :每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元 格插入时的时间戳; 6)数据类型单一:Hbase 中的数据都是字符串,没有类型。 ① 半结构化或非结构化数据 ② 记录非常稀疏 ③ 多版本数据 ④ 超大数据量 5、描述 HBase 的 rowKey 的设计原则? HBase 的机制是数据先写入到内存中,当数据量达到一定的量(如 128M),再写入磁盘中, 在内存中,是不进行数据的更新或合并操作的,只增加数据,这使得用户的写操作只要进入内存中就可以立即返回,保证了 虽然我们是在进行大数据开发,但是如果可以通过某些方式在保证数据准确性同时减少数据量,何乐而不为呢?

    70010编辑于 2022-08-23
  • 来自专栏chimchim要努力变强啊

    面试数据仓库面试经验总结

    目录 第一部分,自我介绍 第二部分,专业知识细问 第三部分,数据治理 第四部分,开发/代码能力 第五部分,个人性格测试 ---- 第一部分,自我介绍 通常面试官会让进行自我介绍,加项目经历介绍(大多数会按简历上的内容逐条细问 2.数仓架构 3.维度建模实施步骤 数据仓库建设之总线矩阵/总线架构_chimchim66的博客-CSDN博客_总线架构 数据仓库 确定数据域 选定业务过程 确定数据粒度 确定一致性维度 确定一致性度量 (该部分有做过的话会问的细一点,可以翻看我的其他博文) 1.元数据管理 2.主数据管理 3.数据标准 4.数据安全 5.数据质量 6.数据资产化 标签化 价值化 可持续 可使用 7.数据治理的意义 数据资产化 、业务数据化、数据业务化 第四部分,开发/代码能力 1.mapreduce执行原理 2.客户端向HDFS写入数据过程 3.客户端从HDFS读数据过程 4.数据倾斜 5.优化 6.hdfs数据块的默认大小是多少 部分公司会有机试 考察sql\算法等 第五部分,个人性格测试 1.性格测试笔试题 2.一些性格测试的问题 3.比较关键的点,会的东西从容回答,不会的直接承认不会,接触少的直接告知,我认为诚信还是比较重要的,充分让面试官了解自己的能力

    1.2K30编辑于 2022-11-13
  • 来自专栏黑泽君的专栏

    数据技术之_32_大数据面试题_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试

    一、Hive 基本面试1、什么是 metastore2、metastore 安装方式有什么区别3、什么是 Managed Table 跟 External Table? 13、hive 传参14、order by 和 sort by 的区别15、hive 跟 hbase 的区别二、Hive 数据分析面试1、分组 TopN,选出今年每个学校、每个年级、分数前三的科目2、今年 6、spark Join 常见分类以及基本实现机制 ---- 一、Hive 基本面试 1、什么是 metastore   metadata 即元数据。 二、Hive 数据分析面试 场景举例:北京市学生成绩分析 成绩的数据格式:时间,学校,年纪,姓名,科目,成绩 样例数据如下: 2013,北大,1,裘容絮,语文,97 2013,北大,1,庆眠拔,语文,52 三、Flume + Kafka 面试 1、flume 如何保证数据的可靠性? Flume 提供三种可靠性:JDBC、FILE、MEMORY Flume 使用事务的办法来保证 event 的可靠传递。

    2.1K31发布于 2019-06-19
  • 来自专栏精讲JAVA

    Java面试数据面试

    它可以强化约束,来维护数据的完整性和一致性,可以跟踪数据库内的操作从而不允许未经许可的更新和变化。可以联级运算。如,某表上的触发器上包含对另一个表的数据操作,而该操作又会导致该表触发器被触发。 与现实生活中锁一样,它可以使某些数据的拥有者,在某段时间内不能使用某些数据数据结构。当然锁还分级别的。 9、什么叫视图?游标是什么? 视图:是一种虚拟的表,具有和物理表相同的功能。 一般不使用游标,但是需要逐条处理数据的时候,游标显得十分重要。 10、视图的优缺点 优点: 1)对数据库的访问,因为视图可以有选择性的选取数据库里的一部分。 3 )维护数据的独立性,试图可从多个表检索数据。 4 )对于相同的数据可产生不同的视图。 这样,如果返回的两个结果集中有重复的数据,那么返回的结果集就会包含重复的数据了。

    1.9K41发布于 2018-09-30
  • 来自专栏大数据与知识图谱

    面试篇:快手数据研发面试

    1、SQL题 用户登陆记录表login,表中数据如下: user_id,login_date 101,2021-01-01 101,2021-01-02 102,2021-01-03 101,2021- 01-04 102,2021-01-05 102,2021-01-06 102,2021-01-07 102,2021-01-08 表中一行数据代表该用户在该日期登陆过,求每一位用户连续登陆天数最大分别是多少天 解题思路: 需要造一列数据,这个列日期连续的行值相同。 1)使用用户id分组,日期排序,增加升序排序列。

    1.2K20编辑于 2022-06-01
  • 来自专栏精讲JAVA

    Java面试数据面试

    它可以强化约束,来维护数据的完整性和一致性,可以跟踪数据库内的操作从而不允许未经许可的更新和变化。可以联级运算。如,某表上的触发器上包含对另一个表的数据操作,而该操作又会导致该表触发器被触发。 与现实生活中锁一样,它可以使某些数据的拥有者,在某段时间内不能使用某些数据数据结构。当然锁还分级别的。 9、什么叫视图?游标是什么? 视图:是一种虚拟的表,具有和物理表相同的功能。 一般不使用游标,但是需要逐条处理数据的时候,游标显得十分重要。 10、视图的优缺点 优点: 1)对数据库的访问,因为视图可以有选择性的选取数据库里的一部分。 3 )维护数据的独立性,试图可从多个表检索数据。 4 )对于相同的数据可产生不同的视图。 这样,如果返回的两个结果集中有重复的数据,那么返回的结果集就会包含重复的数据了。

    2K20发布于 2018-07-30
  • 【java面试数据

    欢迎关注微信公众号:数据科学与艺术 作者WX:superhe199 常见的数据库有关系型数据库如MySQL、Oracle和SQL Server,以及非关系型数据库如MongoDB和Redis。 以下是一些优化数据库查询性能的方法: 使用索引:索引是数据库中的一种数据结构,可以加快查询速度。确保在常用的查询字段上创建索引,并定期优化和重新构建索引。 避免全表扫描:全表扫描是指数据库查询时没有使用索引,而是扫描整个表的每一行数据。尽量避免全表扫描,可以通过使用合适的索引来避免。 优化查询语句:编写高效的查询语句可以提高数据库查询性能。 缓存查询结果:对于一些经常查询的数据,可以将查询结果缓存在内存或其他缓存中,以减少数据库访问次数。 以上是一些常见的优化数据库查询性能的方法,具体的优化策略还要根据具体的数据库和应用场景来决定。

    11010编辑于 2025-08-29
  • 来自专栏Albert陈凯

    数据面试问题

    Runnable和Thread的区别Callable Callable与Future的介绍 sleep wait区别 hadoop源码使用了什么JAVA技术 hadoop的通讯接口RPC协议 java的数据类型 序列化是将(内存中的)结构化的数据数据,序列化成2进制 mapreduce常用的接口 mapreduce的工作流程 MR优化方式 什么样的情况下不能用mapreduce HDFS的架构 hdfs改那几个文件 mapreduce怎么实现把移动数据到移动计算的 hive 增加数据有几种方式 怎么给hive的表里面增加一个字段 增加的字段里面数据占不占内存 给字段增加值怎么增加 1g的小文件,1g的一个文件 , 为什么小文件占的空间更大 hive建表,什么情况下见内部表 impala 依赖 怎么解决hive数据倾斜问题 hbase rowkey的设计原则 唯一 简明有意义 hbase的应用场景 你们平时PV有多少 ,数据量有多少 Hive是重点 hadoop工程师 zookeeper在hbase中作用 ZK中存的两张最重要的表 shall 数组的分隔符是什么 linux的copy 权限

    71160发布于 2018-04-04
  • 来自专栏无题~

    数据面试

    数据倾斜概念? Hive部分 ①hive本质? ②group by、sort by、oreder by、distribute by、cluster by、partition by区别? ⑥hive导入数据和到处数据的方式? HBase部分 ①集群角色以及作用? ②client写过程和读过程? ③布隆过滤器? ④Hbase存储特点、与mysql相比? ⑤rowkey的设计? ③kafka中数据写入过程?Follwer与leader如何实现数据同步? ④kafka消费者组概念? Flume部分 ①Flume组件成员以及含义? ②Flume传输数据方式? ③Flume传输数据会丢失吗?怎样避免丢失 Flink部分 ①Flink最小计算单元? ②Flink任务提交至yarn流程? ③Flink时间语义几种、含义? ④Flink窗口类型? 如何设置数据延迟? ⑦checkpoint和savepoint区别?有什么好处? ⑧怎么理解Flink是保证数据不丢失的?端到端一致性含义? ⑨Flink提供了几层api?分别都适用哪些场景?

    69340发布于 2020-07-10
  • 来自专栏Java架构师必看

    Java面试——数据

    在读取事务开始时,系统会给事务一个当前版本号,事务会读取版本号<=当前版本号的数据,这时就算另一个事务插入一个数据,并立马提交,新插入这条数据的版本号会比读取事务的版本号高,因此读取事务读的数据还是不会变 如果数据库并发控制引擎是单纯的封锁协议机制,则应该在读取数据的时候,判断数据项是不是其他事务更新过的。 简单的说下什么是存储引擎,存储引擎说白了就是如何存储数据、如何为存储的数据建立索引和如何更新、查询数据等技术的实现方法。 乐观的认为多用户并发的事务在处理时不会彼此互相影响,各事务能够在使用锁的情况下处理各自的数据。在提交更新数据之前,每个事务会先检查该事务读取数据后,有没有其他事务又修改了该数据。 该策略的问题是备库中的数据和写入主库的数据很难保持一致。

    81741发布于 2021-05-06
  • 来自专栏数据科学与人工智能

    数据数据科学面试问题集二

    笔者邀请您,先思考: 1 您在面试数据的工作,遇到什么数据科学面试题? 续数据科学面试问题集一。 1 您将在时间序列数据集上使用什么交叉验证技术? 2 什么是逻辑回归? 1 您将在时间序列数据集上使用什么交叉验证技术? 您应该意识到时间序列不是随机分布数据这一事实,它本质上是按照时间顺序排序的,因而不使用K-折交叉验证。 在时间序列数据的情况下,您应该使用像前向链接这样的技术 - 您将在过去的数据模型中查看前向数据。 步骤: 将整个数据加载到Numpy数组中。 Numpy数组具有创建完整数据集映射的属性,它不会将完整的数据集加载到内存中。 您可以将索引传递给Numpy数组以获取所需的数据。 使用这些数据传递给神经网络。 有小批量。 对于SVM:部分适合将起作用 步骤: 将一个大数据集划分一些小数据集 使用SVM的partialfit方法,它需要完整数据集的子集。 对其他子集重复步骤2。

    1K00发布于 2018-07-30
  • 来自专栏全栈程序员必看

    数据面试题——HBase面试题总结

    :每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳; 6)数据类型单一:Hbase中的数据都是字符串,没有类型。 (1)半结构化或非结构化数据 对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。 9、每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据? (☆☆☆☆☆) 需求分析: 1)百亿数据:证明数据量非常大; 2)存入HBase:证明是跟HBase的写入数据有关; 3)保证数据的正确:要设计正确的数据结构保证正确性; 3)减少数据量 虽然我们是在进行大数据开发,但是如果可以通过某些方式在保证数据准确性同时减少数据量,何乐而不为呢?

    1K40编辑于 2022-09-04
  • 来自专栏一只想做全栈的猫

    【前端面试】 - 观远数据电话面试

    观远数据电话面试题 1. 数据结构中对堆栈链的理解 以链表形式构建的堆栈数据结构,可以实现动态增加节点,无需预先分配内存。 2. js中哪些数据是放在堆中,哪些数据是放在栈中? js的基本数据类型和对象有哪些的,null放在哪里? js的基本数据类型: 空类型:undefined null 值类型:基本数据类型 String Number Boolean 引用型:复杂数据类型 Object Array 对象 值类型的值在栈空间存储 怎么实现只对对象的某个属性实现保护 const命令只是保证变量名指向的地址不变,并不保证该地址的数据不变 如果真的想将对象冻结,应该使用Object.freeze方法。 元素可能有基础数据类型和对象。 遍历,== 或者 === 判断即可 11. 为什么要有事件捕获和事件冒泡两个阶段? 事件捕获 指的是从document到触发事件的那个节点,即自上而下的去触发事件。

    1.5K20编辑于 2022-05-06
  • 来自专栏全栈程序员必看

    数据面试题(六)—-HBASE 面试

    数据面试宝典目录,请点击 目录 1. HBase 的特点是什么? 2. HBase 和Hive 的区别? 3. 描述HBase 的rowKey 的设计原则? 4. :每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时 的时间戳; 6) 数据类型单一:Hbase 中的数据都是字符串,没有类型。 分区允许在数据集上运行过滤查询,这些数据集存储在不同的文件夹内,查询的时候只遍历指定文件夹(分区)中的数据。 版本信息用来获取历史数据(每一行的历史数据可以被删除,然后通过Hbase compactions 就可以释放出空间)。 :每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时 的时间戳; 6) 数据类型单一:Hbase 中的数据都是字符串,没有类型。

    40220编辑于 2022-09-02
  • 来自专栏数据科学与人工智能

    数据数据科学面试问题集一

    笔者邀请您,先思考: 1 您在面试数据的工作,遇到什么数据科学面试题? 数据科学也被称为数据驱动型决策,是一个跨学科领域,涉及以各种形式从数据中提取知识的科学方法,过程和系统,并基于这些知识进行决策。 数据科学家不应仅仅根据他/她对机器学习的知识进行评估,而且他/她也应该具有良好的统计专业知识。 我将尝试从非常基础的数据科学入手,然后慢慢转向专家级。 所以让我们开始吧。 监督机器学习: 监督机器学习需要训练标记数据。 无监督机器学习: 无监督机器学习不需要标记数据。 2.什么是偏差,方差,如何平衡? 二元分类器可以将测试数据集的所有数据实例预测为阳性或阴性。

    81200发布于 2018-07-30
  • 来自专栏YO大数据

    【最全的大数据面试系列】Flume面试题大全

    作者 :“大数据小禅” 专栏简介 :本专栏主要分享收集的大数据相关的面试题,涉及到Hadoop,Spark,Flink,Zookeeper,Flume,Kafka,Hive,Hbase等大数据相关技术 个人主页 :大数据小禅 面试题目录 1.Flume 使用场景 2.Flume丢包问题 3.Flume与Kafka的选取 4.Flume怎么采集数据到Kafka,实现方式 5.Flume管道内存,Flume 所以,Cloudera 建议如果数据被多个系统消费的话,使用 kafka;如果数据被设计给 Hadoop 使用,使用 Flume。 Flume 可以使用拦截器实时处理数据。这些对数据屏蔽或者过量是很有用的。Kafka 需要外部的流处理系统才能做到。Kafka 和 Flume 都是可靠的系统,通过适当的配置能保证零数据丢失。 9.Flume有哪些组件,Flume的source,channel,sink具体是做什么的 1)source:用于采集数据,Source 是产生数据流的地方,同时 Source 会将产生的数据流传输到

    1.2K20编辑于 2021-12-21
  • 来自专栏YO大数据

    【最全的大数据面试系列】Flink面试题大全

    作者 :“大数据小禅” 专栏简介 :本专栏主要分享收集的大数据相关的面试题,涉及到Hadoop,Spark,Flink,Zookeeper,Flume,Kafka,Hive,Hbase等大数据相关技术 面试题目录 1.Flink checkpoint 与 Spark Flink 有什么区别或优势吗 2.Flink 中的 Time 有哪几种 3.对于迟到数据是怎么处理的 4.Flink 的运行必须依赖 3.对于迟到数据是怎么处理的 Flink 中 WaterMark 和 Window 机制解决了流式数据的乱序问题,对于因为延迟而顺序有误的数据,可以根据 eventTime 进行业务处理,对于延迟的数据 如果需要处理的数据超出了内存限制,则会将部分数据存储到硬盘上。Flink 为了直接操作二进制数据实现了自己的序列化框架。 ,但程序不必指定如何生成水印 总结 本篇为Flink系列的面试题,内容较多,小伙伴们可以选择自己需要的部分进行查看。

    1.2K20编辑于 2021-12-15
  • 来自专栏IT知识进阶学习

    面试季》经典面试题-数据库篇(三)

    本系列文章主要分享了之前博主真实面试中遇到的一些问题,希望能够帮助准备就业或者跳槽的朋友。 一、使用场景   (一)你是否在平常的编码或者面试中会遇到以下疑问,如果有,那么就继续往下看,也许文章能够帮你解决一些疑惑。 1、在平常的工作中有使用过事务? 持久性(Durability): 事务对数据库的数据影响是永久的,只要提交了事务,那么数据库的数据就被更改了,即使数据库出现故障,也不会对这个数据造成影响。 3、可重复度(Repeatable Read): 会导致幻读问题(Mysql数据库默认的数据库隔离级别)。 ,且更新时的条件覆盖了插入的数据,则会导致幻读;而对查询语句加锁,则会直接从库中查数据,加锁查询并不会更新快照。

    31130编辑于 2022-09-13
  • 来自专栏IT知识进阶学习

    面试季》经典面试题-数据库篇(一)

    本系列文章主要分享了之前博主真实面试中遇到的一些问题,希望能够帮助准备就业或者跳槽的朋友。 面试题目 一: Mysql的存储引擎分类 InnoDB: 支持事务,行锁及无锁读提高了并发的效率,为了数据的完整性,支持外键 MyISAM: 不支持事务和外键,表级别锁,优势在于访问速度快,一般用于只读或者以读为主的数据场景 Memory: 在内存中存储所有数据,应用于对非关键数据的快速查询,默认使用HASH索引,但是服务关闭,数据会消失。 回答思路:   面试官询问这个问题,原因可能是你在自己的简历中有描述使用到两种不同的数据,主要考察两个方面。 ,这个会很给面试官添加印象分,证明你在平常的工作中是善于去思考的。   

    1.1K10编辑于 2022-09-13
领券