首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Spark学习技巧

    kafka面试总结

    转自:https://www.cnblogs.com/threecha/p/13737421.html 从以下方面对kafka面试进行总结:基本原理架构/项目实践/生产者/消费者/协调者/存储层/控制器 基本原理架构 简单讲下什么是kafka[一句话概括/架构图] 消息队列选型 你们为什么不选用其他消息队列 ZK 在消息队列中的作用是什么 注册中心[作为共享存储保存了kafka集群和客户端的相关信息 [队列1对1/订阅1对多] kafka为什么这么快 追加方式写入 producer层选择分区并行写入数据[避免全量消息提交到协调阶段在计算分区] 使用消息batch[消息批 减少通讯次数] kafka follower如何与leader同步数据 kafka节点之间消息如何备份的 kafka消息是否会丢失为什么 kafka的lead选举机制是什么 kafka 的消息保障方式有那些 项目实践 ACK 0 实战 kafka技术内幕 kafka在公司项目实践

    91720发布于 2021-03-05
  • 来自专栏后台技术底层理解

    面试:集合:redis:kafka

    kafka、rabbitMQ等来实现推送更新Redis! 一张自增表里面总共有 7 条数据,删除了最后 2 条数据,重启 MySQL 数据库,又插入了一条数据,此时 id 是几? 5.都可实现删除操作,但是ListIterator可以实现对象的修改,set()方法可以实现。Iterator仅能遍历,不能修改。 优化的key大小 尽可能使用Hash,hash占用空间少; 选择内存占用和效率更好的数据结构zipList kafka 有几种数据保存策略 Kafka Broker默认的消息保留策略是:要么保留一定时间

    82730发布于 2020-08-04
  • 来自专栏兜兜毛毛

    Kafka 为什么快?(5

    通过以上文章已经把kafka基本概念整理了一下,从生产者到Broker消费者。下面来简单总结一下,为什么kafka能做到这么高的吞吐。 (案例显示在普通服务器上可以达到百万级TPS) https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines Kafka的message是不断追加到本地磁盘文件末尾的,而不是随机的写入,这使得Kafka写入吞吐量得到了显著提升。 内存I/O是不是一定比磁盘I/O快呢? 索引 时间索引与offset索引 批量读写和文件压缩 kafka把所有消息都变成一个批量的文件,并进行合理的批量压缩,减少网络IO损耗。 零拷贝 详情可参考:https://my.oschina.net/u/1019754/blog/4897381 主要通过以上几点来提升kafka吞吐量: 从磁盘读取(顺序I/O) 搜索查找(索引) 批量读写和数据压缩

    41920发布于 2021-04-02
  • 来自专栏服务化进程

    面试必问之kafka

    问题2:Kafka中有哪几个组件? 主题:Kafka主题是一堆或一组消息。 生产者:在Kafka,生产者发布通信以及向Kafka主题发布消息。 节点必须可以维护和 ZooKeeper 的连接,Zookeeper 通过心跳机制检查每个节点的连 接 (2)如果节点是个 follower,他必须能及时的同步 leader 的写操作,延时不能太久 问题5: 条件1:有新的consumer加入 条件2:旧的consumer挂了 条件3:coordinator挂了,集群选举出新的coordinator 条件4:topic的partition新加 条件5:consumer 它的默认值是 5 分钟,表示你的 Consumer 程序如果在 5 分钟之内无法消费完 poll 方法返回的消息,那么 Consumer 会主动发起 “离开组” 的请求,Coordinator 也会开启新一轮 Kafka 可以将数据记录分批发送,从生产者到文件系统(Kafka 主题日志)到消费者,可以端到端的查看这些批次的数据。

    81821编辑于 2022-01-06
  • 来自专栏cwl_Java

    经典面试题-Kafka

    第 7 章 Kafka 面试题 7.1 面试问题 Kafka 中的 ISR(InSyncRepli)、OSR(OutSyncRepli)、AR(AllRepli)代表什么? Kafka 中的 HW、LEO 等分别代表什么? Kafka 中是怎么体现消息顺序性的? Kafka 中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么? 当你使用 kafka-topics.sh 创建(删除)了一个 topic 之后,Kafka 背后会执行什么逻辑? Kafka 有内部的 topic 吗?如果有是什么?有什么所用? Kafka 分区分配的概念? 简述 Kafka 的日志目录结构? 如果我指定了一个 offset,Kafka Controller 怎么查找到对应的消息? 聊一聊 Kafka Controller 的作用? Kafka 中有那些地方需要选举?

    70720发布于 2020-02-24
  • 来自专栏用户9257747的专栏

    精选Kafka面试

    什么是KafkaKafka中有哪几个组件? 主题(Topic):Kafka主题是一堆或一组消息。 生产者(Producer):在Kafka,生产者发布通信以及向Kafka主题发布消息。 Kafka系统工具有哪些类型? Kafka迁移工具:它有助于将代理从一个版本迁移到另一个版本。 Mirror Maker:Mirror Maker工具有助于将一个Kafka集群的镜像提供给另一个。 Kafka可以接收的最大消息大小约为1000000字节。 Kafka的优点有那些? 高吞吐量:我们在Kafka中不需要任何大型硬件,因为它能够处理高速和大容量数据。 低延迟:Kafka可以轻松处理这些消息,具有毫秒级的极低延迟,这是大多数新用例所要求的。 容错:Kafka能够抵抗集群中的节点/机器故障。 耐久性:由于Kafka支持消息复制,因此消息永远不会丢失。

    3.8K30编辑于 2022-04-07
  • 来自专栏后台技术底层理解

    Kafka 基础面试

    Kafka的设计模式主要基于事务日志设计。 2. Kafka中有哪几个组件? 主题:Kafka主题是一堆或一组消息。 生产者:在Kafka,生产者发布通信以及向Kafka主题发布消息。 答:消费者组的概念是Apache Kafka独有的。基本上,每个Kafka消费群体都由一个或多个共同消费一组订阅主题的消费者组成。 5. ZooKeeper在Kafka中的作用是什么? 为什么Kafka技术很重要? 答:Kafka有一些优点,因此使用起来很重要: 高吞吐量:我们在Kafka中不需要任何大型硬件,因为它能够处理高速和大容量数据。 另外,我们可以用Kafka构建一个实时流处理平台,它可以对数据快速做出反应。 15. 在Kafka集群中保留期的目的是什么? 答:保留期限保留了Kafka群集中的所有已发布记录。 Kafka : 单机吞吐量10万级别,这是kafka最大的优点,就是吞吐量高。

    93930发布于 2020-08-05
  • 来自专栏暴走大数据

    面试角度详解Kafka

    Kafka 基本概念和架构 问题 简单讲下 Kafka 的架构? Kafka 是推模式还是拉模式,推拉的区别是什么? Kafka 如何广播消息? Kafka 的消息是否是有序的? 正常情况下,Kafka 平均会为每个 consumer 分配 5 个分区。这个分配的过程就叫 rebalance。 什么时候 rebalance? 这也是经常被提及的一个问题。 关于 ISR,还有一个常见的面试题目是如何判断副本是否应该属于 ISR。 所以理解这些配置背后的实现原理,可以让我们在实践中懂得如何使用和优化 Kafka。既可面试造火箭,也可以实战造火箭。 ” 零拷贝 “哈哈,这个我面试被问到过。可惜答得一般般,唉。 ” 什么是零拷贝?

    1.5K60发布于 2021-07-12
  • 来自专栏对线JAVA面试

    面试系列-kafka事务控制

    kafka事务机制 kafka的事务机制,是kafka实现端到端有且仅有一次语义(end-to-end EOS)的基础;事务涉及到 transactional producer 和transactional 的事务机制,在底层依赖于幂等生产者,幂等生产者是kafka事务的必要不充分条件; 事实上,开启kafka事务时,kafka会自动开启幂等生产者; kafka事务支持的设计原理 Transaction Coordinator log是kakfa的一个内部topic, 所以kafka可以通过内部的复制协议和选举机制(replication protocol and leader election processes),来确保 Transaction Coordinator还负责将事务写入kafka内部的一个topic,这样即使整个服务重启,由于事务状态得到保存,正在进行的事务状态可以得到恢复,从而继续进行; kafka事务机制下读写流程 全局一致的transactional.id维护 transactional.id在kafka的事务机制中扮演了关键的角色,kafka正是基于该参数来过滤掉僵尸生产者的 (fencing out zombies

    1.1K10编辑于 2022-12-29
  • 来自专栏ParkJun随笔

    5.Java Kafka Demo

    -- kafka --> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artifactId> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-streams</artifactId> //acks=1:这个配置意味着kafka会把这条消息写到本地日志文件中,但是不会等待集群中其他机器的成功响应。 这个确保消息不会丢失,除非kafka集群中所有机器挂掉。这 是最强的可用性保证。 这些配置可以在 org.apache.kafka.clients.consumer.ConsumerConfig 以及 org.apache.kafka.clients.producer.ProducerConfig

    2.7K10发布于 2020-07-14
  • 来自专栏全栈程序员必看

    angular面试问题_kafka面试

    Angular v8+面试系列 Angular 面试题汇总1-基本知识 Angular 面试题汇总2-Component/Service Angular 面试题汇总3-单元测试 目录 Angular ---- Angular v8+面试系列 Angular 面试题汇总1-基本知识 Angular 面试题汇总2-Component/Service Angular 面试题汇总3-单元测试 版权声明

    3.5K20编辑于 2022-09-29
  • 来自专栏大数据工程师

    Kafka面试题——20道Kafka知识点

    本篇给大家总结了20道Kafka知识点或者说面试题,持续更新中... 1.kafka的3个关键功能? 发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 处理记录流。 2.kafka通常用于两大类应用? 建立实时流数据管道,以可靠地在系统或应用程序之间获取数据 构建实时流应用程序,以转换或响应数据流 3.kafka特性? 消息持久化 高吞吐量 扩展性 多客户端支持 Kafka Streams 安全机制 数据备份 轻量级 消息压缩 4.kafka5个核心Api? Producer API Consumer API Streams API Connector API Admin API 5.什么是Broker(代理)? Kafka集群中,一个kafka实例被称为一个代理(Broker)节点。 6.什么是Producer(生产者)? 消息的生产者被称为Producer。

    85800发布于 2020-06-29
  • 5 分钟了解 kafka 核心概念

    Kafka 是一个分布式流平台,广泛应用于大规模实时数据流的处理。它的核心概念可以帮助我们理解其运作方式。本文将以简明的方式介绍 Kafka 的几个关键概念,帮助大家快速上手。 上图是 Kafka 的体系结构,沿用的是以 zk 来管理元数据的架构版本。 对于 Kafka 而言, Broker 可以简单地看作一个独立的 Kafka 服务节点或 Kafka 服务实例。 大多数情况下也可以将 Broker 看作一台 Kafka服务器,前提是这 台服务器上只部署了一个 Kafka 实例。一个或多个 Broker 组成了 一个 Kafka 集群 。 生产者负责创建消息 , 然后将其投递到 Kafka 中。 consumer 消费者,也就是接收消息的 一方。消费者连接到 Kafka 上并接收消息,进而进行相应的业务逻辑处理 。

    26200编辑于 2025-06-09
  • 来自专栏CSDN

    Kafka常见面试

    Kafka Kafka集群leader选举 Kafka创建副本的2种模式——同步复制和异步复制 同步复制流程 异步复制流程 Kafka判断一个broker节点是否存活 Kafka生产者发送消息确认机制( ack机制) KafkaISR机制 leader如何动态维护ISR Kafka集群leader选举 在kafka集群中,第一个启动的broker会在zk中创建一个临时节点/controller让自己成为控制器 Kafka创建副本的2种模式——同步复制和异步复制 Kafka动态维护了一个同步状态的副本的集合(a set of In-Sync Replicas),简称ISR,在这个集合中的节点都是和leader 既然kafka支持副本模式,那么其中一个Broker里的挂掉,一个新的leader就能通过ISR机制推选出来,继续处理读写请求。 生产者没有收到leader的ack回应会重试投递,会造成数据重复 kafKa消费消息主要是依靠偏移量进行消费数据的,偏移量是一个不断自增的整数值,当发生重平衡的时候,便于用来恢复数据。

    54510编辑于 2021-12-30
  • 来自专栏Java技术栈

    Kafka 怎么顺序消费?面试必备!

    点击关注公众号,Java干货及时送达 前言 本文针对解决Kafka不同Topic之间存在一定的数据关联时的顺序消费问题。 1、问题引入 kafka的顺序消费一直是一个难以解决的问题,kafka的消费策略是对于同Topic同Partition的消息可保证顺序消费,其余无法保证。 另外,Kafka 系列面试题和答案全部整理好了,微信搜索Java技术栈,在后台发送:面试,可以在线阅读。 3、实现方案 消息发送: kafkaTemplate.send("TOPIC_INSERT", "1"); kafkaTemplate.send("TOPIC_UPDATE", "1"); 最新 Kafka 面试题整理好了,大家可以在Java面试库小程序在线刷题。

    3.3K50编辑于 2022-03-18
  • 来自专栏悠扬前奏的博客

    Kafka-5.配置-Consumer Configs

    high bootstrap.servers A list of host/port pairs to use for establishing the initial connection to the Kafka This can be defined either in Kafka's JAAS config or in Kafka's config. string null medium sasl.login.callback.handler.class Implementing the org.apache.kafka.common.metrics.MetricsReporter interface allows plugging in classes Legal values are between 0 and 3600 (1 hour); a default value of 300 (5 minutes) is used if no value Legal values are between 0 and 0.25 (25%) inclusive; a default value of 0.05 (5%) is used if no value

    1K20发布于 2019-06-11
  • 来自专栏挨踢小子部落阁

    Kafka常见面试

    1 什么是kafka Kafka是分布式发布-订阅消息系统,它最初是由LinkedIn公司开发的,之后成为Apache项目的一部分,Kafka是一个分布式,可划分的,冗余备份的持久性的日志服务,它主要用于处理流式数据 2 为什么要使用 kafka,为什么要使用消息队列 缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka中 3.Kafka中的ISR、AR又代表什么? 5.kafka中的 zookeeper 起到什么作用,可以不用zookeeper么 zookeeper 是一个分布式的协调组件,早期版本的kafka用zk做meta信息存储,consumer的消费状态, 6.kafka follower如何与leader同步数据 Kafka的复制机制既不是完全的同步复制,也不是单纯的异步复制。

    56620编辑于 2023-03-15
  • 来自专栏其他分享

    kafka消息面试

    5. 消息5.1. 请简述一下消息的顺序Kafka保证一个Partition内消息的有序性,但是并不保证多个Partition之间的数据有顺序。 它的默认值是 5 分钟,表示你的消费者程序如果在 5 分钟之内无法消费完 poll 方法返回的消息,那么消费者会主动发起“离开组”的请求,协调者也会开启新一轮重平衡 6. (Kafka >= v0.11 & < v1.1)max.in.flight.requests.per.connection=5 (Kafka >= v1.1)acks=all9.3. (提示:消费者协调器和消费组协调器)Kafka中的事务是怎么实现的(这题我去面试6加被问4次,照着答案念也要念十几分钟,面试官简直凑不要脸。 假设有个 Kafka 集群由 2 台 Broker 组成,有个主题有 5 个分区,当一个消费该主题的消费者程序启动时,你认为该程序会创建多少个 Socket 连接?为什么?

    4.9K11编辑于 2024-05-08
  • 来自专栏对线JAVA面试

    面试系列-kafka高可用机制

    消息备份 Kafka允许同⼀个Partition存在多个消息副本(Replica),每个Partition的副本通常由1个Leader及0个以上的Follower组成,⽣产者将 消息直接发往对应Partition 的Leader,Follower会周期地向Leader发送同步请求,Kafka的Leader机制在保障数据⼀致性地同时降低了了 消息备份的复杂度; 同⼀Partition的Replica不应存储在同一个 为了做好负载均衡并提⾼容错能力,Kafka会尽量将所有的Partition以及各Partition的副本均匀地分配到整个集群上; ISR机制 kafka中每一个主题又进一步划分成若干个分区。 副本的概念实际上是在分区层级下定义的,每个分区配置有多若干个副本;所谓副本,本质上就是一个只能追加写消息的提交日志,根据kafka副本机制的定义,同一个分区下的所有副本保存着相同的消息序列,这些副本分散的保存在不同的 Broker上,从而能够对抗部分Broker宕机带来的数据不可用; 在kafka分区中的副本机制中,又分了Leader节点和Follower节点,消息会写到Leader节点中,由Leader节点将数据同步给

    93021编辑于 2022-12-29
  • 来自专栏857-Bigdata

    Kafka进阶面试题分享

    1、为什么会用到kafka(消息队列的作用) 1) 缓冲和削峰:上游数据时有突发流量,下游可能扛不住,或者下游没有足够多的机器来保证冗余,kafka在中间可以起到一个缓冲的作用,把消息暂存在kafka 5、ISR收缩性: 启动 Kafka时候自动开启的两个定时任务,“isr-expiration"和”isr-change-propagation"。 作用就是检查isrChangeSet,按照名单上的信息移除和迁入,一般是2500ms检查一次,但是为了防止频繁收缩扩充影响性能,不是每次都能做变动,必须满足:1、上一次ISR集合发生变化距离现在已经超过55.消费者负载均衡 与生产者相似,Kafka中的消费者同样需要进行负载均衡来实现多个消费者合理地从对应的Broker服务器上接收消息,每个消费者分组包含若干消费者,每条消息都只会发送给分组中的一个消费者 正常情况下,kafka 会为每个 Consumer 平均的分配 5 个分区。这个分配的过程就是 Rebalance。 触发 Rebalance 的时机 Rebalance 的触发条件有3个。

    1.7K20编辑于 2022-05-17
领券