kafka消费者 细节

  • commit offset时可以附带一个string类型的metadata用于添加一些有关信息 也可以附带一个long类型的timestamp
  • 使用完毕需要close 否则会造成TCP连接的内存泄漏
  • 消费者不是线程安全的
  • 调用老Broker不支持的新特性时 会收到UnsupportedVersionException
  • 消费者偏移量有两种更新方式
    • 随着每一次调用poll()方法自动前进
    • 调用commitSync()/commitAsync()方法主动提交偏移量,默认也会定时提交(5S)
  • 相同group.id的消费者在同一group中,这些消费者可以部署在同一机器上,也可以部署在不同机器上以提供扩展性和容错性
  • 消费者可以动态订阅主题列表,通过subsribe()接口
  • 一个消息只会发送给一个组中的一个消费者
  • 每个分区(partition)属于一个消费者,分区会均衡的分配给所有的消费者
  • 这种从属关系会被动态的维持,当原消费者关闭时,会分配给其他的消费者。同样,新的消费者加入后,会从旧消费者中获取分区的所有权。这被称为组重平衡
  • 当新的分区被创建,新的符合订阅规则的主题被创建时,组可以通过定时的更新元数据来获知并触发组重平衡
  • 概念上 一个消费者群可以看做一个独立的多线程的消费者 kafka理所当然的支持大量的群组订阅同一主题
  • 在队列消息系统中 同一消费群的需要类似于排队式的消费这些消息 而发布订阅消息系统中 每一个消费者都是单独的群组 需要读取所订阅主题的所有消息 kafka使用消费者组统一了两种模型
  • 消费者可以通过ConsumerRebalanceListener来监听组重平衡的发生以完成一些收尾的工作
  • 消费者可以主动地选择自己的分区 assign()接口 这种情况 组内的协调将会失效
  • 消费者的第一次poll()会建立起对broker的连接 同时也会触发组重平衡获取从属分区
  • broker通过poll来确认消费者活着,消费者会定期的发送心跳包给broker 超过时限未收到心跳包 则判断消费者死亡 即心跳包和poll缺一不可
  • 区别 不调用poll是消费者主动断链 心跳包是broker主动断链
  • 仅活跃成员可commit offset 不poll时commit会收到CommitFailedException
  • max.poll.interval.ms 可以通过调整该参数来调整消费者用于处理消息的时间 过大的增加这个值会推迟组重平衡的发生 如果该值过小 可能会导致消费者来不及处理获取到的消息
  • max.poll.records 该参数表明一次返回的消息的最大值 可以防止消费者不能在指定的时间内处理掉所有获取的消息
  • 如果消息处理的时间不可预料,我们可以将消息的处理放入单独的线程,需要注意:确保提交的偏移量是正确的。我们可以通过关闭自动确认偏移量并且在每个线程结束后手动提交偏移量。在未处理完成前,可以使用pause()来停止获取相应分区的新消息
  • bootstrap.servers只需要包含broker集群中的一部分即可
  • 当消息的消费与处理耦合时,我们需要确认消息被处理后手动提交偏移量
  • 当消费者保持高可用且失败后重试时(cluster management framework or stream processing framework),就不需要kafka监听它的情况了
  • 通过使用非kafka存储offset 我们可以实现exactly once 需要关闭auto.commit 保存每个record的offset 重启时seek到保存的offset
  • seekToBeginning seekToEnd
  • 可以使用pause()和resume()来动态的限制对主题或者分区的消费
  • 0.11.0后 kafka加入了对事务的支持,将消费者的隔离级别设置成read_commited,消费者仅能读取那些已经被commit的事务的消息,这种情况下消费者分区内最大偏移位最后一个完成的事务的偏移 Last Stable offset (LSO)
  • 使用wakeup()来安全的关闭消费者线程
  • 多线程的使用consumer(一个消费者一个线程)
    • (优) 易扩展 / 一个消费者一个线程是最佳实践,可以免去线程间通信的花费 / 可以非常容易的实现分区的有序处理
    • (缺) 每一个消费者对应着一个TCP连接,kafka通常情况可以高效的管理这些连接。
    • (缺) 大量的消费者发送大量的请求到服务器,分批次的发送效果变差,可能会降低I/O吞吐量
    • (缺) 线程总数收分区总数所限制
  • 消费与处理的解耦 使用一定数量的消费线程消费所有数据,将数据放入一个阻塞的队列中,在使用一个处理线程池来真正的处理这些消息
    • (优) 可以自由确定消费者和处理线程的数量比例,不受分区数量的限制
    • (缺) 无法保证处理的先后顺序 大部分情况下不是问题
    • (缺) 主动的提交偏移变得非常困难 需要多线程之间的协调以确保分区的消费完成

你可能感兴趣的