Kafka -- 线上部署

Created2019-07-15|MiddlewareMQKafka

|Word Count:962|Reading Time:3mins

操作系统

Linux的表现更胜一筹：IO模型的使用、网络传输效率、社区支持度

IO模型

主流的IO模型：阻塞式IO、非阻塞式IO、IO多路复用、信号驱动IO、异步IO，后一种模型比前一种高级
- Java中的Socket对象的阻塞模式和非阻塞模式，对应阻塞式IO和非阻塞式IO
- Linux中的系统调用select函数属于IO多路复用模型
- 大名鼎鼎的epoll系统调用则介于第三种模型和第四种模型之间
- 很少有Linux系统支持异步IO，Windows系统提供的IOCP线程模型属于异步IO
Kafka客户端底层使用了Java的selector，selector在Linux上的实现机制是epoll，在Windows上是select
- Kafka部署在Linux上，能够获得更高效的IO性能

网络传输效率

Kafka生产和消费的消息都是通过网络传输的，而消息是保存在磁盘上的
- 因此Kafka需要在磁盘和网络间进行大量的数据传输
Linux支持零拷贝技术
- 当数据在磁盘和网络进行传输时，避免昂贵的内核态数据拷贝，从而实现快速的数据传输
- 在Windows平台必须等待Java 8 Update 60才能享受到类似Linux零拷贝的福利，而Linux早就支持

社区支持度

社区目前对在Windows平台上发现的Bug不做任何承诺
WIndows平台上部署Kafka只适用于个人测试或用于功能验证，不能应用于生产环境

磁盘类型

Kafka大量使用磁盘，但使用的方式多为顺序读写操作，一定程度上规避了机械硬盘的最大劣势，随机IO
- 所以SSD并没有太大的性能优势，而且机械硬盘物美价廉
机械硬盘易损坏而造成的可靠性差等缺陷，又由Kafka在软件层面提供机制来保证，故使用机械硬盘性价比很高
RAID的主要优势：提供冗余的磁盘存储空间、提供负载均衡
- Kafka自身实现了冗余机制（副本）来提供高可靠性
- Kafka通过分区的概念，在软件层面实现了负载均衡
小结
- 如果追求性价比，可以不搭建RAID，使用普通磁盘组成存储空间即可
- 使用机械硬盘完全能胜任Kafka线上环境

磁盘容量

场景：每天需要向Kafka集群发送一亿条消息，每条消息保存两份，默认保存两周，消息平均大小为1KB
100,000,000 * 1KB * 2 / 1000 / 1000 = 200GB
一般情况下，Kafka集群除了消息数据还有其他类型的数据，比如索引数据，为这些数据预留10%的磁盘空间，220GB
保存两周，220GB * 14 ≈ 3TB
Kafka支持数据压缩，假设压缩比为0.75，3TB * 0.75 = 2.25TB
预留20%的磁盘空间，2.25TB / 0.8 ≈ 2.bTB
考虑的因素
- 新增消息数
- 消息留存时间
- 平均消息大小
- 备份数
- 是否启动压缩

带宽

常见带宽：1Gbps（千兆网络，常见配置）、10Gbps（万兆网络）
场景：机房环境为1Gbps，某个业务的SLA是一个小时内处理1TB的业务数据
假设每台Kafka服务都部署在专属的机器上，Kafka最多会用到机器上70%的带宽资源（超过70%，可能会网络丢包）
- 即单台Kafka服务器最多能使用700Mbps的带宽资源
通常情况下，需要额外预留2/3的资源，即单台服务器使用带宽为700Mbps / 3 ≈ 240Mbps
需要的服务器数量：1TB / 3600s / 240Mbps ≈ 10，如果备份数量为3，那需要的服务器数量为30

参考资料

Kafka核心技术与实战

Author: zhongmingmao

Link: https://blog.zhongmingmao.top/2019/07/15/kafka-deploy-online/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Middleware MQ Kafka Stream

Related Articles

Kafka -- 常用脚本

脚本列表12345678connect-distributed kafka-consumer-perf-test kafka-reassign-partitions kafka-verifiable-producerconnect-standalone kafka-delegation-tokens kafka-replica-verification trogdorkafka-acls kafka-delete-records kafka-run-class zookeeper-security-migrationkafka-broker-api-versions kafka-dump-log kafka-server-start zookeeper-server-startkafka-configs ...

Kafka -- 生产者

生产者概述创建一个ProducerRecord对象，ProducerRecord对象包含Topic和Value，还可以指定Key或Partition 在发送ProducerRecord对象时，生产者先将Key和Partition序列化成字节数组，以便于在网络上传输字节数组被传给分区器如果在ProducerRecord对象里指定了Partition 那么分区器就不会做任何事情，直接返回指定的分区如果没有指定分区，那么分区器会根据ProducerRecord对象的Key来选择一个Partition 选择好分区后，生产者就知道该往哪个主题和分区发送这条记录这条记录会被添加到一个记录批次里，一个批次内的所有消息都会被发送到相同的Topic和Partition上有一个单独的线程负责把这些记录批次发送到相应的Broker 服务器在收到这些消息时会返回一个响应如果消息成功写入Kafka，就会返回一个RecordMetaData对象包含了Topic和Partition信息，以及记录在分区里的偏移量如果写入失败，就会返回一个错误生产者在收到错误之后会尝试重新发送消息，几次之后如果还...

Kafka -- 避免重平衡

概念 Rebalance是让Consumer Group下所有的Consumer实例就如何消费订阅主题的所有分区达成共识的过程在Rebalance过程中，所有Consumer实例共同参与，在协调者组件的帮助下，完成订阅主题分区的分配整个Rebalance过程中，所有Consumer实例都不能消费任何消息，因此对Consumer的TPS影响很大协调者协调者，即Coordinator，负责为Consumer Group执行Rebalance以及提供位移管理和组成员管理等 Consumer端应用程序在提交位移时，其实是向Coordinator所在的Broker提交位移 Consumer应用启动时，也是向Coordinator所在的Broker发送各种请求然后由Coordinator负责执行消费组的注册、成员管理记录等元数据管理操作所有Broker在启动时，都会创建和开启相应的Coordinator组件，所有Broker都有各自的Coordinator组件内部位移主题__consumer_offsets记录了为Consumer Group服务的Coordinator在哪一台Broker上...

Kafka -- 控制器

控制器控制器（Controller）是Kafka的核心组件，主要作用是在ZK的帮助下管理和协调整个Kafka集群集群中任一Broker都能充当控制器的角色，但在运行过程中，只能有一个Broker成为控制器，行使管理和协调的职责 12345678910111213[zk: localhost:2181(CONNECTED) 1] get /controller{"version":1,"brokerid":0,"timestamp":"1571311742367"}cZxid = 0xd68ctime = Thu Oct 17 19:29:02 CST 2019mZxid = 0xd68mtime = Thu Oct 17 19:29:02 CST 2019pZxid = 0xd68cversion = 0dataVersion = 0aclVersion = 0ephemeralOwner = 0x1000209974b0000dataLength = 54numChildren = 0 Zo...

Kafka -- 内部原理

群组成员关系 Kakfa使用ZooKeeper来维护集群成员的信息每个Broker都有一个唯一的ID，这个ID可以在配置文件里面指定，也可以自动生成在Broker启动的时候，通过创建临时节点把自己的ID注册到ZooKeeper Kakfa组件订阅ZooKeeper的/brokers/ids路径，当有Broker加入集群或者退出集群时，Kafka组件能获得通知如果要启动另一个具有相同ID的Broker，会得到一个错误，这个Broker会尝试进行注册，但会失败在Broker停机，出现网络分区或者长时间垃圾回收停顿时，Broker会从ZooKeeper上_断开连接_ 此时，Broker在启动时创建的临时节点会从ZooKeeper上自动移除（ZooKeeper特性）订阅Broker列表的Kafka组件会被告知该Broker已经被移除在关闭Broker时，它对应的临时节点也会消失，不过它的ID会继续存在于其他数据结构中例如，主题的副本列表里可能会包含这些ID 在完全关闭了一个Broker之后，如果使用相同的ID启动另一个全新的Broker 该Broker会立即加入集群，并拥有与旧Broker...

Kafka -- 重平衡

触发重平衡组成员数量发生变化 – 最常见订阅主题数量发生变化订阅主题的分区数发生变化通知重平衡过程是通过消费者的心跳线程通知到其它消费者实例的 Kafka Java消费者需要定期地发送心跳请求到Broker端的协调者，表明它还活着在Kafka 0.10.1.0之前，发送心跳请求是在消费者主线程完成的，即调用poll方法的那个线程弊端消息处理逻辑是也在主线程完成的一旦消息处理消耗了很长时间，心跳请求将无法及时发送给协调者，导致协调者误以为消费者已死从Kafka 0.10.1.0开始，社区引入了单独的心跳线程重平衡的通知机制是通过心跳线程来完成的当协调者决定开启新一轮重平衡后，会将REBALANCE_IN_PROGRESS封装进心跳请求的响应中当消费者实例发现心跳响应中包含REBALANCE_IN_PROGRESS，就知道重平衡要开始了，这是重平衡的通知机制 heartbeat.interval.ms的真正作用是控制重平衡通知的频率消费者组状态机状态描述 Empty 组内没有任何成员，但消费者组可能存在已提交的位移数据，而且这些位移尚未过期 ...