“高可用性”（High Availability）通常来描述一个系统经过专门的设计，从而减少停工时间，而保持其服务的高度可用性。此模型是CAP中的AP模型。

单机的Redis是无法保证高可用性的，当Redis服务器宕机后，即使在有持久化的机制下也无法保证不丢失数据。所以我们采用Redis多机和集群的方式来保证Redis的高可用性。

主从复制

Redis支持主从复制功能，可以通过执行slaveof（Redis5以后改成replicaof）或者在配置文件中设置slaveof(Redis5以后改成replicaof)来开启复制功能。

一主一从：

一主多从：

传递复制：

主对外从对内，主可写从不可写
主挂了，从不可为主

主从配置

主Redis配置

无需特殊配置

从Redis配置

修改从服务器上的redis.conf文件：

# slaveof <masterip> <masterport>
# 表示当前【从服务器】对应的【主服务器】的IP是127.0.0.1，端口是6379。
replicaof 127.0.0.1 6379

作用

读写分离

一主多从，主从同步。主负责写，从负责读来提升Redis的性能和吞吐量，但是会产生主从的数据一致性问题。

数据容灾

从机是主机的备份，如果主机宕机，从机可读不可写，默认情况下主机宕机后，从机不可为主机。我们可以使用哨兵来实现主从切换，做到高可用。

原理与实现

复制流程

保存主节点信息

当客户端向从服务器发送SLAVEOF(REPLICAOF) 主机地址（127.0.0.1） 端口（6379）时：从服务器将主机ip（127.0.0.1）和端口（6379）保存到redisServer的masterhost和masterport中。

Struct redisServer{
 char *masterhost;//主服务器ip
 int  masterport;//主服务器端口
} ;

从服务器将向发送SLAVEOF命令的客户端返回OK，表示复制指令已经被接收，而实际上复制工作是在OK返回之后进行。

建立socket连接

slaver与master建立socket连接
slaver关联文件事件处理器（该处理器接收RDB文件（全量复制）、接收Master传播来的写命令（增量复制））

主服务器accept从服务器Socket连接后，创建相应的客户端状态。相当于从服务器是主服务器的Client端。

发送ping命令

Slaver向Master发送ping命令：

检测socket的读写状态
检测Master能否正常处理

Master的响应：

发送“pong” , 说明正常
返回错误，说明Master不正常
timeout，说明网络超时

权限验证

主从正常连接后，进行权限验证
主未设置密码（requirepass=“”），从也不用设置密码（masterauth=“”）
主设置密码(requirepass!="")，从需要设置密码(masterauth=主的requirepass的值)。或者从通过auth命令向主发送密码

发送端口信息

在身份验证步骤之后，从服务器将执行命令REPLCONF listening-port ，向主服务器发送从服务器的监听端口号。

同步数据

Redis 2.8之后分为全量同步和增量同步。

命令传播

当同步数据完成后，主从服务器就会进入命令传播阶段，主服务器只要将自己执行的写命令发送给从服务器，而从服务器只要一直执行并接收主服务器发来的写命令。

同步数据集

Redis 2.8以前使用SYNC命令同步复制。

Redis 2.8之后采用PSYNC命令替代SYNC。

旧版本

Redis 2.8以前

实现方式

Redis的同步功能分为同步(sync)和命令传播(command propagate)。

同步操作：

通过从服务器发送到SYNC命令给主服务器
主服务器生成RDB文件并发送给从服务器，同时发送保存所有写命令给从服务器
从服务器清空之前数据并执行解释RDB文件
保持数据一致（还需要命令传播过程才能保持一致）

命令传播操作：

同步操作完成后，主服务器执行写命令，该命令发送给从服务器并执行，使主从保存一致。

缺陷

没有全量同步和增量同步的概念，从服务器在同步时，会清空所有数据
主从服务器断线后重复制，主服务器会重新生成RDB文件和重新记录缓冲区的所有命令，并全量同步到从服务器上

新版

Redis 2.8以后

实现方式

在Redis 2.8之后使用PSYNC命令，具备完整重同步和部分重同步模式。

Redis 的主从同步，分为全量同步和增量同步
只有从机第一次连接上主机是全量同步
断线重连有可能触发全量同步也有可能是增量同步（ master 判断 runid 是否一致），除此之外的情况都是增量同步

全量同步

Redis的全量同步过程主要分三个阶段：

同步快照阶段：Master创建并发送快照RDB给 Slave，Slave载入并解析快照。Master同时将此阶段所产生的新的写命令存储到缓冲区
同步写缓冲阶段：Master向Slave同步存储在缓冲区的写操作命令
同步增量阶段： Master向Slave同步写操作命令

增量同步

Redis增量同步主要指Slave完成初始化后开始正常工作时，Master发生的写操作同步到Slave的过程
通常情况下，Master每执行一个写命令就会向Slave发送相同的写命令，然后Slave接收并执行

心跳检测

在命令传播阶段，从服务器默认会以每秒一次的频率向主服务器发送命令：

replconf ack <replication_offset>
#ack :应答
#replication_offset：从服务器当前的复制偏移量

主要作用有三个：

检测主从的连接状态
辅助实现min-slaves。Redis可以通过配置防止主服务器在不安全的情况下执行写命令，比如我们配制了min-slaves-to-write 3 （min-replicas-to-write 3 ）和min-slaves-max-lag 10 （min-replicas-max-lag 10），则表示从服务器的数量少于3个，或者三个从服务器的延迟（lag）值都大于或等于10秒时，主服务器将拒绝执行写命令。这里的延迟值就是上面info replication命令的lag值
检测命令丢失。如果因为网络故障，主服务器传播给从服务器的写命令在半路丢失，那么当从服务器向主服务器发送REPLCONF ACK命令时，主服务器将发觉从服务器当前的复制偏移量少于自己的复制偏移量，然后主服务器就会根据从服务器提交的复制偏移量，在复制积压缓冲区里面找到从服务器缺少的数据，并将这些数据重新发送给从服务器

哨兵模式

哨兵（sentinel）是Redis的高可用性(High Availability)的解决方案：

由一个或多个sentinel实例组成sentinel集群可以监视一个或多个主服务器和多个从服务器。当主服务器进入下线状态时，sentinel可以将该主服务器下的某一从服务器升级为主服务器继续提供服务，从而保证Redis的高可用性。

部署方案

搭建配置

在一台机器上采用伪分布式的方式部署（生产环境应该是多台机器）。根据上面的部署方案搭建如下：

Redis-Master ：127.0.0.1 6379

采用安装的方式，正常安装和配置

#1 安装redis5.0
mkdir redis-master
cd /var/redis-5.0.5/src/
make && make install PREFIX=/var/redis-ms/redis-master
cp /var/redis-5.0.5/redis.conf /var/redis-ms/redis-master/bin

#2 修改redis.conf
# 将`daemonize`由`no`改为`yes`
daemonize yes
# 默认绑定的是回环地址，默认不能被其他机器访问
# bind 127.0.0.1
# 是否开启保护模式，由yes该为no
protected-mode no

Redis-Slaver1：127.0.0.1 6380

#安装redis-slaver1
mkdir redis-slaver1
cp -r /var/redis-ms/redis-master/* /var/redis-ms/redis-slaver1

#修改配置文件
vim /var/redis-ms/redis-slaver1/redis.conf
port 6380
replicaof 127.0.0.1 6379

Redis-Slaver2：127.0.0.1 6381

#安装redis-slaver2
mkdir redis-slaver2
cp -r /var/redis-ms/redis-master/* /var/redis-ms/redis-slaver2

#修改配置文件
vim /var/redis-ms/redis-slaver2/redis.conf
port 6381
replicaof 127.0.0.1 6379

Redis-Sentinel1:127.0.0.1 26379

#安装redis-sentinel1
mkdir redis-sentinel1
cp -r /var/redis-ms/redis-master/* /var/redis-ms/redis-sentinel1

#拷贝sentinel.conf 配置文件并修改
cp /var/redis-5.0.5/sentinel.conf /var/redis-ms/redis-sentinel1

#修改配置文件
vim /var/redis-ms/redis-sentinel1/sentinel.conf
# 哨兵sentinel实例运行的端口 默认26379
port 26379
# 将`daemonize`由`no`改为`yes`
daemonize yes
# 哨兵sentinel监控的redis主节点的 ip port
# master-name 可以自己命名的主节点名字 只能由字母A-z、数字0-9 、这三个字符".-_"组成。
# quorum 当这些quorum个数sentinel哨兵认为master主节点失联 那么这时 客观上认为主节点失联了
# sentinel monitor <master-name> <ip> <redis-port> <quorum>
sentinel monitor mymaster 127.0.0.1 6379 2
# 当在Redis实例中开启了requirepass foobared 授权密码 这样所有连接Redis实例的客户端都要提
供密码
# 设置哨兵sentinel 连接主从的密码 注意必须为主从设置一样的验证密码
# sentinel auth-pass <master-name> <password>
sentinel auth-pass mymaster MySUPER--secret-0123password
# 指定多少毫秒之后 主节点没有应答哨兵sentinel 此时 哨兵主观上认为主节点下线 默认30秒，改成3
秒
# sentinel down-after-milliseconds <master-name> <milliseconds>
sentinel down-after-milliseconds mymaster 3000
# 这个配置项指定了在发生failover主备切换时最多可以有多少个slave同时对新的master进行同步，
这个数字越小，完成failover所需的时间就越长，
但是如果这个数字越大，就意味着越多的slave因为replication而不可用。
可以通过将这个值设为1来保证每次只有一个slave处于不能处理命令请求的状态。
# sentinel parallel-syncs <master-name> <numslaves>
sentinel parallel-syncs mymaster 1
# 故障转移的超时时间 failover-timeout 可以用在以下这些方面：
#1. 同一个sentinel对同一个master两次failover之间的间隔时间。
#2. 当一个slave从一个错误的master那里同步数据开始计算时间。直到slave被纠正为向正确的
master那里同步数据时。
#3.当想要取消一个正在进行的failover所需要的时间。 
#4.当进行failover时，配置所有slaves指向新的master所需的最大时间。不过，即使过了这个超时，
slaves依然会被正确配置为指向master，但是就不按parallel-syncs所配置的规则来了
# 默认三分钟
# sentinel failover-timeout <master-name> <milliseconds>
sentinel failover-timeout mymaster 180000

Redis-Sentinel2:127.0.0.1 26380

#安装redis-sentinel2
mkdir redis-sentinel2
cp -r /var/redis-ms/redis-sentinel1/* /var/redis-ms/redis-sentinel2

#修改sentinel.conf
vim /var/redis-ms/redis-sentinel2/sentinel.conf
port 26380

Redis-Sentinel3:127.0.0.1 26381

#安装redis-sentinel3
mkdir redis-sentinel3
cp -r /var/redis-ms/redis-sentinel1/* /var/redis-ms/redis-sentinel3

#修改sentinel.conf
vim /var/redis-ms/redis-sentinel3/sentinel.conf
port 26381

配置好后依次执行redis-master、redis-slaver1、redis-slaver2、redis-sentinel1、redis-sentinel2、redis-sentinel3

#启动redis-master和redis-slaver
在redis-master目录下  ./redis-server redis.conf
在redis-slaver1目录下  ./redis-server redis.conf
在redis-slaver2目录下  ./redis-server redis.conf

#启动redis-sentinel
在redis-sentinel1目录下 ./redis-sentinel sentinel.conf
在redis-sentinel2目录下 ./redis-sentinel sentinel.conf
在redis-sentinel3目录下 ./redis-sentinel sentinel.conf

#查看启动状态
[root@localhost bin]# ps -ef |grep redis
root    3602    1  0 01:33 ?     00:00:00 ./redis-server *:6379
root    3647    1  0 01:37 ?     00:00:00 ./redis-server *:6380
root    3717    1  0 01:40 ?     00:00:00 ./redis-server *:6381
root    3760    1  0 01:42 ?     00:00:00 ./redis-sentinel *:26379
[sentinel]
root    3765    1  0 01:42 ?     00:00:00 ./redis-sentinel *:26380
[sentinel]
root    3770    1  0 01:42 ?     00:00:00 ./redis-sentinel *:26381
[sentinel]
root    3783  2261  0 01:42 pts/0   00:00:00 grep --color=auto redis

执行流程

启动并初始化Sentinel

Sentinel是一个特殊的Redis服务器，其不会进行持久化。当Sentinel实例启动后，每个Sentinel会创建2个连向主服务器的网络连接：

命令连接：用于向主服务器发送命令，并接收响应
订阅连接：用于订阅主服务器的—sentinel—:hello频道

获取主服务器信息

Sentinel默认每10s一次，向被监控的主服务器发送info命令，获取主服务器和其下属从服务器的信息。

127.0.0.1:6379> info
# Server
redis_version:5.0.5
os:Linux 3.10.0-229.el7.x86_64 x86_64
run_id:a4e06ab61b4116660aa37b85079ed482b0b695b1

# Replication
role:master
connected_slaves:2
slave0:ip=127.0.0.1,port=6380,state=online,offset=1571684,lag=1
slave1:ip=127.0.0.1,port=6381,state=online,offset=1571551,lag=1
master_replid:366322125dd7dc9bc95ed3467cfec841c112e207
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:1571684
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:523109
repl_backlog_histlen:1048576

获取从服务器信息

当Sentinel发现主服务器有新的从服务器出现时，Sentinel还会向从服务器建立命令连接和订阅连接。在命令连接建立之后，Sentinel还是默认10s一次，向从服务器发送info命令，并记录从服务器的信息。

# Server
redis_version:5.0.5
os:Linux 3.10.0-229.el7.x86_64 x86_64
run_id:e289b3286352aaf8cc9f1ac7ebcc6d36131b8321

# Replication
role:slave
master_host:127.0.0.1
master_port:6379
master_link_status:up
master_last_io_seconds_ago:0
master_sync_in_progress:0
slave_repl_offset:1699595
slave_priority:100
slave_read_only:1
connected_slaves:0
master_replid:366322125dd7dc9bc95ed3467cfec841c112e207
master_replid2:0000000000000000000000000000000000000000
master_repl_offset:1699595
second_repl_offset:-1
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:651020
repl_backlog_histlen:1048576

向主服务器和从服务器发送消息(以订阅的方式)

默认情况下，Sentinel每2s一次，向所有被监视的主服务器和从服务器所订阅的—sentinel—:hello频道上发送消息，消息中会携带Sentinel自身的信息和主服务器的信息。

PUBLISH _sentinel_:hello "< s_ip > < s_port >< s_runid >< s_epoch > < m_name > <
m_ip >< m_port ><m_epoch>"

接收来自主服务器和从服务器的频道信息

当Sentinel与主服务器或者从服务器建立起订阅连接之后，Sentinel就会通过订阅连接，向服务器发送以下命令：

subscribe —sentinel—:hello

Sentinel彼此之间只创建命令连接，而不创建订阅连接，因为Sentinel通过订阅主服务器或从服务器，就可以感知到新的Sentinel的加入，而一旦新Sentinel加入后，相互感知的Sentinel通过命令连接来通信就可以了。

检测主观下线状态

Sentinel每秒一次向所有与它建立了命令连接的实例(主服务器、从服务器和其他Sentinel)发送PING命令。实例在down-after-milliseconds毫秒内返回无效回复(除了+PONG、-LOADING、-MASTERDOWN外)或者无回复时，Sentinel就会认为该实例主观下线(SDown)。

检查客观下线状态

当一个Sentinel将一个主服务器判断为主观下线后，Sentinel会向同时监控这个主服务器的所有其他Sentinel发送查询命令：

SENTINEL is-master-down-by-addr <ip> <port> <current_epoch> <runid>

其他Sentinel回复

<down_state>< leader_runid >< leader_epoch >

判断它们是否也认为主服务器下线。如果达到Sentinel配置中的quorum数量的Sentinel实例都判断主服务器为主观下线，则该主服务器就会被判定为客观下线(ODown)。

选举Leader Sentinel

当一个主服务器被判定为客观下线后，监视这个主服务器的所有Sentinel会通过选举算法（Raft），选出一个Leader Sentinel去执行failover（故障转移）操作。

哨兵leader选举

Raft

Raft协议是用来解决分布式系统一致性问题的协议。Raft协议描述的节点共有三种状态：Leade、Follower和 Candidate。Raft协议将时间切分为一个个的Term（任期），可以认为是一种“逻辑时间”。

选举流程：

Raft采用心跳机制触发Leader选举
系统启动后，全部节点初始化为Follower，term为0。
节点如果收到了RequestVote或者AppendEntries，就会保持自己的Follower身份
节点如果一段时间内没收到AppendEntries消息，在该节点的超时时间内还没发现Leader，Follower就会转换成Candidate，自己开始竞选Leader
一旦转化为Candidate，该节点立即开始几件事情：1、增加自己的term 2、启动一个新的定时器 3、给自己投一票 4、向所有其他节点发送RequestVote，并等待其他节点的回复
如果在计时器超时前，节点收到多数节点的同意投票，就转换成Leader。同时向所有其他节点发送AppendEntries，告知自己成为了Leader
每个节点在一个term内只能投一票，采取先到先得的策略，Candidate前面说到已经投给了自己，Follower会投给第一个收到RequestVote的节点

Raft协议的定时器采取随机超时时间，这是选举Leader的关键。在同一个term内，先转为Candidate的节点会先发起投票，从而获得多数票。

Sentinel的leader选举流程

某Sentinel认定Master客观下线后，该Sentinel会先看看自己有没有投过票，如果自己已经投过票给其他Sentinel了，在一定时间内自己就不会成为Leader
如果该Sentinel还没投过票，那么它就成为Candidate
Sentinel需要完成几件事情：1、更新故障转移状态为start 2、当前epoch加1，相当于进入一个新term，在Sentinel中epoch就是Raft协议中的term 3、向其他节点发送 is-master-down-by-addr 命令请求投票。命令会带上自己的epoch 4、给自己投一票（leader、leader_epoch）
当其它哨兵收到此命令时，可以同意或者拒绝它成为领导者（通过判断epoch）
Candidate会不断的统计自己的票数，直到他发现认同他成为Leader的票数超过一半而且超过它配置的quorum，这时它就成为了Leader
其他Sentinel等待Leader从Slave选出Master后，检测到新的Master正常工作后，就会去掉客观下线的标识

故障转移

当选举出Leader Sentinel后，Leader Sentinel会对下线的主服务器执行故障转移操作，主要有三个步骤：

它会将失效Master的其中一个Slave升级为新的Master，并让失效Master的其他Slave改为复制新的Master
当客户端试图连接失效的Master时，集群也会向客户端返回新Master的地址，使得集群可以使用现在的Master替换失效 Master
Master和Slave服务器切换后，Master的redis.conf、 Slave的redis.conf和sentinel.conf的配置文件的内容都会发生相应的改变。即：原Master主服务器的redis.conf配置文件中会多一行replicaof的配置，sentinel.conf的监控目标会随之调换

主服务器的选择

哨兵Leader根据以下规则从客观下线的主服务器的从服务器中选择出新的主服务器。

过滤掉主观下线的节点
选择slave-priority最高的节点，如果由则返回没有就继续选择
选择出复制偏移量最大的系节点，因为复制偏移量越大则数据复制的越完整，如果由就返回了，没有就继续
选择run_id最小的节点，因为run_id越小说明重启次数越少

集群与分区

分区是将数据分布在多个Redis实例（Redis主机）上，以至于每个实例只包含一部分数据。

分区的意义

性能的提升：单机Redis的网络I/O能力和计算资源是有限的，将请求分散到多台机器，充分利用多台机器的计算能力可网络带宽，有助于提高Redis总体的服务能力
存储能力的横向扩展：即使Redis的服务能力能够满足应用需求，但是随着存储数据的增加，单台机器受限于机器本身的存储容量，将数据分散到多台机器上存储使得Redis服务可以横向扩展

分区的方式

范围分区

根据id数字的范围比如1--10000、100001--20000…..90001-100000，每个范围分到不同的Redis实例中。这样做的好处是实现简单，方便迁移和扩展。缺陷就是热点数据分布不均匀，造成性能损失。

hash分区

利用简单的hash算法即可：Redis实例=hash(key)%N。这种分区的好处是支持任何数据类型的key，并且热点分布比较均匀，性能损耗低。缺点就是迁移较复杂，需要重新计算，扩展较差。

一致性hash分区

上述的简单hash算法分区最大的问题就是数据迁移影响太大。那么就延伸出了一致性hash算法，该算法就是使用机器的IP对2的32次方取模，来确定机器在hash环上的位置。用户的请求过来之后，根据同样的算法找到自己在hash环上的位置，并顺时针找到最近的服务器来提供服务。为了解决hash环偏移（即大多数的客户端或者数据打到了一台或几台服务器上，造成数据分布不均匀）的问题，我们使用虚拟节点来解决：即在服务搭建时，每个服务器在hash环上虚拟出几个节点，几个节点均指向该服务器，这样使数据分布均匀。

client端分区

即客户端自己实现上述的数据分区算法，再次不做详细赘述。

proxy端分区

在客户端和服务器端引入一个代理或代理集群，客户端将命令发送到代理上，由代理根据算法，将命令路由到相应的服务器上。常见的代理有Codis（豌豆荚）和TwemProxy（Twitter）。

部署架构

Codis由豌豆荚于2014年11月开源，基于Go和C开发，是近期涌现的、国人开发的优秀开源软件之一。

Codis 3.x 由以下组件组成：

Codis Server：基于 redis-3.2.8 分支开发。增加了额外的数据结构，以支持 slot 有关的操作以及数据迁移指令
Codis Proxy：客户端连接的 Redis 代理服务, 实现了 Redis 协议。除部分命令不支持以外，表现的和原生的 Redis 没有区别（就像 Twemproxy）。对于同一个业务集群而言，可以同时部署多个 codis-proxy 实例。不同 codis-proxy 之间由 codis-dashboard 保证状态同步
Codis Dashboard：集群管理工具，支持 codis-proxy、codis-server 的添加、删除，以及据迁移等操作。在集群状态发生改变时，codis-dashboard 维护集群下所有 codis-proxy 的状态的一致性。对于同一个业务集群而言，同一个时刻 codis-dashboard 只能有 0个或者1个。所有对集群的修改都必须通过 codis-dashboard 完成
Codis Admin：集群管理的命令行工具。可用于控制 codis-proxy、codis-dashboard 状态以及访问外部存储
Codis FE：集群管理界面。多个集群实例共享可以共享同一个前端展示页面。通过配置文件管理后端 codis-dashboard 列表，配置文件可自动更新
Storage：为集群状态提供外部存储。提供 Namespace 概念，不同集群的会按照不同 product name 进行组织。目前仅提供了 Zookeeper、Etcd、Fs 三种实现，但是提供了抽象的 interface 可自行扩展

分片原理

Codis 将所有的key默认划分为 1024 个槽位(slot)，它首先对客户端传过来的key进行crc32运算计算哈希值，再将 hash后的整数值对1024这个整数进行取模得到一个余数，这个余数就是对应key的槽位。

Codis的槽位和分组的映射关系就保存在codis proxy当中。

优点&缺点

优点

对客户端透明，与codis交互方式和redis本身交互一样
支持在线数据迁移，迁移过程对客户端透明有简单的管理和监控界面
支持高可用，无论是redis数据存储还是代理节点
自动进行数据的均衡分配
最大支持1024个redis实例，存储容量海量
高性能

缺点

采用自有的redis分支，不能与原版的redis保持同步
如果codis的proxy只有一个的情况下, redis的性能会下降20%左右
某些命令不支持

官方cluster分区

Redis3.0之后，Redis官方提供了完整的集群解决方案。方案采用去中心化的方式，包括：sharding（分区）、replication（复制）、failover（故障转移），称为RedisCluster。

Redis5.0前采用redis-trib进行集群的创建和管理，需要ruby支持。

Redis5.0可以直接使用Redis-cli进行集群的创建和管理。

部署架构

去中心化

RedisCluster由多个Redis节点组构成，是一个P2P无中心节点的集群架构，依靠Gossip协议传播的集群。

Gossip协议

Gossip协议是一个通信协议，一种传播消息的方式。

其起源于病毒传播。

Gossip协议基本思想就是：

一个节点周期性(每秒)随机选择一些节点，并把信息传递给这些节点。这些收到信息的节点接下来会做同样的事情，即把这些信息传递给其他一些随机选择的节点。信息会周期性的传递给N个目标节点。这个N被称为fanout（扇出）。gossip协议包含多种消息，包括meet、ping、pong、fail、publish等等。

命令	说明
meet	sender向receiver发出，请求receiver加入sender的集群
ping	节点检测其他节点是否在线
pong	receiver收到meet或ping后的回复信息；在failover后，新的Master也会广播pong
fail	节点A判断节点B下线后，A节点广播B的fail信息，其他收到节点会将B节点标记为下线
publish	节点A收到publish命令，节点A执行该命令，并向集群广播publish命令，收到publish命令的节点都会执行相同的publish命令

通过gossip协议，cluster可以提供集群间状态同步更新、选举自助failover等重要的集群功能。

slot

redis-cluster把所有的物理节点映射到[0-16383]个slot上，基本上采用平均分配和连续分配的方式。cluster 负责维护节点和slot槽的对应关系。当需要在 Redis 集群中放置一个 key-value 时，Redis先对key使用crc16算法算出一个结果，然后把结果对16384求余数，这样每个key都会对应一个编号在0-16383之间的哈希槽，redis会根据节点数量大致均等的将哈希槽映射到不同的节点。

RedisCluster的优势

高性能：Redis Cluster 的性能与单节点部署是同级别的
高可用：Redis Cluster 支持标准的主从复制配置来保障高可用和高可靠，支持failover，并且实现了一个类似Raft的共识方式，来保障整个集群的可用性
易扩展：向 Redis Cluster 中添加新节点，或者移除节点，都是透明的，不需要停机
原生：部署Redis Cluster不需要其他的代理或者工具，而且Redis Cluster和单机Redis几乎完全兼容

集群搭建

RedisCluster最少需要三台主服务器，三台从服务器，端口号分别为：7001~7006。

mkdir redis-cluster/7001
cd 7001
make && make install PREFIX=/var/redis-cluster/7001
cp /var/redis-5.0.5/redis.conf /var/redis-cluster/7001/bin

创建7001实例，并编辑redis.conf文件，修改port为7001

修改redis.conf配置文件，打开cluster-enable yes

复制7001，创建7002~7006实例，注意端口修改。

cp -r /var/redis-cluster/7001/* /var/redis-cluster/7002
cp -r /var/redis-cluster/7001/* /var/redis-cluster/7003
cp -r /var/redis-cluster/7001/* /var/redis-cluster/7004
cp -r /var/redis-cluster/7001/* /var/redis-cluster/7005
cp -r /var/redis-cluster/7001/* /var/redis-cluster/7006

创建start.sh，启动所有的实例

cd 7001/bin
./redis-server redis.conf
cd ..
cd ..
cd 7002/bin
./redis-server redis.conf
cd ..
cd ..
cd 7003/bin
./redis-server redis.conf
cd ..
cd ..
cd 7004/bin
./redis-server redis.conf
cd ..
cd ..
cd 7005/bin
./redis-server redis.conf
cd ..
cd ..
cd 7006/bin
./redis-server redis.conf

chmod u+x  start.sh (赋写和执行的权限)
./start.sh(启动RedisCluster)

创建Redis集群（创建时Redis里不要有数据）

./redis-cli --cluster create 192.168.72.128:7001
 192.168.72.128:7002 192.168.72.128:7003 192.168.72.128:7004
192.168.72.128:7005 192.168.72.128:7006 --cluster-replicas 1

命令客户端连接集群

./redis-cli -h 127.0.0.1 -p 7001 -c

注意：-c 表示是以redis集群方式进行连接。

示例连接操作如下：

root@localhost redis-cluster]# cd 7001
[root@localhost 7001]# ./redis-cli -h 127.0.0.1 -p 7001 -c
127.0.0.1:7001> set name1 aaa
-> Redirected to slot [12933] located at 127.0.0.1:7003
OK
127.0.0.1:7003>

我们看到，集群方式连接我们的客户端会自动跳转到对应槽位的服务器上。

查看集群状态

127.0.0.1:7003> cluster info

查看集群中的节点

127.0.0.1:7003> cluster nodes

分片

不同节点分组服务于相互无交集的分片（sharding），Redis Cluster不存在单独的proxy或配置服务器，所以需要将客户端路由到目标的分片。

客户端路由

Redis Cluster的客户端相比单机Redis 需要具备路由语义的识别能力，且具备一定的路由缓存能力。

moved重定向

每个节点通过通信都会共享Redis Cluster中槽和集群中对应节点的关系
客户端向Redis Cluster的任意节点发送命令，接收命令的节点会根据CRC16规则进行hash运算与16384取余，计算自己的槽和对应节点
如果保存数据的槽被分配给当前节点，则去槽中执行命令，并把命令执行结果返回给客户端
.如果保存数据的槽不在当前节点的管理范围内，则向客户端返回moved重定向异常
客户端接收到节点返回的结果，如果是moved异常，则从moved异常中获取目标节点的信息
客户端向目标节点发送命令，获取命令执行结果

[root@localhost bin]# ./redis-cli -h 127.0.0.1 -p 7001 -c
127.0.0.1:7001> set name:001 zhaoyun
OK
127.0.0.1:7001> get name:001
"zhaoyun"
[root@localhost bin]# ./redis-cli -h 127.0.0.1 -p 7002 -c
127.0.0.1:7002> get name:001
-> Redirected to slot [4354] located at 127.0.0.1:7001
"zhaoyun"
127.0.0.1:7001> cluster keyslot name:001
(integer) 4354

ask重定向

在对集群进行扩容和缩容时，需要对槽及槽中数据进行迁移。当客户端向某个节点发送命令，节点向客户端返回moved异常，告诉客户端数据对应的槽的节点信息。如果此时正在进行集群扩展或者缩空操作，当客户端向正确的节点发送命令时，槽及槽中数据已经被迁移到别的节点了，就会返回ask，这就是ask重定向机制。

客户端向目标节点发送命令，目标节点中的槽已经迁移支别的节点上了，此时目标节点会返回ask转向给客户端
客户端向新的节点发送Asking命令给新的节点，然后再次向新节点发送命令
新节点执行命令，把命令执行结果返回给客户端

JedisCluster

JedisCluster是Jedis根据RedisCluster的特性提供的集群智能客户端。

JedisCluster为每个节点创建连接池，并跟节点建立映射关系缓存（Cluster slots）。

JedisCluster将每个主节点负责的槽位一一与主节点连接池建立映射缓存。

JedisCluster启动时，已经知道key,slot和node之间的关系，可以找到目标节点。

JedisCluster对目标节点发送命令，目标节点直接响应给JedisCluster。

如果JedisCluster与目标节点连接出错，则JedisCluster会知道连接的节点是一个错误的节点，此时节点返回moved异常给JedisCluster，JedisCluster会重新初始化slot与node节点的缓存关系，然后向新的目标节点发送命令，目标命令执行命令并向JedisCluster响应。如果命令发送次数超过5次，则抛出异常"Too many cluster redirection!"。

JedisPoolConfig config = new JedisPoolConfig();
Set<HostAndPort> jedisClusterNode = new HashSet<HostAndPort>();
jedisClusterNode.add(new HostAndPort("192.168.127.128", 7001));
jedisClusterNode.add(new HostAndPort("192.168.127.128", 7002));
jedisClusterNode.add(new HostAndPort("192.168.127.128", 7003));
jedisClusterNode.add(new HostAndPort("192.168.127.128", 7004));
jedisClusterNode.add(new HostAndPort("192.168.127.128", 7005));
jedisClusterNode.add(new HostAndPort("192.168.127.128", 7006));
JedisCluster jcd = new JedisCluster(jedisClusterNode, config);
jcd.set("name:001","zhangfei");
String value = jcd.get("name:001");

迁移

在RedisCluster中每个slot 对应的节点在初始化后就是确定的。在某些情况下，节点和分片需要变更：

新的节点作为master加入
某个节点分组需要下线
负载不均衡需要调整slot 分布

此时需要进行分片的迁移，迁移的触发和过程控制由外部系统完成。包含下面 2 种：

节点迁移状态设置：迁移前标记源/目标节点
key迁移的原子化命令：迁移的具体步骤

向节点B发送状态变更命令，将B的对应slot状态置为importing
向节点A发送状态变更命令，将A对应的slot状态置为migrating
向A 发送migrate命令，告知A 将要迁移的slot对应的key 迁移到B
当所有key迁移完成后，cluster set slot重新设置槽位

扩容

先创建7007节点（无数据）

mkdir redis-cluster/7007
make && make install PREFIX=/var/redis-cluster/7007

添加7007结点作为新节点，并启动

./redis-cli --cluster add-node 192.168.72.128:7007
 192.168.72.128:7001

查看集群结点发现7007已添加到集群中

127.0.0.1:7001> cluster nodes
d277cd2984639747a17ca79428602480b28ef070 127.0.0.1:7003@17003 master - 0
1570457568602 3 connected 10923-16383
50b073163bc4058e89d285dc5dfc42a0d1a222f2 127.0.0.1:7007@17007 master - 0
1570457567000 0 connected
e7b1f1962de2a1ffef2bf1ac5d94574b2e4d67d8 127.0.0.1:7005@17005 slave
068b678923ad0858002e906040b0fef6fff8dda4 0 1570457569609 5 connected
068b678923ad0858002e906040b0fef6fff8dda4 127.0.0.1:7002@17002 master - 0
1570457566000 2 connected 5461-10922
51c3ebdd0911dd6564040c7e20b9ae69cabb0425 127.0.0.1:7004@17004 slave
af559fc6c82c83dc39d07e2dfe59046d16b6a429 0 1570457567000 4 connected
af559fc6c82c83dc39d07e2dfe59046d16b6a429 127.0.0.1:7001@17001 myself,master - 0
1570457567000 1 connected 0-5460
78dfe773eaa817fb69a405a3863f5b8fcf3e172f 127.0.0.1:7006@17006 slave
d277cd2984639747a17ca79428602480b28ef070 0 1570457567593 6 connected

添加完主节点需要对主节点进行hash槽分配，这样该主节才可以存储数据。

查看集群中槽占用情况

127.0.0.1:7001> cluster nodes
d277cd2984639747a17ca79428602480b28ef070 127.0.0.1:7003@17003 master - 0
1570457568602 3 connected 10923-16383
50b073163bc4058e89d285dc5dfc42a0d1a222f2 127.0.0.1:7007@17007 master - 0
1570457567000 0 connected
e7b1f1962de2a1ffef2bf1ac5d94574b2e4d67d8 127.0.0.1:7005@17005 slave
068b678923ad0858002e906040b0fef6fff8dda4 0 1570457569609 5 connected
068b678923ad0858002e906040b0fef6fff8dda4 127.0.0.1:7002@17002 master - 0
1570457566000 2 connected 5461-10922
51c3ebdd0911dd6564040c7e20b9ae69cabb0425 127.0.0.1:7004@17004 slave
af559fc6c82c83dc39d07e2dfe59046d16b6a429 0 1570457567000 4 connected
af559fc6c82c83dc39d07e2dfe59046d16b6a429 127.0.0.1:7001@17001 myself,master - 0
1570457567000 1 connected 0-5460
78dfe773eaa817fb69a405a3863f5b8fcf3e172f 127.0.0.1:7006@17006 slave
d277cd2984639747a17ca79428602480b28ef070 0 1570457567593 6 connected

给刚添加的7007结点分配槽

连接上集群（连接集群中任意一个可用结点都行）

./redis-cli --cluster reshard 192.168.72.128:7007

输入要分配的槽数量

How many slots do you want to move (from 1 to 16384)? 3000

输入接收槽的结点id

What is the receiving node ID?

输入：50b073163bc4058e89d285dc5dfc42a0d1a222f2

PS：这里准备给7007分配槽，通过cluster nodes查看7007结点id为：
50b073163bc4058e89d285dc5dfc42a0d1a222f2

输入源结点id

Please enter all the source node IDs.
Type 'all' to use all the nodes as source nodes for the hash slots.
Type 'done' once you entered all the source nodes IDs.

输入：all

输入yes开始移动槽到目标结点id

查看结果

127.0.0.1:7001> cluster nodes
95598dd50a91a72812ab5d441876bf2ee40ceef4 192.168.127.128:7003@17003 master - 0
1595301163000 3 connected 11922-16383
6ff20bf463c954e977b213f0e36f3efc02bd53d6 192.168.127.128:7007@17007 master - 0
1595301164568 7 connected 0-998 5461-6461 10923-11921
2191b40176f95a2a969bdcaccdd236aa01a3099a 192.168.127.128:7005@17005 slave
2dddc9d3925d129edd4c6bd5eab3bbad531277ec 0 1595301163000 5 connected
633af51cfdadb907e4d930f3f10082a77b256efb 192.168.127.128:7004@17004 slave
02fdca827762904854293590323bb398e6bee971 0 1595301164000 4 connected
1d35bec18fcc23f2c555a25563b1e6f2ffa3b0e9 192.168.127.128:7006@17006 slave
95598dd50a91a72812ab5d441876bf2ee40ceef4 0 1595301161521 6 connected
2dddc9d3925d129edd4c6bd5eab3bbad531277ec 192.168.127.128:7002@17002 master - 0
1595301162000 2 connected 6462-10922
02fdca827762904854293590323bb398e6bee971 192.168.127.128:7001@17001
myself,master - 0 1595301160000 1 connected 999-5460

添加7008从结点，将7008作为7007的从结点

./redis-cli --cluster add-node 新节点的ip和端口 旧节点ip和端口 --cluster-slave --
cluster-master-id 主节点id

例如：

./redis-cli --cluster add-node 192.168.72.128:7008 192.168.72.128:7007 --
cluster-slave --cluster-master-id 6ff20bf463c954e977b213f0e36f3efc02bd53d6

50b073163bc4058e89d285dc5dfc42a0d1a222f2是7007结点的id，可通过cluster nodes查看。

注意：如果原来该结点在集群中的配置信息已经生成到cluster-config-file指定的配置文件中（如果cluster-config-file没有指定则默认为nodes.conf），这时可能会报错：

[ERR] Node XXXXXX is not empty. Either the node already knows other nodes (check
with CLUSTER NODES) or contains some key in database 0

解决方法是删除生成的配置文件nodes.conf，删除后再执行./redis-cli --cluster add-node 指令

缩容

./redis-cli --cluster del-node 192.168.127.128:7008
 6be94480315ab0dd2276a7f70c82c578535d6666

删除已经占有hash槽的结点会失败，报错如下：

[ERR] Node 192.168.127.128:7008 is not empty! Reshard data away and try again.

需要将该结点占用的hash槽分配出去。

容灾（failover）

故障检测

集群中的每个节点都会定期地（每秒）向集群中的其他节点发送PING消息。

如果在一定时间内(cluster-node-timeout)，发送ping的节点A没有收到某节点B的pong回应，则A将B标识为pfail。

A在后续发送ping时，会带上B的pfail信息，通知给其他节点。

如果B被标记为pfail的个数大于集群主节点个数的一半（N/2 + 1）时，B会被标记为fail，A向整个集群广播，该节点已经下线。

其他节点收到广播，标记B为fail。

从节点选举

每个从节点，都根据自己对master复制数据的offset，来设置一个选举时间，offset越大（复制数据越多）的从节点，选举时间越靠前，优先进行选举。

slave通过向其他master发送FAILVOER_AUTH_REQUEST消息发起竞选，master收到后回复FAILOVER_AUTH_ACK消息告知是否同意。slave发送FAILOVER_AUTH_REQUEST 前会将currentEpoch自增，并将最新的Epoch带入到FAILOVER_AUTH_REQUEST消息中，如果自己未投过票，则回复同意，否则回复拒绝。所有的Master开始slave选举投票，给要进行选举的slave进行投票，如果大部分master node（N/2 + 1）都投票给了某个从节点，那么选举通过，那个从节点可以切换成master。

RedisCluster失效的判定：