redis cluster是个啥?

redis cluster是从3.0版本才正式推出的一个集群管理工具,用于实现redis的数据分片和ha部署。所以3.0版本之前是木有这个东西的,只能使用上面的方案。(3.0版本之前如何做数据分片,木有找到答案,看到的大牛求指教,qq:779653408)

cluster特点:

  • Redis 集群是一个网状结构,每个节点都通过 TCP 连接跟其他每个节点连接;
  • 所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽.
  • 节点的fail是通过集群中超过半数的节点检测失效时才生效.
  • 客户端与redis节点直连,不需要中间proxy层.客户端不需要连接集群所有节点,连接集群中任何一个可用节点即可

  • redis-cluster把所有的物理节点映射到[0-16383]slot上,cluster 负责维护node<->slot<->key,详情参考官网sharding章节

redis数据分片策略

方式:

Redis 集群有16384个哈希槽,每个key通过CRC16校验后对16384取模来决定放置哪个槽.集群的每个节点负责一部分hash槽,举个例子,比如当前集群有3个节点,那么:

  • 节点 A 包含 0 到 5500号哈希槽.
  • 节点 B 包含5501 到 11000 号哈希槽.
  • 节点 C 包含11001 到 16384号哈希槽.

这种结构很容易添加或者删除节点. 比如如果我想新添加个节点D, 我需要从节点 A, B, C中得部分槽到D上. 如果我像移除节点A,需要将A中得槽移到B和C节点上,然后将没有任何槽的A节点从集群中移除即可.

特点:

  • 集群支持多个key打包操作,但是前提是所有的这些key必须属于同一个hash slot,client端可以使用 hash tags 概念进行强制绑定多个key到同一个hash slot;
  • 扩展或移除节点非常方便,因为key是映射到slot的,和具体server没有直接关系,所以新增或删除server,只需要做slot迁移就可以了,可以保证key不失效;

redis集群可用性保证

  • 为了使在部分节点失败或者大部分节点无法通信的情况下集群仍然可用,所以集群使用了master-slave模型,每个节点都会有N-1个复制品.
  • 集群是否可用判断可以简单归结为:16384个hash slot是否全部存在,如果不完全存在,则集群不可用。因此正常情况任何一个master挂了,都会导致集群不可用,所以需要采用master-slave模型,到master挂了,立即选举出一个新的master保证集群可用。
  • master选举策略以及失败恢复后的节点是变成slave还是????

Redis 一致性保证

Redis 并不能保证数据的强一致性, 这意味这在实际中集群在特定的条件下可能会丢失写操作.,原因如下:

  1. 集群是用了异步复制. 写操作过程:
    1).客户端向主节点B写入一条命令;
    2).主节点B向客户端回复命令状态;
    3).主节点将写操作复制给他得从节点 B1, B2 和 B3.
    如果2完成后,在3未开始的情况下,master挂了,此时会出现数据不一致情况;

  2. 另外一种可能会丢失命令的情况是集群出现了网络分区, 并且一个客户端与至少包括一个主节点在内的少数实例被孤立。

    举个例子 假设集群包含 A 、 B 、 C 、 A1 、 B1 、 C1 六个节点, 其中 A 、B 、C 为主节点, A1 、B1 、C1 为A,B,C的从节点, 还有一个客户端 Z1 假设集群中发生网络分区,那么集群可能会分为两方,大部分的一方包含节点 A 、C 、A1 、B1 和 C1 ,小部分的一方则包含节点 B 和客户端 Z1 .

    Z1仍然能够向主节点B中写入, 如果网络分区发生时间较短,那么集群将会继续正常运作,如果分区的时间足够让大部分的一方将B1选举为新的master,那么Z1写入B中得数据便丢失了.

    注意, 在网络分裂出现期间, 客户端 Z1 可以向主节点 B 发送写命令的最大时间是有限制的, 这一时间限制称为节点超时时间(node timeout), 是 Redis 集群的一个重要的配置选项。

Redis 性能

  • redis节点不会对客户端的请求做代理,对于slot不在当前节点的key的请求,会通过返回重定向错误 -MOVED 和 -ASK错误码,客户端访问正确的节点,所以client端应该要缓存key和node的关系,从而避免二次访问,提高性能;
  • 不支持多key操作;

MOVED 重定向

一个 Redis 客户端可以自由地向集群中的任意节点(包括从节点)发送查询。接收的节点会分析查询,如果这个命令是集群可以执行的(就是查询中只涉及一个键),那么节点会找这个键所属的哈希槽对应的节点。

如果刚好这个节点就是对应这个哈希槽,那么这个查询就直接被节点处理掉。否则这个节点会查看它内部的 哈希槽 -> 节点ID 映射,然后给客户端返回一个 MOVED 错误。

一个 MOVED 错误如下:

GET x
-MOVED 3999 127.0.0.1:6381

客户端需要重新发送查询到给定 ip 地址和端口号的节点

leader节点的选举策略

(1)领着选举过程是集群中所有master参与,如果半数以上master节点与故障节点通信超过(cluster-node-timeout),认为该节点故障,自动触发故障转移操作.

(2):什么时候整个集群不可用(cluster_state:fail)?

a:如果集群任意master挂掉,且当前master没有slave.集群进入fail状态,也可以理解成集群的slot映射\[0-16383\]不完成时进入fail状态. ps : redis-3.0.0.rc1加入cluster-require-full-coverage参数,默认关闭,打开集群兼容部分失败.

b:如果集群超过半数以上master挂掉,无论是否有slave集群进入fail状态.

ps:当集群不可用时,所有对集群的操作做都不可用,收到((error) CLUSTERDOWN The cluster is down)错误

备份迁移

//TODO

Redis cluster 配置

//TODO

Redis cluster 重新分片

//TODO

文档

官方:

https://redis.io/topics/cluster-tutorial

http://www.redis.cn/topics/cluster-spec.html

中文翻译:

http://www.redis.cn/topics/cluster-tutorial.html

https://redis.io/topics/cluster-spec

results matching ""

    No results matching ""