solrcloud如何查看每个分片有多少个document

 我来答
EvenHHZ
2016-10-25 · 知道合伙人软件行家
EvenHHZ
知道合伙人软件行家
采纳数:13691 获赞数:18845
个人出版图书:《玩转Python网络爬虫》、《玩转Django2.0》

向TA提问 私信TA
展开全部
Solr4.0包含了分布式的sorl解决方案solrCloud,可以做sharding切分,每个sharding中节点支持选举算法(leader,replica),在sharding里面支持query的负载均衡。
在集群启动时,就需要声明当shard、collection等信息,启动过程中把集群的状态信息维护在zookeeper节点里。
集群中的任何一台server都可以响应客户端的请求,包括索引操作和查询操作。
对于索引操作,solrCloud提供了简单的分片算法,即根据当前的索引记录的ID值做hash操作,后根据zookeeper中维护的集群的相关状态(Collection,RangeInfo,Range<min,max>)去查找hash值在哪个Range中,找到对应的shard;在该shard中 leader 中建立索引,Leader节点更新结束完成,最后将版本号和文档转发给同属于一个Shard的replicas节点。不过在建立索引时,shard的算法没有考虑到负载均衡,有可能往一个shard中一直插入,所以需要自己考虑进行shard的切分负载均衡。
关于shard切分的算法,这里提出个人的一点想法,简单一点的话可以独立维护Sharding切分管理模块,统计每个sharding的索引数量,根据统计的数量,进行索引分发;并针对每个shard维护BooleamFilter来快速的定位索引ID是否在该shard节点,以供查询用,当然如果整个索引key的量可以放在内存中的话,可以建立hash表存储。以上这种索引管理方式对动态的扩展shard也比较方便。
对于查询操作,如果不指定shard,会到该集群中所有的shard中查找,然后在被查的server中合并,每个shard中会自动的做负载均衡。
这里有值得改进的地方,如果查询参数中带有索引的唯一ID,就可以进行id 的hash算法,找到具体的shard,节省了其他shard的调用开销。
关于集群的动态扩展方面,考虑的还不太全面
集群节点动态的增加没有考虑,比如动态增加shard,或者shard中动态增加一个节点,据我了解,还没有很好的支持。
本回答被网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 1条折叠回答
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式