solrcloud如何查看每个分片有多少个document

 我来答

1个回答

#热议# 生活中有哪些实用的心理学知识？

EvenHHZ
2016-10-25 · 知道合伙人软件行家

EvenHHZ
知道合伙人软件行家

采纳数：13691 获赞数：18845

个人出版图书：《玩转Python网络爬虫》、《玩转Django2.0》

向TA提问私信TA

关注

展开全部

Solr4.0包含了分布式的sorl解决方案solrCloud，可以做sharding切分，每个sharding中节点支持选举算法（leader,replica），在sharding里面支持query的负载均衡。
在集群启动时，就需要声明当shard、collection等信息，启动过程中把集群的状态信息维护在zookeeper节点里。
集群中的任何一台server都可以响应客户端的请求，包括索引操作和查询操作。
对于索引操作，solrCloud提供了简单的分片算法，即根据当前的索引记录的ID值做hash操作，后根据zookeeper中维护的集群的相关状态（Collection,RangeInfo,Range<min,max>）去查找hash值在哪个Range中，找到对应的shard；在该shard中 leader 中建立索引，Leader节点更新结束完成，最后将版本号和文档转发给同属于一个Shard的replicas节点。不过在建立索引时，shard的算法没有考虑到负载均衡，有可能往一个shard中一直插入，所以需要自己考虑进行shard的切分负载均衡。
关于shard切分的算法，这里提出个人的一点想法，简单一点的话可以独立维护Sharding切分管理模块，统计每个sharding的索引数量，根据统计的数量，进行索引分发；并针对每个shard维护BooleamFilter来快速的定位索引ID是否在该shard节点，以供查询用，当然如果整个索引key的量可以放在内存中的话，可以建立hash表存储。以上这种索引管理方式对动态的扩展shard也比较方便。
对于查询操作，如果不指定shard,会到该集群中所有的shard中查找，然后在被查的server中合并，每个shard中会自动的做负载均衡。
这里有值得改进的地方，如果查询参数中带有索引的唯一ID，就可以进行id 的hash算法，找到具体的shard，节省了其他shard的调用开销。
关于集群的动态扩展方面，考虑的还不太全面
集群节点动态的增加没有考虑，比如动态增加shard，或者shard中动态增加一个节点，据我了解，还没有很好的支持。

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

宝塔linux运维面板一键管理elasticsearch;

支持一键配置:LAMP/LNMP，网站，数据库，FTP，SSL，通过Web端轻松搞定elasticsearch一键解决Apache/nginx/Tomcat服务器管理难题。

www.bt.cn广告

运维要高效，便捷elasticsearch!

elasticsearch减少运维人力物力成本，让运维变简单;一键配置LAMP/LNMP，SSL，WEB，FTP.轻松搞定elasticsearch;

www.bt.cn广告

elasticsearchLLM开发系统学习+大型项目实战+内推就业

elasticsearch从零打造可商用+全流程+全栈的LLM应用开发LLMOps平台落地实战elasticsearch对标大厂标准，培养构建生成式 AI 原生应用的稀缺能力，快速成为AI高薪人才

class.imooc.com广告

solrcloud如何查看每个分片有多少个document

您可能关注的内容

其他类似问题

为你推荐：