Elasticsearch是什么?
1个回答
展开全部
Elasticsearch是一个分布式文档存储。Elasticsearch存储的是序列化为JSON文档的复杂数据结构,而不是以列行数据的形式存储信息。当集群中有多个Elasticsearch节点时,存储的文档分布在整个集群中,可以立即从任何节点访问。
当存储文档时,它几乎是实时的——在1秒内就可以被索引和完全搜索。Elasticsearch使用了一种名为反向索引的数据结构,它支持非常快速的全文搜索。反向索引列出任何文档中出现的每个惟一单词,并标识每个单词出现的所有文档。
可以将索引看作是文档的优化集合,每个文档是字段的集合,这些字段是包含数据的键值对。默认情况下,Elasticsearch对每个字段中的所有数据进行索引,每个索引字段都有一个专用的、优化的数据结构。例如,文本字段存储在倒排索引中,数字和地理字段存储在BKD树中。使用每个字段的数据结构来组装和返回搜索结果的能力是Elasticsearch如此快速的原因
Elasticsearch还具有无模式的能力,这意味着可以对文档进行索引,而不必显式地指定如何处理文档中可能出现的每个不同字段。当动态映射被启用时,Elasticsearch会自动检测并向索引添加新的字段。这种默认行为使得创建索引和浏览数据变得很容易——只要开始创建索引文档,Elasticsearch就会检测布尔值、浮点值和整数值、日期和字符串,并将它们映射到合适的Elasticsearch数据类型。
但是,最终,您比Elasticsearch更了解您的数据以及您想如何使用它。您可以定义规则来控制动态映射,并显式地定义映射来完全控制字段的存储和索引方式。
定义您自己的映射使您能够:
为不同的目的以不同的方式为同一个字段建立索引通常是很有用的。例如,您可能希望将字符串字段索引为全文搜索的文本字段和用于排序或聚合数据的关键字字段。或者,您可以选择使用多个语言分析器来处理包含用户输入的字符串字段的内容
在索引期间应用于全文字段的分析链也在搜索时使用。当查询全文字段时,在索引中查找术语之前,查询文本会进行相同的分析。
虽然您可以使用Elasticsearch作为文档存储和检索文档及其元数据,但它的真正强大之处在于能够轻松访问构建在Apache Lucene搜索引擎库上的全套搜索功能。
Elasticsearch提供了一个简单、一致的REST API,用于管理集群、索引和搜索数据。出于测试目的,您可以直接从命令行或通过Kibana中的Developer Console轻松地提交请求。在应用程序中,您可以使用Elasticsearch客户端来选择语言:Java、JavaScript、Go、. net、PHP、Perl、Python或Ruby。
Elasticsearch REST api支持结构化查询、全文查询和结合这两种查询的复杂查询。结构化查询类似于您可以在SQL中构造的查询类型。例如,您可以在雇员索引中搜索性别和年龄字段,并根据hire_date字段对匹配项进行排序。全文查询查找与查询字符串匹配的所有文档,并根据相关度(它们与搜索词的匹配程度)返回它们。
除了搜索单个术语外,您还可以执行短语搜索、相似度搜索和前缀搜索,并获得自动补全建议。
是否有想要搜索的地理空间数据或其他数字数据?Elasticsearch在优化的数据结构中对非文本数据进行索引,支持高性能的地理和数字查询。
您可以使用Elasticsearch的全面的json风格的查询语言(query DSL)访问所有这些搜索功能。您还可以构造SQL风格的查询来在Elasticsearch内部本地搜索和聚合数据,JDBC和ODBC驱动程序允许许多第三方应用程序通过SQL与Elasticsearch交互。
Elasticsearch聚合使您能够构建复杂的数据总结,并洞察关键指标、模式和趋势。不只是寻找众所周知的“大海捞针”,聚合使您能够回答这样的问题:
您还可以使用聚合来回答更微妙的问题,例如
因为聚合利用了用于搜索的相同数据结构,所以它们也非常快。这使您能够实时分析和可视化数据。您的报告和仪表板会随着数据的更改而更新,因此您可以根据最新的信息采取行动。
What’s more, aggregations operate alongside search requests. You can search documents, filter results, and perform analytics at the same time, on the same data, in a single request. And because aggregations are calculated in the context of a particular search, you’re not just displaying a count of all size 70 needles, you’re displaying a count of the size 70 needles that match your users' search criteria—for example, all size 70 non-stick embroidery needles
Elasticsearch始终可用,并可根据您的需求进行扩展。它通过自然分配来做到这一点。您可以将服务器(节点)添加到集群中以增加容量,Elasticsearch会自动将您的数据和查询负载分布到所有可用的节点上。Elasticsearch不需要彻底检查应用程序,它知道如何平衡多节点集群以提供规模化和高可用性。节点越多越快乐
这是如何工作的呢?实际上,Elasticsearch索引只是一个或多个物理碎片的逻辑分组,其中每个碎片实际上是一个自包含的索引。通过将索引中的文档分布到多个分片上,并将这些分片分布到多个节点上,Elasticsearch可以确保冗余,既可以防止硬件故障,又可以随着节点添加到集群中而增加查询容量。随着集群的增长(或收缩),Elasticsearch会自动迁移碎片来重新平衡集群
有两种类型的分片:基本分片和复制分片。索引中的每个文档都属于一个主分片。复制分片是主分片的副本。副本提供数据的冗余副本,以防止硬件故障,并增加服务读取请求(如搜索或检索文档)的容量。
索引中主分片的数量在索引创建时是固定的,但是复制分片的数量可以在不中断索引或查询操作的情况下随时改变。
关于分片大小和为索引配置的主分片数量,有许多性能方面的考虑和权衡。碎片越多,维护这些索引的开销就越大。碎片的大小越大,当Elasticsearch需要重新平衡集群时,移动碎片所需的时间就越长。
查询大量的小分片可以使每个分片的处理速度更快,但是查询越多意味着开销越大,因此查询少量的大分片可能会更快。总之,这要看情况。
为您的用例确定最佳配置的最佳方法是通过使用您自己的数据和查询进行测试。
出于性能原因,集群内的节点需要位于同一个网络上。在不同数据中心的节点之间平衡集群中的分片花费的时间太长了。但是高可用性架构要求您避免把所有鸡蛋放在一个篮子里。当一个位置发生重大故障时,另一个位置的服务器需要能够接管。无缝。答案吗?Cross-cluster复制(CCR)。
CCR提供了一种从主集群自动同步索引到可作为热备份的辅助远程集群的方法。如果主集群故障,辅助集群可以接管。您还可以使用CCR创建辅助集群,以服务于与用户地理位置相近的读请求。
跨集群复制是主备复制。主集群上的索引是活动领导索引,并处理所有写请求。复制到次要集群的索引是只读的追随者。
与任何企业系统一样,您需要工具来保护、管理和监视您的Elasticsearch集群。安全、监控和管理特性集成到Elasticsearch中,使您能够使用Kibana作为管理集群的控制中心。数据汇总和索引生命周期管理等特性可以帮助您随着时间的推移智能地管理数据
当存储文档时,它几乎是实时的——在1秒内就可以被索引和完全搜索。Elasticsearch使用了一种名为反向索引的数据结构,它支持非常快速的全文搜索。反向索引列出任何文档中出现的每个惟一单词,并标识每个单词出现的所有文档。
可以将索引看作是文档的优化集合,每个文档是字段的集合,这些字段是包含数据的键值对。默认情况下,Elasticsearch对每个字段中的所有数据进行索引,每个索引字段都有一个专用的、优化的数据结构。例如,文本字段存储在倒排索引中,数字和地理字段存储在BKD树中。使用每个字段的数据结构来组装和返回搜索结果的能力是Elasticsearch如此快速的原因
Elasticsearch还具有无模式的能力,这意味着可以对文档进行索引,而不必显式地指定如何处理文档中可能出现的每个不同字段。当动态映射被启用时,Elasticsearch会自动检测并向索引添加新的字段。这种默认行为使得创建索引和浏览数据变得很容易——只要开始创建索引文档,Elasticsearch就会检测布尔值、浮点值和整数值、日期和字符串,并将它们映射到合适的Elasticsearch数据类型。
但是,最终,您比Elasticsearch更了解您的数据以及您想如何使用它。您可以定义规则来控制动态映射,并显式地定义映射来完全控制字段的存储和索引方式。
定义您自己的映射使您能够:
为不同的目的以不同的方式为同一个字段建立索引通常是很有用的。例如,您可能希望将字符串字段索引为全文搜索的文本字段和用于排序或聚合数据的关键字字段。或者,您可以选择使用多个语言分析器来处理包含用户输入的字符串字段的内容
在索引期间应用于全文字段的分析链也在搜索时使用。当查询全文字段时,在索引中查找术语之前,查询文本会进行相同的分析。
虽然您可以使用Elasticsearch作为文档存储和检索文档及其元数据,但它的真正强大之处在于能够轻松访问构建在Apache Lucene搜索引擎库上的全套搜索功能。
Elasticsearch提供了一个简单、一致的REST API,用于管理集群、索引和搜索数据。出于测试目的,您可以直接从命令行或通过Kibana中的Developer Console轻松地提交请求。在应用程序中,您可以使用Elasticsearch客户端来选择语言:Java、JavaScript、Go、. net、PHP、Perl、Python或Ruby。
Elasticsearch REST api支持结构化查询、全文查询和结合这两种查询的复杂查询。结构化查询类似于您可以在SQL中构造的查询类型。例如,您可以在雇员索引中搜索性别和年龄字段,并根据hire_date字段对匹配项进行排序。全文查询查找与查询字符串匹配的所有文档,并根据相关度(它们与搜索词的匹配程度)返回它们。
除了搜索单个术语外,您还可以执行短语搜索、相似度搜索和前缀搜索,并获得自动补全建议。
是否有想要搜索的地理空间数据或其他数字数据?Elasticsearch在优化的数据结构中对非文本数据进行索引,支持高性能的地理和数字查询。
您可以使用Elasticsearch的全面的json风格的查询语言(query DSL)访问所有这些搜索功能。您还可以构造SQL风格的查询来在Elasticsearch内部本地搜索和聚合数据,JDBC和ODBC驱动程序允许许多第三方应用程序通过SQL与Elasticsearch交互。
Elasticsearch聚合使您能够构建复杂的数据总结,并洞察关键指标、模式和趋势。不只是寻找众所周知的“大海捞针”,聚合使您能够回答这样的问题:
您还可以使用聚合来回答更微妙的问题,例如
因为聚合利用了用于搜索的相同数据结构,所以它们也非常快。这使您能够实时分析和可视化数据。您的报告和仪表板会随着数据的更改而更新,因此您可以根据最新的信息采取行动。
What’s more, aggregations operate alongside search requests. You can search documents, filter results, and perform analytics at the same time, on the same data, in a single request. And because aggregations are calculated in the context of a particular search, you’re not just displaying a count of all size 70 needles, you’re displaying a count of the size 70 needles that match your users' search criteria—for example, all size 70 non-stick embroidery needles
Elasticsearch始终可用,并可根据您的需求进行扩展。它通过自然分配来做到这一点。您可以将服务器(节点)添加到集群中以增加容量,Elasticsearch会自动将您的数据和查询负载分布到所有可用的节点上。Elasticsearch不需要彻底检查应用程序,它知道如何平衡多节点集群以提供规模化和高可用性。节点越多越快乐
这是如何工作的呢?实际上,Elasticsearch索引只是一个或多个物理碎片的逻辑分组,其中每个碎片实际上是一个自包含的索引。通过将索引中的文档分布到多个分片上,并将这些分片分布到多个节点上,Elasticsearch可以确保冗余,既可以防止硬件故障,又可以随着节点添加到集群中而增加查询容量。随着集群的增长(或收缩),Elasticsearch会自动迁移碎片来重新平衡集群
有两种类型的分片:基本分片和复制分片。索引中的每个文档都属于一个主分片。复制分片是主分片的副本。副本提供数据的冗余副本,以防止硬件故障,并增加服务读取请求(如搜索或检索文档)的容量。
索引中主分片的数量在索引创建时是固定的,但是复制分片的数量可以在不中断索引或查询操作的情况下随时改变。
关于分片大小和为索引配置的主分片数量,有许多性能方面的考虑和权衡。碎片越多,维护这些索引的开销就越大。碎片的大小越大,当Elasticsearch需要重新平衡集群时,移动碎片所需的时间就越长。
查询大量的小分片可以使每个分片的处理速度更快,但是查询越多意味着开销越大,因此查询少量的大分片可能会更快。总之,这要看情况。
为您的用例确定最佳配置的最佳方法是通过使用您自己的数据和查询进行测试。
出于性能原因,集群内的节点需要位于同一个网络上。在不同数据中心的节点之间平衡集群中的分片花费的时间太长了。但是高可用性架构要求您避免把所有鸡蛋放在一个篮子里。当一个位置发生重大故障时,另一个位置的服务器需要能够接管。无缝。答案吗?Cross-cluster复制(CCR)。
CCR提供了一种从主集群自动同步索引到可作为热备份的辅助远程集群的方法。如果主集群故障,辅助集群可以接管。您还可以使用CCR创建辅助集群,以服务于与用户地理位置相近的读请求。
跨集群复制是主备复制。主集群上的索引是活动领导索引,并处理所有写请求。复制到次要集群的索引是只读的追随者。
与任何企业系统一样,您需要工具来保护、管理和监视您的Elasticsearch集群。安全、监控和管理特性集成到Elasticsearch中,使您能够使用Kibana作为管理集群的控制中心。数据汇总和索引生命周期管理等特性可以帮助您随着时间的推移智能地管理数据
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询