opera92-CSDN博客

转载 ElasticSearch5.4集群搭建

一、集群角色多机集群中的节点可以分为master nodes和data nodes,在配置文件中使用Zen发现(Zen discovery)机制来管理不同节点。Zen发现是ES自带的默认发现机制，使用多播发现其它节点。只要启动一个新的ES节点并设置和集群相同的名称这个节点就会被加入到集群中。Elasticsearch集群中有的节点一般有三种角色:master node、data n

2017-12-01 10:17:11 824

转载 ElasticSearch中的text和keyword

在 ES2.x 版本字符串数据是没有 keyword 和 text 类型的，只有string类型，ES更新到5版本后，取消了 string 数据类型，代替它的是 keyword 和 text 数据类型，那么 keyword 和 text 有什么区别了？ Text 数据类型被用来索引长文本，比如说电子邮件的主体部分或者一款产品的介绍。这些文本会被分析，在建立索引前会将这些文本进行分词，转化为词的

2017-11-28 19:39:11 1386

转载 ElasticSearch搜索提示（Suggester）

如果自己亲手去试一下，可以看到Google在用户刚开始输入的时候是自动补全的，而当输入到一定长度，如果因为单词拼写错误无法补全，就开始尝试提示相似的词。那么类似的功能在Elasticsearch里如何实现呢？答案就在Suggesters API。 Suggesters基本的运作原理是将输入的文本分解为token，然后在索引的字典里查找相似的term并返回。根据使用场景的不同，Elast

2017-11-23 14:52:59 6138

转载 date_histogram

按时间统计编辑（测试数据：http://blog.csdn.net/wwd0501/article/details/78501842）如果搜索是在 Elasticsearch 中使用频率最高的，那么构建按时间统计的 date_histogram 紧随其后。为什么你会想用 date_histogram 呢？假设你的数据带时间戳。无论是什么数据（Apache 事

2017-11-23 14:08:40 10372

转载过滤（只会筛选出符合的文档，并不计算得分，且它可以缓存文档，单从性能考虑，过滤比查询更快。）

其实准确来说，ES中的查询操作分为2种：查询（query）和过滤（filter）。查询即是之前提到的query查询，它（查询）默认会计算每个返回文档的得分，然后根据得分排序。而过滤（filter）只会筛选出符合的文档，并不计算得分，且它可以缓存文档。所以，单从性能考虑，过滤比查询更快。换句话说，过滤适合在大范围筛选数据，而查询则适合精确匹配数据。一般应用时，应先使用过滤操作过滤数据，然后使

2017-11-22 17:41:05 404

转载聚合aggregattions

metric API的使用bucketing API的使用两类API的嵌套使用1. 聚合APIES中的Aggregations API是从Facets功能基础上发展而来，官网正在进行替换计划，建议用户使用Aggregations API，而不是Facets API。ES中的聚合上可以分为下面两类：metric（度量）聚合：度量类型聚合主要针对的number类型的数据，需

2017-11-22 16:28:47 585

转载 Facet切面统计（高版本中为aggregations）

尽管官网上强调，facet在以后的版本中将会从elasticsearch中移除，推荐使用aggregations。但在工作上，自己还是使用了facet。在阅读《Mastering Elasticsearch》的时候，看到了对facet的介绍，介绍的非常的实用和易懂，于是就摘译了一部分出来，供需要的参考。当使用ElasticSearch 刻面(faceting)机制时，需要牢记:刻

2017-11-22 16:16:06 482

转载有用的查询

例子基本匹配查询有两种方式进行基本全文（匹配）查询：使用轻量搜索API，传递的搜索参数是URL的一部分，或者使用完整的JSON请求包，可以在包中使用完整的Elasticsearch DSL。这里有一个基本匹配查询，要在所有字段中查询字符串“guide”：GET /bookdb_index/book/_search?q=guide这个查询的完整JSON包如下，它和

2017-11-22 15:33:23 353

转载图解Elasticsearch中的_source、_all、store和index属性

Elasticsearch中有几个关键属性容易混淆，很多人搞不清楚_source字段里存储的是什么？store属性的true或false和_source字段有什么关系？store属性设置为true和_all有什么关系？index属性又起到什么作用？什么时候设置store属性为true？什么时候应该开启_all字段？本文通过图解的方式，深入理解Elasticsearch中的_source、_all、

2017-11-21 17:46:03 477

转载聚合

Elasticsearch分析聚合介绍了分析聚合的REST命令，这篇博客介绍一下如何使用Java API。一、准备数据测试数据请参考我的上一篇博客:Elasticsearch分析聚合。二、需求查询title中包含关键字”程序”的文档，统计查询按编程语言分组，统计每组的文档数量。三、REST命令行REST命令行如下，有三部分，query查询所有titl

2017-11-21 17:40:10 312

转载高亮

5.1.1的搜索高亮和2.X有所变化，但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。注:从这篇博客开始，采用简写的代码风格，也就是Sence插件或者kibana的dev tools中采用的风格。(温馨提示:安装kibana 5.1.1,在dev tools中直接可以使用简单格式命令。)一、创

2017-11-21 17:33:45 386

转载 IK和pinyin分词器

一、拼音分词的应用拼音分词在日常生活中其实很常见，也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示：拼音分词是根据输入的拼音提示对应的中文，通过拼音分词提升搜索体验、加快搜索速度。下面介绍如何在Elasticsearch 5.1.1中配置和实现pinyin+iK分词。二、IK分词器下

2017-11-21 17:31:50 5085

转载 mget(可以通过索引、类型、或ID一次得到同一索引或不同索引库里的文档集合) & mapping

使用multi get API可以通过索引名、类型名、文档id一次得到一个文档集合，文档可以来自同一个索引库，也可以来自不同索引库。示例如下:MultiGetResponse multiGetItemResponses = client.prepareMultiGet() .add("twitter", "tweet", "1") //注释1

2017-11-21 17:20:04 580

转载批量增删改查--bulk

这篇博客介绍一下Elasticsearch对多个文档进行索引的简便方法。Bulk api的支持可以实现一次请求执行批量的添加、删除、更新等操作.Bulk操作使用的是UDP协议，UDP无法确保与ElasticSearch服务器通信时不丢失数据.一、Bulk API使用bulk命令时，REST API以_bulk结尾,批量操作写在json文件中，官网给出的语法格式：action_a

2017-11-21 16:58:05 773

转载删除索引、索引库、数据项

删除可以是删除整个索引库，也可以根据文档id删除索引库下的文档，还可以通过query查询条件删除所有符合条件的数据。一、删除整个索引库下面的例子会删除indexName索引：DeleteIndexResponse dResponse = client.admin().indices().prepareDelete(indexName)

2017-11-21 16:48:40 980

转载更新索引库

一、UpdateRequest创建一个UpdateRequest,然后将其发送给client.UpdateRequest uRequest = new UpdateRequest(); uRequest.index("blog"); uRequest.type("article"); uRequest.id("

2017-11-21 16:40:19 910

转载检索索引库（搜索操作）

上篇博客记录了如何用java调用api把数据写入索引，这次记录下如何搜索。一、准备数据 String data1 = JsonUtil.model2Json(new Blog(1, "git简介", "2016-06-19", "SVN与Git最主要的区别...")); String data2 = JsonUtil.model2Json(new Blog(2, "J

2017-11-21 16:07:46 842

转载 Elasticsearch生成json，创建索引（把数据写入索引中）

ElasticSearch JAVA API官网文档：https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-docs-index.html一、生成JSON创建索引的第一步是要把对象转换为JSON字符串.官网给出了四种创建JSON文档的方法：1.1手写方式生成String

2017-11-21 15:48:10 8705

转载 scrapy爬虫入门

我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问：把网站装进爬虫里，总共分几步？答案很简单，四步：新建项目 (Project)：新建一个新的爬虫项目明确目标（Items）：明确你想要抓取的目标制作爬虫（Spider）：制作爬虫开始爬取网页存储内容（Pipeline）：设计管道存储爬取内容好的，基本流

2017-11-20 20:55:36 346

转载 Elasticserch基础-01

1.厘清Elasticsearch的核心概念：（1）Near Realtime（NRT）：近实时，两个意思，从写入数据到数据可以被搜索到有一个小延迟（大概1秒）；基于es执行搜索和分析可以达到秒级（2）Cluster：集群，包含多个节点，每个节点属于哪个集群是通过一个配置（集群名称，默认是elasticsearch）来决定的，对于中小型应用来说，刚开始一个集群就一个节点很正常（3）No

2017-11-20 19:26:51 221

转载 Windows下安装python2和python3双版本

现在大家常用的桌面操作系统有：Windows、Mac OS、ubuntu，其中Mac OS 和 ubuntu上都会自带python。这里我们只介绍下Windows（我用的Win10）环境下的python2.x 和 python3.x 的安装，以及python2.x 与 python3.x 共存时的配置问题。本节内容python下载安装Python 2.x安装Python 3.x

2017-11-18 10:25:58 593

转载分布式爬虫搜索

--基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站Python分布式爬虫打造搜索引擎基于Scrapy、Redis、elasticsearch和django打造一个完整的搜索引擎网站未来是什么时代？是数据时代！数据分析服务、互联网金融，数据建模、自然语言处理、医疗病例分析……越来越多的工作会基于数据来做，而爬虫

2017-11-18 10:03:43 4540

转载 JavaScript调试技巧

了解你的工具可以极大的帮助你完成任务。尽管 JavaScript 的调试非常麻烦，但在掌握了技巧 (tricks) 的情况下，你依然可以用尽量少的的时间解决这些错误 (errors) 和问题 (bugs) 。我们会列出14个你可能不知道的调试技巧, 但是一旦知道了，你就会迫不及待的想在下次需要调试 JavaScript 代码的时候使用它们！现在开始。

2017-11-18 08:46:24 288

转载在Windows系统下搭建ELK日志分析平台

再记录一下elk的搭建，个人觉得挺麻烦的，建议还是在linux系统下搭建，性能会好一些，但我是在windows下搭建的，还是记录一下吧，像我这种记性差的人还是得靠烂笔头简介： ELK由ElasticSearch、Logstash和Kiabana三个开源工具组成： Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，

2017-11-16 17:52:25 402

转载各大数据库的配置 & logstash-out-mongodb实现elasticsearch到Mongodb的数据同步

本文主要实现将Elasticsearch中的索引数据Index同步到Mongodb中的集合collection中。0、前提1）已经安装好源数据库：elasticsearch V2.X; 2）已经安装好目的数据库：Mongodb; 3）已经安装好logstash及相关插件logstash-output-mongodbGoogle、Statckoverflow上充斥着mongd

2017-11-16 17:49:48 694

转载 elasticsearch配置文件详解

elasticsearch的config文件夹里面有两个配置文件：elasticsearch.yml和logging.yml，第一个是es的基本配置文件，第二个是日志配置文件，es也是使用log4j来记录日志的，所以logging.yml里的设置按普通log4j配置文件来设置就行了。下面主要讲解下elasticsearch.yml这个文件中可配置的东西。 cluster.name: ela

2017-11-16 17:48:07 528

转载使用Logstash-input-jdbc同步数据库中的数据（全量和增量）

1、数据同步方式全量同步与增量同步全量同步是指全部将数据同步到es，通常是刚建立es，第一次同步时使用。增量同步是指将后续的更新、插入记录同步到es。2、常用的一些ES同步方法1）、 elasticsearch-jdbc : 严格意义上它已经不是第三方插件。已经成为独立的第三方工具。不支持5.5.1。。。2）、elasticsearch-river-mysql插

2017-11-16 17:45:36 33756 14

转载利用Logstash的logstash-input-jdbc插件实现mysql增量导入ES

1，源码地址，官方介绍2， logstash-input-jdbc使用建议3, 官网介绍例子，使用 logstash-input-jdbc 到 elasticsearch一、安装 elastisearch, logstash参考我的上一篇链接：centos下 ELK部署文档二、安装logstash-input-jdbc插件logstash-inp

2017-11-16 17:18:20 3306

转载 Logstash导入数据库中的数据

所需软件版本信息elasticsearch-6.0.0-beta2.msi官方下载链接：https://www.elastic.co/downlo...请选择对应的操作系统版本kibana-6.0.0-beta2-windows-x86_64.zip官方下载链接：https://www.elastic.co/downlo...请选择对应的操作系统版本lo

2017-11-16 17:12:33 2181

转载 Elasticsearch增量索引

各版本可能配置会不一样，但大体思路是一致的：在使用 Elasticsearch 的时候，经常会涉及到要将其它数据源的数据导入到 Elasticsearch 中，今天就来介绍一下关于 Elasticsearch 从 MySQL 导入数据和增量索引的实现这里要用到一个 Elasticsearch 的插件 elasticsearch-jdbc需要的资源和版本 Ela

2017-11-16 16:16:49 3441

转载 Websocket-02

实现目标这一篇文章，就要直接实现聊天的功能，并且，在聊天功能的基础上，再实现缓存一定聊天记录的功能。第一步：聊天实现原理首先，需要明确我们的需求。通常，网页上的聊天，都是聊天室的形式，所以，这个例子也就有了一个聊天的空间的概念，只要在这个空间内，就能够一起聊天。其次，每个人都能够发言，并且被其他的人看到，所以，每个人都会将自己所要说的内容发送到后台，后台转发给每一个

2017-11-10 13:50:57 263

转载 websocket-00

Java web项目使用webSocket前端：@ page language="java" import="java.util.*" pageEncoding="UTF-8" %> String path = request.getContextPath(); String basePath = request.getScheme() + ":/

2017-11-10 13:49:51 308

转载 webSocket-01

学习背景很久以前就知道WebSocket，但那时不论是浏览器还是开发技术对它的支持都还很少。但是，Spring4突然发布，让我眼前一亮，Spring4直接支持WebSocket。对于Spring我还是很喜欢的，它让Java Web开发相当的有艺术感，这次支持的WebSocket又特别的和我的胃口，所以马上就去学习了。前提本文的内容，是建立在懂J2EE编程，使

2017-11-10 13:48:14 244

转载 Model和ModelAndView的区别

Model只是用来传输数据的，并不会进行业务的寻址。ModelAndView却是可以进行业务寻址的，就是设置对应的要请求的静态文件，这里的静态文件指的是类似jsp的文件。两者还有一个最大的区别，那就是Model是每一次请求都必须会带着的，但是ModelAndView是需要我们自己去新建的[java] view plain copy

2017-11-10 13:27:15 3497 1

转载 RabbitMq、ActiveMq、ZeroMq、kafka之间的比较

MQ框架非常之多，比较流行的有RabbitMq、ActiveMq、ZeroMq、kafka。这几种MQ到底应该选择哪个？要根据自己项目的业务场景和需求。下面我列出这些MQ之间的对比数据和资料。第一部分：RabbitMQ,ActiveMq,ZeroMq比较1、 TPS比较一ZeroMq 最好，RabbitMq 次之， ActiveMq 最差。这个结论来自于以下这

2017-11-09 17:15:01 197

转载 ActiveMq简单使用

本篇主要内容： 1、ActiveMQ安装 2、队列（queue） 3、主题（topic）ActiveMQ安装1、下载：http://activemq.apache.org/download.html2、安装：我下载的是windows版本的，解压。然后双击apache-activemq-5.14.3\bin\win64\activ

2017-11-09 16:41:42 290

转载 ActiveMq运行报错，解决方法

wrapper | 请按任意键继续. . . 解决方案：修改 conf->activemq.xml 配置文件 1000 and frame size to 100MB --> "openwire" uri="tcp://0.0.0.0:61616?maximumConnections=1000&wire

2017-11-09 16:31:36 4404

转载 RabbitMq--01

一、什么是RabbitMQ？用它能做什么？1.简介AMQP，即Advanced Message Queuing Protocol，高级消息队列协议，是应用层协议的一个开放标准，为面向消息的中间件设计。消息中间件主要用于组件之间的解耦，消息的发送者无需知道消息使用者的存在，反之亦然。AMQP的主要特征是面向消息、队列、路由（包括点对点和发布/订阅）、可靠性、安全。RabbitMQ是一个开源的

2017-11-09 16:26:21 148

转载 RabbitMq--00

一、下载Rabbit MQ 是建立在强大的Erlang OTP平台上，因此安装RabbitMQ之前要先安装Erlang。erlang：http://www.erlang.org/download.htmlrabbitmq：http://www.rabbitmq.com/download.html二、安装下载之后先安装erlang后安装rabbitmq，这里我把这两个安装在了D:

2017-11-09 16:25:13 187

转载 ActiveMq--03

这是ActiveMQ系列的最后一篇文章，主要是关于ActiveMQ集群，这里采用的方式是：Zookeeper+LevelDB+ActiveMQ。前面2篇博客地址如下：《ActiveMQ从入门到精通（一）》、《ActiveMQ从入门到精通（二）》。利用Zookeeper实现ActiveMQ的高可用话不多说，先来看一张ActiveMQ官方提供的架构图：

2017-11-09 15:42:11 162