稻草一根-CSDN博客

原创 kafka原理深入剖析和研究，kafka原理详细解读

一、为什么需要消息系统1.解耦：　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2.冗余：　　消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。3.扩展性：　...

2019-07-08 12:05:51 649

转载 zookeeper概念详细解答——终极篇

本人曾经使用过 ZooKeeper 作为 Dubbo 的注册中心，另外在搭建 Solr 集群的时候，我使用到了 ZooKeeper 作为 Solr 集群的管理工具。前几天，总结项目经验的时候，我突然问自己 ZooKeeper 到底是个什么东西？想了半天，脑海中只是简单的能浮现出几句话：Zookeeper 可以被用作注册中心。 Zookeeper 是 Hadoop 生态系统的一员。...

2019-06-28 14:22:36 357

原创个人学习日常bug总结-log4j:WARN Please initialize the log4j system properly.

log4j:WARN No appenders could be found for logger (com.netease.qa.testng.TestngRetry).log4j:WARN Please initialize the log4j system properly.一直都有上面的警告，因为没有影响程序就没管，知道是因为少了log4j.properties的配置问题，因为是日志...

2019-06-26 16:12:32 997

转载学习--Hbase 行键设计（rowkey）实现多条件查询

HBASE的使用跟业务逻辑有很强的关联性，就像本文里提到的例子使用ElasticSearch更合适。HBASE适合那种使用key-value模式的快速查询，多字段查询还是不适合它。所以大家如果看本文的话，就全当是加深对hbase过滤器的理解吧，内容概括起来就是实现一个使用位运算的比较器。摘要本文主要内容是通过合理hbase 行键（rowkey)设计实现快速的多条件查询，所采用的方法将所有...

2019-05-16 17:53:46 1220

原创 ElasticSearch 集群是如何保证数据的一致性和实时性？

1. 当我们在说一致性，我们在说什么？在分布式环境下，一致性指的是多个数据副本是否能保持一致的特性。在一致性的条件下，系统在执行数据更新操作之后能够从一致性状态转移到另一个一致性状态。对系统的一个数据更新成功之后，如果所有用户都能够读取到最新的值，该系统就被认为具有强一致性。分布式系统不可能同时满足一致性（C：Consistency）、可用性（A：Availability）和分...

2019-03-19 16:57:12 9660

转载 Elasticsearch Reindex性能提升改良

1、reindex的速率极慢，是否有办法改善？以下问题来自社区：https://elasticsearch.cn/question/3782问题1：reindex和snapshot的速率极慢，是否有办法改善？reindex和snapshot的速率比用filebeat或者kafka到es的写入速率慢好几个数量级（集群写入性能不存在瓶颈），reindex/snapshot的时候CPU还是IO使...

2019-03-11 14:29:14 678

原创【闲时分享】2019最新最全分类抖音热门音乐全合集37.61G

2019最新最全分类抖音热门音乐全合集37.61G某宝买的，还是比较全的音乐地址：http://www.kgraph.cn/detail.html?id=UFTYW2kBcGPkXi2vIyM_&i=game

2019-03-08 13:54:21 3103 1

原创 Apache jena SPARQL endpoint 实践异常解决

1.在linux下部署的，发现了一个问题：fuseki-server进程结束过一次（kill或者是ctrl+z或者是终端被关掉)，再次启动时会报错：DatasetPrefixesTDB WARN Mangled prefix map: graph name=java.lang.NullPointerExceptionXXXX......org.apache.jena.assem...

2018-11-20 16:29:58 2231 1

原创 Elasticsearch批量操作bulk原理解释

代价较小的批量操作与 mget 可以使我们一次取回多个文档同样的方式， bulk API 允许在单个步骤中进行多次 create 、 index 、 update 或 delete 请求。如果你需要索引一个数据流比如日志事件，它可以排队和索引数百或数千批次。bulk 与其他的请求体格式稍有不同，如下所示：{ action: { metadata }}\n{ request bod...

2018-11-13 14:30:49 6065

原创 ElasticSearch6.2.3 Java Client 连接安装Xpack的ES集群的Bug问题

ES集群安装X-pack之后java client连接报错：Settings settings = Settings.builder() .put("cluster.name", Config.clusterName) .put("client.transport.sniff", true) .p...

2018-11-12 17:53:07 5702 2

原创 Maven项目引入外部jar包的一种简单方式

mvn install:install-file -Dfile=x-pack-transport-6.2.3.jar -DgroupId=org.elasticsearch.client -DartifactId=x-pack-transport -Dversion=6.2.3 -Dpackaging=jarcmd 进入命令行cd 进入需要引入jar包文件夹执行上述命令即可...

2018-11-09 16:00:03 344

原创记spark与kafka连接的报错：org.apache.spark.SparkException: Couldn't find leaders for Set([bat_model_task,0])

程序一直运行正常，服务器异常kafka断开了一个broker，重新启动后抛出下面异常：18/10/22 23:24:41 INFO YarnClientSchedulerBackend: Application application_1536983779148_0365 has started running.18/10/22 23:24:41 INFO Utils: Successfu...

2018-10-23 11:38:26 2283

原创 Logstash连接kafka输出报错：Error registering plugin

Error registering plugin {:pipeline_id=>"main", :plugin=>"#<LogStash::OutputDelegator:0x761d397b @namespaced_metric=#<LogStash::Instrument::NamespacedMetric:0x2072e850 @metric=#<LogS...

2018-10-19 11:16:38 6561

原创 ElasticSearch对历史数据增加字段并对历史数据附初值

elasticsearch如何为类型添加字段并赋初值elasticsearch如何为指定索引中类型添加字段并赋初值，就像数据库中添加字段为老的数据赋初始值一样。用update_by_query结合script可以办到，例如:POST my_index/_update_by_query{ "script": { "lang": "painless", "inline...

2018-08-23 10:08:57 5755

原创 Elasticsearch6.2.3版本的heap size设置

在默认情况下，弹性搜索告诉JVM使用最少和最大大小为1 GB的堆。在迁移到生产环境时，配置堆大小是很重要的，以确保弹性搜索有足够的堆可用。弹性搜索将分配jvm中指定的整个堆。通过Xms（最小堆大小）和Xmx（最大堆大小）设置选项。这些设置的值取决于服务器上可用RAM的数量。好的经验法则是：将最小堆大小（Xms）和最大堆大小（Xmx）设置为相等。弹性搜索的可用堆越多，它就可以用于缓存的内存越多。但是...

2018-07-03 11:12:29 3598

原创 SparkStreaming程序优化小记

最近公司部署了一个sparkstreaming程序，主要逻辑是处理flume采集到kafka的数据，集群环境3个nodemanager，5核20G内存，刚开始测试阶段并没设置资源配置，直接丢在yarn上运行，每天的数据量大概2500万records。测试几天后发现数据处理时间延迟稍微长了一点，怀疑是程序处理数据的数据低于数据产生的数据，随着时间和数据的增加，这个时间延迟越来越大，遂决定对程序进行相...

2018-06-14 17:39:39 3934

转载 ElasticSearch java API - 聚合查询

以球员信息为例，player索引的player type包含5个字段，姓名，年龄，薪水，球队，场上位置。index的mapping为："mappings": { "player": { "properties": { "name": { "index": "not_analyzed", "type": "string"

2018-05-18 14:36:23 612

原创 Elasticsearch使用java API 查询时间范围内匹配某个关键字并对查询结果内按某个字段进行GroupBy操作

Elasticsearch使用java API 查询时间范围内匹配某个关键字并对查询结果内按某个字段进行GroupBy操作，我们业务需求是求某个手机前缀在某个时间范围内每个imsi对应的总数代码如下： public void searchByPrefix(List<String> prefixList , String fromTime , String endTime){...

2018-05-18 14:24:23 5931

转载 Spark Streaming详解----概述、基本概念、性能调优

本文章主要讲述SparkStreaming概念原理、基本概念、以及调优等一些知识点。1 概述1.1 SparkStreaming是什么Spark Streaming 是个批处理的流式（实时）计算框架。其基本原理是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，便可以用于处理实时数据流。　支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、...

2018-04-26 09:33:57 6892

原创 ElasticSearch6.X版本Java Api中文详解（八）之Reindex API解析

BulkByScrollResponse response = ReindexAction.INSTANCE.newRequestBuilder(client) .destination("target_index") .filter(QueryBuilders.matchQuery("category", "xzy")) .get();可选地，可以提供一个查询来筛选从源到目...

2018-04-25 14:55:08 1113

原创 ElasticSearch6.X版本Java Api中文详解（七）之Update By Query API解析

updateByQuery最简单的用法是更新索引中的每个文档，而无需更改源。这种用法允许拾取新属性或另一个在线映射更改。UpdateByQueryRequestBuilder updateByQuery = UpdateByQueryAction.INSTANCE.newRequestBuilder(client);updateByQuery.source("source_index")....

2018-04-25 14:53:05 16062 4

原创 ElasticSearch6.X版本Java Api中文详解（六）之Using Bulk Processor解析

Using Bulk Processor提供了一个简单的接口，可以根据请求的数量或大小，或者在给定的时间段后自动刷新批量操作。要使用它，首先要创建一个散货处理器实例：import org.elasticsearch.action.bulk.BackoffPolicy;import org.elasticsearch.action.bulk.BulkProcessor;import org.el...

2018-04-25 14:42:21 4599

原创 ElasticSearch6.X版本Java Api中文详解（五）之Multi Get API、Bulk API解析

1.Multi Get APImulti get API允许根据它们的索引、类型和id获取文档列表：MultiGetResponse multiGetItemResponses = client.prepareMultiGet() .add("twitter", "tweet", "1") .add("twitter", "tweet", "2", &

2018-04-25 14:36:43 739

原创 ElasticSearch6.X版本Java Api中文详解（四）之Update API解析

你可以创建一个UpdateRequest并将它发送给客户端：UpdateRequest updateRequest = new UpdateRequest();updateRequest.index("index");updateRequest.type("type");updateRequest.id("1");updateRequest.doc(jsonBuilder() ...

2018-04-25 14:33:44 1763

原创 ElasticSearch6.X版本Java Api中文详解（三）之Get Api、Delete API 、Delete By Query API解析

Get DeleteDelete By QueryGet Apiget API允许根据它的id从索引中获得一个类型化的JSON文档，下面的例子从一个名为twitter的索引中获得一个JSON文档，在一个名为tweet的类型下，id值为1：GetResponse response = client.prepareGet("twitter", "tweet", "1").get();Delete Ap...

2018-04-25 14:26:48 3275 1

原创 ElasticSearch6.X版本Java Api中文详解（二）之Index Api解析

Inde API允许将类型化JSON文档索引到特定索引中，并使其可搜索。生成JSON文档有几种不同的方法:1.手动(也就是自己使用)使用本机字节[]或作为字符串。2.使用将自动转换为其JSON等效的映射。3.使用第三方库序列化您的bean，如Jackson。4.使用内置的助手XContentFactory.jsonBuilder()在内部，每个类型转换为byte[](...

2018-04-23 09:43:50 5799 1

原创 ElasticSearch6.X版本Java Api中文详解（一）之TransportClient客户端连接方式

TransportClient使用传输模块远程连接到一个弹性搜索集群。它不加入集群，但只获得一个或多个初始传输ip地址，并在每个动作上与它们进行轮询(尽管大多数操作可能是"two hop" 操作)。// on startupTransportClient client = new PreBuiltTransportClient(Settings.EMPTY) .addTran...

2018-04-20 14:33:42 11374 1

转载提高ElasticSearch 索引速度几个方向

我Google了下，大致给出的答案如下：使用bulk API初次索引的时候，把 replica 设置为 0增大 threadpool.index.queue_size增大 indices.memory.index_buffer_size增大 index.translog.flush_threshold_ops增大 index.translog.sync_interval增大 index.engin...

2018-04-19 09:53:58 2549

原创编写hbase协处理器observer遇到的问题

一、第一个异常信息，配置文件错误java.io.IOException: Aborting flush because server is aborted... at org.apache.hadoop.hbase.regionserver.HRegion.internalPrepareFlushCache(HRegion.java:2269) at org.apach...

2018-04-13 18:47:15 1127

转载七牛是如何搞定每天500亿条日志的

概述数据平台在大部分公司都属于支撑性平台，做的不好立刻会被吐槽，这点和运维部门很像。所以在技术选型上优先考虑现成的工具，快速出成果，没必要去担心有技术负担。早期，我们走过弯路，认为没多少工作量，收集存储和计算都自己研发，发现是吃力不讨好。去年上半年开始，我们全面拥抱开源工具，搭建自己的数据平台。公司的主要数据来源是散落在各个业务服务器上的半结构化日志，比如系统日志、程序日志、访问日志、审计日志...

2018-03-25 10:42:33 338

原创简述对面向对象思想的理解

面向对象思想得由来是，起初我们的需求单一或者特别简单时，可以一步一步的去进行操作，并且效率也不是很低，可是随着需求进一步的提高，所需要实现的功能也就越多，我们发现需要面对的每一个步骤很麻烦，所以就开始探索，可不可以将这些步骤和功能再进行封装，封装时根据不同的功能，进行不同的封装，功能类似的封装在一起。这样结构就清晰明了了，用得时候直接找到对应的类就行了。面向对象其实就是基于面...

2018-01-10 16:38:14 6869 1

转载 Mysql启动报错：Unit mysql.service failed to load: No such file or directory的解决办法

1、软件环境：OpenSUSE 13.1 x64MySQL 5.6.20 x642、采用RPM包安装MySQL 5.6.20[python] view plain copy# rpm -ivh MySQL-server-5.6.20-1.sles11.x86_64.rpm # rpm -ivh MySQL

2017-11-15 11:33:27 16417 1

原创 ambari安装hive以mysql作为元数据存储建表失败的解决办法

这几天项目上线，需要新安装hive在生产环境上，元数据准备就直接用mysql进行存储，因为行内生产环境肯定不能随随便便就安装一个mysql，所有的数据必须由DBA数据中心进行申请操作，所以我们向DBA提交了建库申请，DBA同事也帮我们建好了hive的元数据存储库，继而我们直接在ambari进行傻瓜式安装hive填上了相应的数据库名，用户名，表名等等，测试连接通过，直接next，但是在最后deplo

2017-11-02 11:05:15 1959

原创 Flink集群部署详细步骤

1.下载Flink压缩包下载地址：http://flink.apache.org/downloads.html。我集群环境是hadoop2.6，Scala2.11版本的，所以下载的是：flink-1.3.1-bin-hadoop26-scala_2.11.tgz。2.解压上传至五个节点的相同目录，执行如下命令解压： tar xzf flink-1.3.1-bin-ha...

2017-07-28 15:01:01 14499

原创在Centos6.5版本分布式安装Glusterfs3.8版本

1. 登入root用户sudo su root 2. 设置主机名修改hostname文件，以及hosts文件添加如下设置，使集群中的主机可以通过主机名进行访问：10.0.101.2 gfs110.0.101.191 gfs210.0.101.213 gfs310.0.101.61 gfs_cli 10.20.32.19 VM_32_19_centos10

2017-07-26 11:49:12 2780

原创 Linux升级glibc库至2.15版本的快速解决办法

首先下载2.15所需的各种安装包如下：rpm -Uvh glibc-2.15-60.el6.i686.rpm \glibc-devel-2.15-60.el6.i686.rpm \glibc-utils-2.15-60.el6.x86_64.rpm \glibc-2.15-60.el6.x86_64.rpm \glibc-common-2.15-60.el6.x86_64.rpm \

2017-07-25 15:57:28 9103 3

原创 Linux中出现libc.so.6(GLIBC_2.14)(64bit) is needed by...的解决办法

原因是因为系统的glibc版本不符合安装要求，可以对glibc进行升级。下载响应安装包：http://ftp.gnu.org/gnu/glibc/glibc-2.14.tar.gz。解压： tar xvf glibc-2.14.tar.gz 进入glibc-2.14目录：cd glibc-2.14 创建build文件夹：mkdir build 进入build目录：cd buil...

2017-07-25 14:11:27 74634 17

原创 ELK日志平台搭建logstash+elasticsearch+redis+Kibana

安装redis首先下载rediswget http://download.redis.io/releases/redis-3.0.4.tar.gz下载之后解压，编译安装tar -zvxf redis-3.0.4.tar.gzmakemake install然后启动redisredis-server redis.conf &添加&符号表示后台启动安装logst

2017-07-21 15:46:03 872

原创使用SecureCRT等工具时如何让Kibana一直后台运行

在搭建ELK平台时，因为我一般使用CRT进行SSH连接，但是因为Kibana是解压安装，所以当我们关闭SSH连接后程序就结束了，要想让程序在后台运行，我们可以使用nohup命令[root@hdp5 kibana-4.1.2]# nohup /root/Apps/kibana-4.1.2/bin/kibana &[1] 3266[root@hdp5 kibana-4.1.2]# nohup:

2017-07-21 15:09:48 1500

原创 Hue整合Mysql数据库的安装配置

前言：在泰国，一个全新的应用程序允许查看MySQL、PostgreSQL、Oracle和Sqlite的数据。受Beeswax应用程序的启发，它允许您查询关系数据库并在表中查看它。在hue的hue.ini配置文件中添加mysql，定位到databases位置根据服务器上需要查看的数据库的信息更改响应配置。简单配置如下：#########################################...

2017-07-19 17:15:40 4757