Eric-L90-CSDN博客

原创记录一次namenode ha中一个namenode失效处理过程

生产环境中，一次重启，ha中一个namenode下image全部消失，最后没找到原因，所以进行恢复首先进入安全模式: hdfs dfsadmin -safemode enter 然后刷一下active节点的log到image hdfs dfsadmin -saveNamespace 然后将active节点的image文件全部拷贝到故障节点的相应目录下然后重启故障namenode ...

2018-06-04 19:17:34 1216

转载 ES集群配置参考

aws现在提供ES服务，但是如果我们自己搭建集群，可以参考一下aws的设计，应该会少踩不少坑。 https://docs.aws.amazon.com/elasticsearch-service/latest/developerguide/petabyte-scale.html master node的设计: https://docs.aws.amazon.com/elasticsearch-...

2018-06-04 18:56:03 1404

转载常用压测以及流量攻击工具

hping3 https://blog.csdn.net/freeking101/article/details/72582964/ apache ab http://www.cnblogs.com/netflu/archive/2010/01/07/1641101.html https://blog.csdn.net/fdipzone/article/details/9090625ipe...

2018-06-04 17:18:17 5947 1

原创 Chrome屏蔽CSDN广告的解决办法

之前一直使用CSDN写博客，但是有段时间CSDN的客户体验极度不好。我也是醉了，直接拿客户来测试新产品的好坏，也是极度牛逼的，自己用wordpress在阿里云上搭建了一个，还挺好玩的，但是想了一下，还得自己维护，就考虑还是用现有的吧，一个是CSDN，一个是Segmentfault这个，这两个同时更新吧，但是CSDN上的广告实在是太猖狂了。搜过几次洗牙，然后整天在blog旁边显示各种坏牙图片，恶不恶...

2018-05-23 10:22:45 2972

原创 flink提交到yarn报错:Stack trace: ExitCodeException exitCode=3

2018-03-27 03:42:43,792 INFO org.apache.hadoop.yarn.server.resourcemanager.rmapp.RMAppImpl: Application application_1522121766020_0001 failed 2 times due to AM Container for appattempt_1522121766020_0...

2018-03-27 15:09:36 3308

原创 Intellij Lambda expressions are not supported at this language level

jdk是1.8版本，但是在写代码的时候还是碰到了这个错误。查了一下，是因为版本没匹配好。解决方法如下： File -> Project Structure -> Project -> Project Language Level File -> Project Structure -> Modules -> Language Level如下: ...

2018-03-16 11:09:40 1289

原创 Docker 删除容器日志

在使用docker的时候，我们经常通过 docker logs -f containername或者id 但是有时候日志很多。很麻烦。所以需要清理一下对应container的日志。默认情况下，daocker日志一般放在以下目录： /var/lib/docker/containers/ 然后找到对应的container，然后进去，通过echo “” > **.log 即可...

2018-02-08 18:13:36 5749

转载配置高性能ElasticSearch集群的9个小贴士<重要>

转载自:http://www.linuxidc.com/Linux/2017-01/139165.htm Loggly服务底层的很多核心功能都使用了ElasticSearch作为搜索引擎。就像Jon Gifford（译者注：Loggly博客作者之一）在他近期关于“ElasticSearch vs Solr”的文章中所述，日志管理在搜索技术方面产生一些粗暴的需求，坚持下来以后，它必须能够：在超大规模

2017-11-23 16:44:18 669

原创 jvm 开始压缩指针

在jvm的heap配置小于32的时候jvm参数配置如下: -XX:+UseCompressedOops -XX:+UnlockDiagnosticVMOptions -XX:+PrintCompressedOopsMode参考链接: http://www.iteye.com/topic/470404 http://blog.sina.com.cn/s/blog_56d8ea900102w2

2017-11-23 14:51:50 853

转载一个非常好的大数据学习网站

http://www.apachecn.org/ 各种开源大数据文档的中文翻译，storm，spark，es等等。值得一看。

2017-11-13 22:25:36 5928

转载 Octave 使用 plot 未响应

转自:http://blog.csdn.net/novostary/article/details/48008681 在 Octave 命令行中执行 graphics_toolkit，看看输出是什么。我的输出的是:ans = qt查看可用的图形工具:>> available_graphics_toolkitsans ={ [1,1] = fltk [1,2] = gnuplot

2017-11-01 23:22:32 1152

原创 pip安装python库中的一些错误

gcc: error trying to exec ‘cc1plus’: execvp: No such file or directory 缺少g++,解决:yum install gcc-c++ windows机器上遇到的问题: ImportError: No module named scipy 这个是因为windos上缺少一些库，所以比较容易出问题。对linux和macos支持比较好

2017-10-21 18:55:43 707

原创 python 通过pip生成requirements.txt,以及通过该文件导入依赖库

requirements.txt是用来记录需要哪些依赖库。生成: pip freeze > requirements.txt 导入: pip install -r requirements.txt 完成。

2017-10-21 16:33:27 7535

原创安装IPython Notepad

详细文档：https://jupyter.readthedocs.io/en/latest/install.html 简单点就是: pip install jupyter 完成之后启动: https://jupyter.readthedocs.io/en/latest/running.html#running 简单命令: jupyter notebook 完成。

2017-10-21 01:11:28 632

原创 elasticsearch 升级license

elasticsearch 升级license elasticsearch5的插件x-pack下载之后，kibana上的monitor等默认是一个月的免费期，到期之后需要升级license。相应的license从该链接下载:https://www.elastic.co/subscriptions 大部分用户应该只是需要basic就可以了，我这里也是。哈哈之后升级license: htt

2017-10-20 14:54:32 2444

原创 Flink_WordCount_代码实例

import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.

2017-09-27 18:42:52 2753

转载名词解释:DNS,A记录,子域名,CNAME别名,PTR,MX,TXT,SRV,TTL

用来扫盲不错。 DNSDNS，Domain Name System或者Domain Name Service（域名系统或者域名服务）。域名系统为Internet上的主机分配域名地址和IP地址。由于网络中的计算机都必须有个IP地址，来识别, 互相之间才能通信,但让我们记住一大串的IP地址来访问网站显然是不可能的,所以用户使用域名地址，而DNS系统的功能就是自动把域名地址翻译为IP地址。域名服务是运行

2017-09-27 17:35:53 1267

原创 Flink_获取wiki用户修改_代码实例

import org.apache.flink.api.common.functions.FoldFunction;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.d

2017-09-26 11:39:40 517

原创 elasticsearch数据导出/导入

官方提供了snapshot方式，是索引文件的方式，但是有时候我们需要原始数据，所以，elasticdump就诞生了，方式是从es中查询数据。比较方便，但是，如果数据量比较大，最好按照一定规则来导出，比如按天导出，这样如果出现问题比较好处理。 https://github.com/taskrabbit/elasticsearch-dump?utm_source=dbweekly&utm_medium

2017-09-25 10:48:06 23098 2

原创 elasticsearch的snapshot备份

官方提供了snapshot方式，这种其实就是将索引文件进行了备份，所以备份和恢复过程都是比较快的。毕竟不用重新索引，这种的缺点是只能用来做es恢复。不能把备份数据用作其他用途。过程如下：snapshot://create repositori(注意，这里如果是集群，location目录需要是nfs那种共享文件目录，所有机器都有权限访问的)curl -XPUT 'localhost:9200/

2017-09-25 10:40:26 1193

原创 centos修改默认java版本

用rpm安装的jdk。之前都是手动修改java的链接。。最近才发现有这么个管理直接链接的工具:alternativesrpm 安装java之后，执行 alternatives –config java 然后输入对应版本的编号就ok了

2017-09-22 18:20:05 2555

原创 shell分割字符

shell中awk分割字符： F后面为分割符号name=`echo "my name is Eric"|awk -F ' ' '{print $4}'`Example:#!/bin/bashtotal=0for i in `ls *.json`do num=`wc -l $i | awk -F ' ' '{print $1}'` let total=$total+$num ech

2017-09-20 16:46:55 482

原创 Elasticsearch 1.4安装marvel

之前使用elasticsearch 1.x 版本的时候，觉得marvel是收费版，现在发现免费版也很好用： https://www.elastic.co/guide/en/marvel/marvel-1.3/_simple_install.html 各种性能参数一目了然。很好用。 elasticsearch 2.x和1.x的不一样了，如下： https://www.elastic.co/gu

2017-09-20 15:31:25 418

转载 Flink 入门

转载自:http://www.aboutyun.com/forum.php?mod=viewthread&tid=18491问题导读1.Apache Flink是什么？2.Flink在实现流处理和批处理时，与传统的一些方案有什么不同？3.Apache Flink流处理有哪些特性？Apache Flink是一个面向分布式数据流处理和批量数据处理的开

2017-08-10 17:53:08 466

原创 JMH工具进行基准测试简单使用

参考资料： http://www.importnew.com/12548.html http://blog.csdn.net/hfmbook/article/details/70209150 依赖库:<dependency> <groupId>org.openjdk.jmh</groupId> <artifactId>jmh-core</arti

2017-08-08 11:31:39 2343

原创使用python获取email的subject中带有指定字符串的邮件

#! /usr/bin/env# -*- encoding: utf-8 -*-import imaplibimport emailimport argparseimport loggingclass GetEmail(object): def __init__(self, class_args): self.args = class_args sel

2017-08-08 10:11:37 4218

原创 python中的函数可变参数

最近需要使用Python，长时间不用了，又重新拾起来学习一下，记录一下重要的知识点。这次为可变参数：def func1(*args,**kwargs): print type(args) print type(kwargs)

2017-06-05 14:02:51 564

原创 spark中的sortBy和sortByKey

spark中对RDD的数据进行排序有两种方法：一种就是sortByKey，也就是我们熟知的根据key值进行排序。另外一种时sortBy，这个就是根据我们的需要自己写根据那个值排序。比如我们对wordcount的结果进行排序，除了将(key,value)倒过来根据key排序外，我们可以直接用sortBy.用法如下:第一个参数是一个函数，该函数的也有一个带T泛型的参数，返回类型和RDD

2017-04-06 12:01:59 1865

转载 zookeeper3.3.3源码分析(二)FastLeader选举算法

转载自:http://blog.csdn.net/xhh198781/article/details/6619203 如何在zookeeper集群中选举出一个leader,zookeeper使用了三种算法,具体使用哪种算法,在配置文件中是可以配置的,对应的配置项是”electionAlg”,其中1对应的是LeaderElection算法,2对应的是AuthFastL

2017-03-22 15:01:51 360

原创记一次解决hdfs一直不退出安全模式的问题的过程

重启hdfs后，发现hdfs进入了safemode，因为这是正常情况也就没有管。等他自动恢复正常。去吃了个午饭，睡了个午觉，回来发现日志里一片错误：Name node is is safe mode.这就不正常了，因为还要使用hbase，只能手动退出安全模式。执行:hdfs dfsadmin -safemode leave退出安全模式，然后发现，集群报错。。。说是有块丢失。so，进

2017-03-13 14:22:09 5809 4

转载 Hbase复制(Replication )

转载自:http://blog.csdn.net/shenliang1985/article/details/51420112Hbase复制使用手册1 Hbase复制简介通过hbase的replication功能实现集群间的相互复制.2 环境这里Hbase版本为hbase-0.98.6-cdh5.3.3 3 配置各个

2017-03-07 15:35:37 1052

转载 HBase中的备份和故障恢复方法

英文原文地址:http://blog.cloudera.com/blog/2013/11/approaches-to-backup-and-disaster-recovery-in-hbase/翻译地址:http://blog.csdn.net/iam333/article/details/38232215本文将对Apache Hbase可用的数据备份机制和大量数据的故障恢复/容灾机制

2017-03-07 15:29:34 507

原创 CM的元数据恢复到数据后，启动server报错

启动server的时候报错如下：2017-02-07 23:41:46,502 INFO main:com.cloudera.enterprise.dbutil.DbUtil: DB Schema version 5701.2017-02-07 23:41:46,502 INFO main:com.cloudera.enterprise.dbutil.DbUtil: Current dat

2017-02-08 00:07:54 3119 1

原创 windows下安装lxml

1，pip命令脚本放在script目录下，将C:\Python27\Scripts添加到环境变量中2，执行python，进入python的终端，3，执行 import pip; print(pip.pep425tags.get_supported()) ，会显示你需要下载的版本信息4，进入http://www.lfd.uci.edu/~gohlke/pythonlibs/，下载对应的w

2017-01-23 17:30:12 740

转载 HttpClient 4.5版本设置连接超时时间

摘要: HttpClient 4.5版本升级后，设置超时时间的API又有新的变化，请大家关注。 HttpClient升级到4.5版本后，API有很多变化，HttpClient 4之后，API一直没有太稳定，我感觉4.5版本抽象后，很多API应该快稳定了。使用HttpClient，一般都需要设置连接超时时间和获取数据超时时间。这两个参数很重要，目的是为了防

2016-11-15 21:01:41 957

转载 kafka java 生产消费程序demo示例

kafka是吞吐量巨大的一个消息系统，它是用scala写的，和普通的消息的生产消费还有所不同，写了个demo程序供大家参考。kafka的安装请参考官方文档。首先我们需要新建一个maven项目，然后在pom中引用kafka jar包，引用依赖如下： org.apache.kafka kafka_2.10 0.8.0

2016-11-15 20:33:11 2031

转载 solr的创建分片的方式。

在Solr4.4之后，Solr提供了SolrCloud分布式集群的模式，它带来的主要好处是：（1）大数据量下更高的性能（2）更好扩展性（3）更高的可靠性（4）更简单易用什么时候应该使用SolrCloud（Shard）呢？（1）更大的数据量（2）更大的索引体积（3）想并行索引和查询（4）想自定义数据分区 SolrClo

2016-11-03 16:23:58 5715

转载 Solr5创建Collection的多core。

虽然一直在用Solr，但是一直没有对他进行比较深入的了解，最近正好有时间，研究了一下，主要是一直想对solr的collection进行分表，那样的话一天的数据一个表，比较规范，也比较好用。网上搜了一下，基本上都是通过多core来实现的。这里说一下创建的url：http://127.0.0.1:8983/solr/admin/cores?action=CREATE&name=collecti

2016-11-03 16:10:37 2892

转载使用JDBC在MySQL数据库中快速批量插入数据

使用JDBC连接MySQL数据库进行数据插入的时候，特别是大批量数据连续插入（10W+），如何提高效率呢？在JDBC编程接口中Statement 有两个方法特别值得注意：?1void addBatch() throws SQLExceptionAdds a set of parameters t

2016-10-27 14:28:51 664

转载 Solr高效利用：Solr实现SQL的查询与统计

1.如何高效使用Solr查询功能？2.单个字段分组统计如何实现？3.IN条件查询有几种方式？4.多个字段分组统计是否只支持count？Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala，只要熟悉SQL，就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。下面，我们

2016-09-28 14:22:49 11948 1