lw305080-CSDN博客

原创一图彻底搞懂 spark shuffle

一图彻底搞懂 spark shuffle

2021-11-26 09:57:38 1130

原创向量

1、向量定义：有方向有大小的量，也称矢量。 a⃗ \vec{a}=(x,y)(x,y)可以理解为从坐标(0,0)(0,0)到坐标(x,y)(x,y)有向线段即(x−0,y−0)(x-0,y-0)。2、向量的大小，即模计算公式： |a⃗ ||\vec{a}|=x2+y2−−−−−−√\sqrt{x^2+y^2}3、向量的内积（点乘或数量积）定义：对两个向量执行点乘运算

2018-01-11 23:55:51 1335

原创 shell 使用指定的分割符来分割字符串

shell 如何来分割字符串让结果为一个字符串串数组

2017-11-21 16:25:41 84746

原创 shell 执行脚本的 3 种方式

首先把工作目录切换到脚本所在的目录：该脚本所在的目录为：/home/user cd /home/user 脚本为：hello_shell.sh 脚本的内容为： #!/usr/bin/env bash echo “hello shell”方法一sh hello_shell.sh 或者 bash hello_shell.sh 注该该种方式执行不需要为脚本赋予执行权限 -rw-rw-

2017-10-10 08:48:26 2494

原创已经在 stage 的文件再配置到 .gitignore 不生效

背景：在管理一个版本库时，有时候不想要管理某些文件，如自己的测试文件，或涉及到有密码的配置文件。这时我们只需要把这些不想被管理的文件（文件夹）配置到 .gitignore 文件中即可。但对于已经被 staged 文件，加入 .gitignore 文件时一定先要从 stage 中移除，.gitignore 配置才能生效。下面就给出一个具体的实例：本实例是不想要 target 文件夹下所以的

2017-09-25 12:27:05 595

原创 error: failed to push some refs to ‘http://git.du.com/目录/项目名称.git’ [ git did not exit cleanly (exit

git.exe push –progress “origin” master:master 时报下面的错误：error: failed to push some refs to ‘http://git.du.com/目录/项目名称.git’ [ git did not exit cleanly (exit code 1) ]执行命令：git remote -v在执行：git pull –rebas

2017-09-14 22:45:30 606

原创 Linux shell 获取给定日期的前（后）n 天（月）

场景用途：有时批量跑数据据就需要用到时间，一般要跑天的任务，有时还会跑下月度任务。这时就需要用到 shell 对时间的操作。获取给定日期的前 n 天的日期：currentDay="20170801"n=3nDaysAgo=`date -d "${currentDay} $n days ago" +%Y%m%d`获取给定日期的后 n 天的日期：

2017-09-13 21:47:55 4805

原创 Elasticsearch 一个字段精确和模糊搜索，一个字段多种分词器的设置

对于一个内容实现精确和模糊搜索，指定 2 分词器。

2017-08-23 09:46:12 9621

原创 elasticsearch bulk 批量加载索引的实例

import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.net.InetAddress; import java.net.Unkno

2017-07-06 20:38:37 997

转载 MapReduce之mapOutputBuffer解析

转载地址：http://blog.csdn.net/wangqinghuan1993/article/details/53785403MapOutPutBuffer就是map任务暂存记录的内存缓冲区。不过这个缓冲区是有限的，当写入的数据超过缓冲区设定的阈值时，需要将缓冲区的数据写入到磁盘，这个过程叫spill。在溢出数据到磁盘的时候，会按照key进行排序，保证刷新到磁盘的记录时排好序的。该缓冲

2017-02-22 09:25:08 2599

原创 hbase region 手动 split

综合一下几个方面考虑是否需要进行split1、requests次数是否均匀，如出现了极不均匀的情况下：2、各regions的storefile 大小：若storefile size出现比较大的情况时。3、如何进行region split3.1、选中需要进行split region的region name,如上图红框内的就是region name.3.2、把选中的region

2017-02-16 12:18:03 5834

转载 hbase 运维

1.1监控Hbase运行状况 1.1.1操作系统 1.1.1.1IO a.群集网络IO，磁盘IO，HDFS IO IO越大说明文件读写操作越多。当IO突然增加时，有可能：1.compact队列较大，集群正在进行大量压缩操作。 2.正在执行mapreduce作业可以通过CDH前台查看整个集群综合的数据或进入指定机器的前台查看单台机器的数据： b.Io wait

2017-02-08 08:34:22 990

原创 Java回调函数详解

1、回调函数的简单实例回调函数的简单说明：对象A的方法funA把对象A的引用传递到对象B的方法funB里(且对象B方法funB的接收参数一般是对象A的实现接口),在对象B的方法funB中调用对象A的方法funC。对象A的方法funC被称为回调方法。先上uml图：可以使用回调函数的场景： 1、在java里回调就是把

2017-01-09 18:43:21 574

转载 Hbase读写优化

转载地址：http://www.iteye.com/news/31920CSDN知识库：你是如何与计算机结缘，踏上软件开发之路的，能否跟我们分享一下。代立冬：我走上计算机这条路主要源于大学室友熏陶，我本身是学数学专业的，按常理毕业后应该当个教师。而我们宿舍6个室友有一半学数学，一半学计算机。经常看室友们写点小程序，觉得挺厉害，有时还听他们吹牛皮：他们班一同学写了个校园论坛云云

2017-01-05 09:56:44 1298

转载 HDFS节点内数据平衡：DiskBalancer

转载地址：http://blog.csdn.net/androidlushangderen/article/details/51776103目录(?)[-]前言磁盘间数据不均衡状况的出现磁盘间数据不均衡带来的问题磁盘间数据不均衡的传统解决方案社区解决方案DiskBalancerDiskBalancer的设计核心DiskBalancer的架构设计Disco

2016-12-29 11:21:21 2693

原创 java jvm基础知识

参考：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037056.html :http://lhc1986.iteye.com/blog/1421832 :http://www.cnblogs.com/xhr8334/archive/2011/12/01/2270994.htmlJVM内存回收机制简述

2016-12-28 19:15:09 327

转载 imapa 内存使用设置

Impala GuideCloudera.comTrainingSupportDocumentationDev Center|Contact UsDownloadsThis is the documentation for Impala 2.1.x, included as part of CDH 5.3.x.Latest Version of this Pag

2016-12-23 20:21:55 639

转载 Impala内存优化实战案例

Impala内存优化实战案例畅游DT时代(李珂) · 2016-03-26 01:23文章来源：中国联通网研院网优网管部——IT技术研究团队作者：李珂一. 引言 Hadoop生态中的NoSQL数据分析三剑客Hive、HBase、Impala分别在海量批处理分析、大数据列式存储、实时交互式分析各有所长。尤其是Impal

2016-12-23 20:01:09 9442 1

转载 Linux使用nc命令监控检测服务器端口

前端用apache htttpd进行发布（80端口），通过双机负载均衡转发到后端的两个tomcat进行处理（8081和8082端口），现在需要随时监控这三个端口的情况，一旦down掉需要能够立即告警处理。批量的系统监控比较好的是用nagios软件来实现，这样小项目专门装一个nagios软件，有点繁琐了。在网上查了一些资料，总结实验了一下，可以用简单的nc命令来实现。一、nc命令检测端口的用法

2016-12-20 08:51:05 1602

原创 shell map

#1、declare -A 变量名 A一定要是大写的Adeclare -A map=(["sunjun"]="a" ["jason"]="b" ["lee"]="c")echo ${#map[*]}#2、取出所有的valueecho ${map[@]}echo ${map[*]}#3、取出所有的keysecho ${!map[@]

2016-12-11 16:45:13 5375 1

原创 shell 数组

#1、shell中的数组定义#arrayName=(element1 element2 element3)#数组用小括号括起来的元素集合，个元素用空格分隔#2、数组的遍历#${arrayName[*]}strArray=("svc-manager" "admin" "sms" "log-monitor")for strElement in ${strArra

2016-12-11 15:52:52 281

原创 hdfs文件压缩

1、1.1、压缩格式总结压缩格式工具算法文件扩展名是否可切分DEFLATE无DEFLATE.deflate否GzipgzipDEFLATE.gz否bzip2bzip2bzip2.bz2是

2016-12-10 00:42:39 1822

原创 hadoop支持lzo完整过程

简介部署安装lzop native library安装hadoop-lzo配置hadoop环境变量验证lzo通过hive测试创建lzo表导入数据索引LZO文件利用hive执行mr任务修改使用中hive表的输入输出格式简介启用lzo 启用lzo的压缩方式对于小规模集群是很有用处，压缩比率大概能降到原始日志大小的1/3。同时解压缩的速度也比

2016-12-10 00:39:48 1179

转载文章标题

一、简介 history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop become Apache top-leve

2016-12-08 09:48:21 296

转载 HBase简介（很好的梳理资料）

一、简介historystarted by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop

2016-12-08 09:23:31 226

转载 Apache Kafka 集群环境搭建

Apache Kafka 集群环境搭建时间 2015-01-14 16:02:21 ITeye-博客原文 http://bigcat2013.iteye.com/blog/2175880主题 Apache KafkaApache Kafka 是一个高吞吐量分布式消息系统，由LinkedIn开源。引用官网对kafka的介绍：“Apache Kafka is

2016-12-08 08:17:01 455

转载 svn cleanup failed–previous operation has not finished; run cleanup if it was interrupted

svn cleanup failed–previous operation has not finished; run cleanup if it was interrupted

2016-11-29 11:20:32 412

转载 Redis持久化原理：

Redis持久化

2016-11-29 09:32:08 367

原创 ssh 远程执行命令方便集群的管理

ssh 远程执行命令

2016-11-23 21:09:21 738

转载 Java读取文件的几种常用方法

1、按字节读取文件内容2、按字符读取文件内容3、按行读取文件内容public class ReadFromFile { /** * 以字节为单位读取文件，常用于读二进制文件，如图片、声音、影像等文件。 */ public static void readFileByBytes(String fileName) { F

2016-11-10 09:45:22 436

转载排序算法4-堆排序

转载地址：http://blog.csdn.net/kimylrong/article/details/17150475堆排序算法介绍堆是一种重要的数据结构，为一棵完全二叉树, 底层如果用数组存储数据的话，假设某个元素为序号为i(Java数组从0开始,i为0到n-1),如果它有左子树，那么左子树的位置是2i+1，如果有右子树，右子树的位置是2i+2，如果有父节点，父

2016-11-07 10:55:28 267

原创排序算法3-快速排序

该方法的基本思想是：1．先从数列中取出一个数作为基准数。2．分区过程，将比这个数大的数全放到它的右边，小于或等于它的数全放到它的左边。3．再对左右区间重复第一，二步，直到各区间只有一个数。public class ArrayUtils { public static void printArray(int[] array) { ...

2016-11-04 17:16:34 177