自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

东杰书屋

多年大数据工作总结，个人的大数据导航https://bigdata.djbook.top/

原创 linux常用命令积累(常更新)

手动清理内存缓存echo 1 > /proc/sys/vm/drop_caches批量替换文件夹中多个文件中的字符串sed -i "s/大小多少/日月水火/g" `grep 大小多少 -rl /usr/aa` 注意grep前面和最后面的引号为反引号就是tab键上面的引号列出当前文件夹目录大小，以G，M，K显示。du -b --max-depth 1 | s

2010-12-31 08:30:00 2312

转载 OSI七层网络模型与TCP/IP四层网络模型

<br />1. OSI网络分层参考模型 <br />　　网络协议设计者不应当设计一个单一、巨大的协议来为所有形式的通信规定完整的细节，而应把通信问题划分成多个小问题，然后为每一个小问题设计一个单独的协议。这样做使得每个协议的设计、分析、时限和测试比较容易。协议划分的一个主要原则是确保目标系统有效且效率高。为了提高效率，每个协议只应该注意没有被其他协议处理过的那部分通信问题；为了主协议的实现更加有效，协议之间应该能够共享特定的数据结构；同时这些协议的组合应该能处理所有可能的硬件错误以及其它异常情况。为了保证

2010-12-22 14:17:00 899

原创大数据导航

欢迎访问我的大数据导航导航地址https://bigdata.djbook.top本文由博客一文多发平台 OpenWrite 发布！

2021-11-09 17:18:23 1025

原创 python安装pyhs2遇到的问题

在使用python开发连接hiveserver2的过程中，需要安装pyhs2库，在使用pip安装pyhs2的过程中遇到了几个错误1.gcc: error trying to exec 'cc1plus': execvp: 没有那个文件或目录解决方法在centos系统执行命令 yum install -ygcc-c++.即可解决2.sasl/saslwrapper.h:22:23: 致命错误：sasl/sasl.h：没有那个文件或目录解决方法yum -y in...

2021-04-25 08:44:10 639

原创使用正则表达式处理粘贴到mardown文档没有换行的文本

在查找资料或者看博客论坛的时候，遇到一些不错的文章想要保存到自己博客或者笔记中，会遇到一些问题，比如说自己博客或者笔记是mardown格式，当你复制网页中文本内容粘贴到markdown文档后，发现内容排版都是乱的，本来在网页中排版都是换行的，到了markdown都成了一行，这时候就需要使用正则表达式将原来文本处理替换主要的正则表达式查找 (\s*)\r\n 作用是查找非空行文本替换为 \r\n\r\n 将非空行增加一个回车换行在支持正则表达式的文本编辑器中替换，然后再粘...

2020-08-11 09:07:00 310

原创 fluentd结合kibana、elasticsearch实时搜索分析hadoop集群日志

Fluentd是一个开源收集事件和日志系统，它目前提供150+扩展插件让你存储大数据用于日志搜索，数据分析和存储。官方地址http://fluentd.org/ 插件地址http://fluentd.org/plugin/Kibana 是一个为 ElasticSearch 提供日志分析的 Web ui工具，可使用它对日志进行高效的搜索、可视化、分析等各种操作。官方地址http://www

2013-09-25 14:48:09 32872 2

原创 Linux服务器 /var/spool/clientmqueue 目录下产生大量文件的解决办法

今天收到nagios报警邮件，其中一台server中的磁盘分区空间超过95%，登录到服务器查看[root@hadoop-node-29 ~]# df -hFilesystem Size Used Avail Use% Mounted on/dev/sda5 19G 16G 2.8G 95% /var到目录/var查看哪个

2013-07-24 10:44:12 11554

原创 jruby操作hbase实例

熟悉hbase的用户们都会看到在$HBASE_HOME/bin 目录中有几个扩展名为rb的文件，$HBASE_HOME/lib/ruby目录中的文件都是.rb文件，这些文件都是使用jruby语言对hbase进行操作的程序。那么什么是jrbuy呢？JRuby是一个纯Java实现的Ruby解释器。通过JRuby，你可以在JVM上直接运行Ruby程序，调用Java的类库。很多Java编写的R

2013-07-08 14:07:30 3093

原创如何用ruby获取本机IP

require 'socket' def local_ip orig, Socket.do_not_reverse_lookup = Socket.do_not_reverse_lookup, true # turn off reverse DNS resolution temporarily UDPSocket.open do |s| s.connect '64.233

2013-06-25 13:29:08 3954

原创 hbase web管理工具phphbaseadmin

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。由于hbase自带的操作工具只有hbase shell，创建表、批量删除表、查看记录等操作很不方便，因此开发了phphbaseadmin工具，使用hbase thrift接口、php CI框架、bootstrap前端框架开发。目前实现的功能主要有浏览表、创建表、批量删除表、查看表meta

2013-06-05 09:32:49 7732 3

转载 ulimit限制之nproc问题

前两天微博上的@王关胜同学问了个问题：#ulimit问题# 关于nproc设置：centos6，内核版本是2.6.32. 默认情况下，ulimit -u的值为1024，是/etc/security/limits.d/90-nproc.conf的值限制;注释掉这个限制后，值为95044;手工设置90-nproc.conf文件，值为新设置的值。想请问这个95044是怎么来的？

2013-05-06 09:23:31 3021

原创 centos 6中安装gitlab方法

GitLab，是一个利用 Ruby on Rails 开发的开源应用程序，实现一个自托管的Git项目仓库，可通过Web界面进行访问公开的或者私人项目。它拥有与Github类似的功能，能够浏览源代码，管理缺陷和注释。可以管理团队对仓库的访问，它非常易于浏览提交过的版本并提供一个文件历史库。团队成员可以利用内置的简单聊天程序（Wall）进行交流。它还提供一个代码片段收集功能可以轻松实现代码复用，便

2013-04-23 16:58:13 17104 5

转载 hive原生和复合类型的数据加载和使用

原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用)，这些数据加载很容易，只要设置好列分隔符，按照列分隔符输出到文件就可以了。假设有这么一张用户登陆表CREATE TABLE login

2013-04-23 11:10:41 1614

转载 HBase存储

在HBase中创建的一张表可以分布在多个Hregion，也就说一张表可以被拆分成多块，每一块称我们呼为一个Hregion。每个Hregion会保存一个表里面某段连续的数据，用户创建的那个大表中的每个Hregion块是由Hregion服务器提供维护，访问Hregion块是要通过 Hregion服务器，而一个Hregion块对应一个Hregion服务器，一张完整的表可以保存在多个Hregion 上。

2013-04-12 10:30:03 1761

转载 ubuntu 中搭建gitlab方法

1 首先需要使用root用户登录系统，更新与升级系统# run as rootapt-get updateapt-get upgradeapt-get install sudo2 安装编辑器vimsudo apt-get install -y vim3. 安装gitlab 依赖的软件包sudo apt-get install -y build

2013-04-10 11:02:00 8077 2

转载 RHEL / CentOS: Install and Activate Bash Autocomplete Feature

Autocomplete is nothing but a collection of various hacks that specify how arguments are to be completed by Readline using complete built-in. By default, this feature is turned on many Linux distrib

2013-03-19 16:30:21 2266

转载 Linux / Unix Script: Simple Process Checker To Find Out If A Service Is Running or Not

#!/bin/bash# Name : service.chk # URL: http://bash.cyberciti.biz/monitoring/simple-process-checker-script/# Purpose: A simple process checker. Find out if service is running or not.# Tested on: De

2013-03-19 16:21:35 1036

原创 hive中添加自定义udf udaf udtf等函数的jar文件的三种方法

在开发了hive的udf udaf udtf函数的jar文件后，需要将jar文件放入hive的环境中才可以使用。可以通过以下三种方法加入：1. 使用add jar path/test.jar;方法加入该方法的缺点是每次启动Hive的时候都要从新加入，退出hive就会失效。2. 通过设置hive的配置文件hive-site.xml 加入在配置文件中增加配置

2013-03-03 22:29:59 3660

原创创建cloudera hadoop本地源服务器

在部署cloudera hadoop集群中，使用网络安装hadoop网速不太给力，需要创建一个本地源服务器，加速安装过程或者提高增加节点安装部署效率。创建步骤1. 如果是安装部署cloudera 4版本，需要先安装cloudera 源RPM文件 for redhat/ centos 5 64位服务器rpm -Uvh http://archive.cloudera.com/cdh4

2013-03-03 14:27:17 4364

原创 hive 0.7以上新版本增加的更有效率的两个函数

hive 0.7版本以后新增了两个函数，比原来的函数更能提高运行效率。json_tuple 使用方法与介绍 json_tuple(jsonStr, p1, p2, ..., pn) - like get_json_object, but it takes multiple names and return a tuple. All the input parameters and

2013-02-27 16:00:36 4568

原创利用udf函数将hive统计结果直接插入到mysql

大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中，再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。步骤为hive>add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.jar;Adde

2013-02-25 13:05:24 5639

原创利用ruby通过thrift接口批量插入hbase

因为工作中使用fluentd采集日志，需要使用ruby通过thrift接口插入数据到hbase中，网上搜索了一下，发现很多都是插入单个数据，没办法只好参考python语言写的批量插入修改了代码，终于搞定。$:.unshift File.expand_path('gen-rb', File.dirname(__FILE__))require 'thrift'require File.

2013-01-31 18:05:58 2395

原创利用zlib，lzo压缩与解压缩字符

zlib压缩解压缩代码require "zlib"include Zliblong_string = ("abcde"*71 + "defghi"*79 + "ghijkl"*113)*371puts long_string.size # 559097#压缩字符串s1 = Deflate.deflate(long_string,6)# Zlib::Deflate.defla

2013-01-29 10:42:17 4142

原创 ruby中in `split': invalid byte sequence in UTF-8 (ArgumentError)解决方法

#encoding=UTF-8require "socket"url="gid=38&sid=1&oldsid=1&user=12848525&roleid=1011730&dept=15&time=1356357372&level=40&ip=10.2.201.16&map_id=210010014&group=\xCE\xDE&sign=a04101ffd9f7fe07cba1b9f38"

2013-01-22 11:26:11 9239 2

翻译 ruby中数组的常用函数

在程序中定义一个数组在程序中定义一个数组，因为我们在下面说明。fruits = ["apple", "orange", "lemon"]scores = [55, 49, 100, 150, 0]如果你是指使用数组的数组＃[]的方法，我们将指定数目的元素的数组作为参数。我单元号是从0开始。在上面的例子中，fruits[0]返回“apple”，scores[3]将返回150。

2013-01-22 11:01:26 14997 1

转载解决ruby中文乱码

在文件头加上#encoding=UTF-8，示例：#encoding=UTF-8puts '你好，中国！'#在读取带有中文字符的文本文件时，要读取的文件必须以UTF-8编码保存。File.open('c:\\test.txt') do |file| file.each_line{|line| puts line}end转载http://biyeah.iteye.c

2013-01-22 09:54:04 5641

转载 ruby 连接字符串

发现如果要把两个字符串连接在一起。如a = “abc”b = a + “de”此时b的值为”abcde”但如果a = nil时，就会抛出未定义“+”的异常，因为此时a为nil。但如果我们改变一下b右边的表达式，将其改为b = “#{a}de”。这时就不会抛出错误了，此时b=> “de”。向字符串末尾追加字符时，使用 String#concat 或

2013-01-21 09:16:57 19727

转载 Linux 找出大文件汇总

Q. 如何在目录中找出所有大文件?A.1) 句法 for RedHat / CentOS / Fedora Linuxfind {/path/to/directory/} -type f -size +{size-in-kb}k -exec ls -lh {} \; | awk ‘{ print $9 “: ” $5 }’实例：查找当前目录下大于50MB的文件

2013-01-17 09:18:17 1527

原创 fluentd插件hbase修改笔记

工作中需要采集日志到hbase中，fluentd提供了插件fluentd-hbase，地址为https://github.com/Furyu/fluent-plugin-hbase不过插件只支持固定表插入数据，而工作中需求是根据日志中接口名动态创建表，对应接口插入数据，hbase中的timestamp需要使用20120522151215格式，需要对hbase插件进行二次开发，动态表创建插入数据

2013-01-09 16:49:23 2078

转载字符串截取和查询操作

也许String对象最重要的操作就是通过[]下标访问操作了，你可以通过这种方式提取字符串内容或者更改字符串内容。在Ruby1.8中字符串被当作一个字节或者8位的字符码数组，你可以通过length或者size方法获得这个数组的长度，你通过在[]设置索引数字来设置或者得到那个位置的值：s = 'hello'; # Ruby 1.8s[0] # 返回值为104，第一个字母'

2013-01-09 13:27:27 15220

转载基本的ruby语法

1.1 变量、常量和类型1) 定义变量变量类型描述示例局部变量（或伪变量）以小写字母或下划线卡头var _var全局变量以$开头$var类变量类中定义，以@@开头@@var

2013-01-09 13:26:30 854

转载 hive并行执行job

用过oracle rac的应该都知道parallel的用途。并行执行的确可以大的加快任务的执行速率，但不会减少其占用的资源。在hive中也有并行执行的选项。 set hive.exec.parallel=true; //打开任务并行执行 set hive.exec.parallel.thread.number=16; //同一个sql允

2012-12-28 17:21:01 5875 1

转载 hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有

2012-12-28 16:49:19 1598

转载 Ruby 如何“反转义”字符串

我们知道Ruby中转义字符串可以用inspect或者dump可以将字符串转义："\t".dump #=> "\"\\t\"""中文".dump #=> "\"\\u{4e2d}\\u{6587}\""但有时候我们想把已经被转义的字符串反转义回正常的字符串，怎么办?其实方法很简单：def unescape( src ) String.class_ev

2012-12-27 14:11:40 5706

转载 puts,p,print的区别

共同点：都是用来屏幕输出的。不同点:puts 输出内容后，会自动换行(如果内容参数为空，则仅输出一个换行符号)；另外如果内容参数中有转义符，输出时将先处理转义再输出p 基本与puts相同，但不会处理参数中的转义符号print 基本与puts相同，但输出内容后，不会自动在结尾加上换行符s = "aaaa\nbb\tbb" p sp "*************

2012-12-27 14:07:16 1126

原创 shell语句操作hbase方法

可以利用shell 脚本执行hbase shell中的一些操作#!/bin/shexec $HBASE_HOME/bin/hbase shell <<EOFcreate 'test', {NAME => 't', VERSIONS => 1}EOF

2012-12-24 14:23:46 3800

翻译如何使用shell限制指定用户shell程序的网络带宽

在运维工作中，会遇到需要限制shell应用程序(比如wget 、crul、ftp、sftp等)连接internet的网络带宽问题。如何在不使用复杂的firewall规则情况下设置网络带宽呢。工具trickle可以实现这个功能，系统 Debian/ubuntu linux 使用apt-get方法即可安装 $ sudo apt-get install trickle系统CentOS

2012-12-05 13:21:35 1884 1

转载 php 操作数组（合并，拆分，追加，查找，删除等）

1. 合并数组array_merge()函数将数组合并到一起，返回一个联合的数组。所得到的数组以第一个输入数组参数开始，按后面数组参数出现的顺序依次迫加。其形式为：Php代码 array array_merge (array array1 array2…,arrayN) 这个函数将一个或多个数组的单元合并起来，一个数组中的值附加在前一个

2012-11-15 13:05:57 740

原创一维数组中搜索元素,删除二维数组元素

定义一个一维数组一个二维数组如下$fruit=array('apple','orange');$products = array( array('name'=>'apple','price'=>23.4),array('name'=>'orange','price'=>45.3),array('name'=>'biscuit','number'=>5,'price'=>34))

2012-11-14 22:29:06 2459

原创用jquery与php导出datatables数据到excel

DataTables是一个jQuery的表格插件。这是一个高度灵活的工具，依据的基础逐步增强，这将增加先进的互动控制，支持任何HTML表格。主要特点：自动分页处理即时表格数据过滤数据排序以及数据类型自动检测自动处理列宽度可通过CSS定制样式支持隐藏列易用可扩展性和灵活性国际化动态创建表格免费的插件地址http://www.datatables.net/不过可惜的是官方网站表格数

2012-11-02 10:56:17 6766 1

hbase 0.92 cloudera4.1.2修改包

修改thrift接口支持使用不同timestamp批量插入数据

2013-01-25

hbase 0.90 cloudera3u3修改包

修改hbase 0.90版本 cloudera3u3 中的thrift接口，mutation类中增加timestamp参数，可以通过thrift接口使用Hbase.Mutation(column="f1:1", value='test',timestamp=20130112121212)，mutateRows("testdb1", batchmutations)方法批量插入不同时间戳的数据。

2013-01-25

fuse 2.8.5

利用这个工具可以实现挂载ntfs格式文件系统,本地硬盘挂载hadoop hdfs格式文件必须的软件包

2012-04-25

php连接hive thrift的lib依赖包

php连接hive thrift server的lib包，经测试用hive压缩包中自带的php lib无法测试成功

2011-07-01

nginx-fcgi.txt

Nginx 不能直接执行外部可执行程序，如果要让 Nginx 支持 CGI，可以考虑安装 nginx-fcgi： wget http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt mv nginx-fcgi.txt /usr/sbin/nginx-fcgi chmod +x /usr/sbin/nginx-fcgi 因为http://www.nginx.eu/nginx-fcgi/nginx-fcgi.txt无法下载所以上传一个备份

2011-03-16

二进制定点整数补码运算中“丢失”与“溢出”问题的研究

二进制定点整数补码运算中“丢失”与“溢出”问题的研究论文

2009-09-25

haproxy for windows

HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理，它是免费、快速并且可靠的一种解决方案

2009-08-21

js脚本压缩工具（.net版本）

网页中的js脚本文件比较大的时候可以用这个工具进行压缩，减少网页的浏览时间

2009-01-12

httpcfg.exe

使用两个IP实现IIS和Tomcat或Apache公用80端口的方法需要用到的工具软件

2008-12-09

文档对象模型中文手册

文档对象模型中文手册<br>chm格式

2007-12-14

打印页面插件

jatoolsPrinter 是一款实现网页套打的免费工具。该工具的特点是可以直接对web页面进行精确的分页打印，这不仅使"会设计网页就会做网页套打"成为可能，也使项目经理们摆脱了预算紧张的压力。jatoolsPrinter通过在网页中嵌入控件，解决了web客户端精确打印，批量打印，打印配置自动保留等问题

2007-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除