自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(196)
  • 资源 (2)
  • 收藏
  • 关注

原创 Hive JDBC 配置session properties

在使用hive jdbc的时候,需要有一些hive session的配置,比如说:当前作业使用的是哪条队列当前作业的map大小,reduce大小,map个数,reduce的个数。等等 解决方案是:在jdbc url上面,进行初始化的配置。Connection URL FormatThe HiveServer2 URL is a string with the fo...

2017-07-09 23:13:08 1141

原创 你真的会SQL吗?关于SQL的join和on之间的区别

写了那么多年的SQL,居然发现自己写的是错的,实在是惭愧不已。还好没出什么问题。于是,决定痛定思痛,纠正自己对SQL的错误认识。 我们有一个SQL:SELECT sys.Netbios_Name0 as [Computer Name], sf.fileNameFROM dbo.v_R_System as sys INNER JOIN dbo.v_...

2014-12-05 22:11:07 444

原创 Linux crontab 调度失败

crontab是个Linux上面常用的调度工具。当然,如果在大量设备的情况下,尽量不要用本地的crontab,维护起来很麻烦。 那么我遇到的问题是,crontab调度失败。 也就是一般的crontab命令: crontab -e#报表调度0 4-4 * * * /bin/sh /home/moonbasa/etl/dxy/dsp_report.sh ...

2014-12-05 09:43:42 413

原创 [转]Servlet3特征 异步Servlet

转自:http://www.importnew.com/8864.html理解异步Servlet之前,让我们试着理解为什么需要它。假设我们有一个Servlet需要很多的时间来处理,类似下面的内容: package com.journaldev.servlet; import java.io.IOException;import java.io.PrintWriter;...

2014-12-04 22:01:59 139

原创 慎用堆表

有时候我们常常为了使用方便,省略建主键的建表方式。因为很多时候,这些数据来自于外部,而且数量和增长不会很大。 比如是一些存储过程刷新出来的结果集。 那么我们就会建一个堆表。什么是堆表?就是没有主键,也没有索引的表。 堆表在创建以后,数据库会以最快地速度把数据插入到磁盘中。在这个过程中,会产生磁盘碎片,数据分散的情况。这样会大大地降低数据密度。什么意思呢?...

2014-11-18 11:14:29 168

原创 java多线程同步代码块wait(),notify()和notifyAll()

一直对同步代码块和notify()不是很熟悉,后来做了个教程,总算是了解清楚了。wait(),notify()和notifyAll() 其实是用于线程间的通信的。 Java有一个内建的等待机制来允许线程在等待信号的时候变为非运行状态。java.lang.Object 类定义了三个方法,wait()、notify()和notifyAll()来实现这个等待机制。 一个线程一旦调...

2014-10-29 17:06:15 167

原创 SolrJ 常用增删查

Solr搜索引擎一般是只会进行增删查,对于Solr的数据结构,可以理解为类似MongoDB的类型的数据库。与MonogoDB的Schema Free不同。Solr还是需要自己定义字段,并且做一些设置的。 而Solr一般在修改索引的时候,会选择全量更新,所以一般不会有单条索引的更新操作。 SolrJ添加索引:public class SolrJAdd { pu...

2014-10-20 11:15:07 147

原创 Solr4.7配置简单Replication

公司的架构没有zookeeper,所以solr还是用原有的Replication方式进行负载。 在Solr example里面的core/conf/solrconfig.xml下面,有一段Replication的配置: <!-- Solr Replication The SolrReplicationHandler supports replicatin...

2014-10-20 09:36:56 121

原创 [转]Python version 2.7 required, which was not found in the registry

refer:http://www.cnblogs.com/min0208/archive/2012/05/24/2515584.html 不能在注册表中识别出来python2.7在网上找了方法,仅作笔记,供下次使用 方法: 新建一个register.py 文件,把一下代码贴进去,保存(G盘)## script to register Python 2.0 or ...

2014-10-16 13:35:26 182

原创 [半转]Linux 查找命令

Linux的查找命令 查找各文件夹中对应文件并显示文件大小时间等信息find ./ -name "*hadoop*" | xargs ls -ltr 只查找文件夹find ./ -name "xxxlog" -type d 查找30天内修改过的文件find . -type f -mtime -30 1. findfind是最常见和最强大的查找命令,...

2014-09-09 14:17:28 88

原创 为hadoop0.20.2 配置Ganglia3.1.7

hadoop0.20.2,打了补丁以后,可以支持Ganglia3.X的监控。如果不打补丁,就无法支持Ganglia3.X了。 安装说明等,完整下载地址:http://pan.baidu.com/s/1hqehLp6 1.用rpm检测依赖包情况rpm -q gcc glibc glibc-common rrdtool rrdtool-devel apr  apr-deve...

2014-09-03 17:17:57 144

原创 [转]谈谈Memcached与Redis

原文出自:http://blog.sina.com.cn/s/blog_72995dcc01018qkf.html 这是一篇非常非常好的文章,讲述Memcached与Redis的选择,给人以全面的认识。 1. Memcached简介Memcached是以LiveJurnal旗下Danga Interactive公司的Bard Fitzpatric为首开发的高性能分布式内存缓...

2014-08-28 15:41:13 128

原创 配置sqoop和mssql

将mssql 的jar包:sqljdbc4.jar 拷贝到SQOOP_HOME/lib下 配置sqoop  cd /home/support/sqoop-1.4.5/conf   cp sqoop-env-template.sh sqoop-env.sh 修改sqoop-env.sh文件增加:export HADOOP_COMMAND_HOME=/usr/l...

2014-08-28 10:22:47 226

原创 Java序列化 Seriallizable 和 Externalizable

1.Java对象序列化是将 对象的实例域数据( 包括private私有域) 进行持久化存储。而并非是将整个对象所属的类信息进行存储。2.我们都知道凡要序列化的类都必须实现Serializable接口。包括Externalizable接口3.包含了不可序列化的对象域的对象也是不能序列化的。  实现Externalizable接口的类完全由自身来控制序列化的行为,而仅实现Seria...

2014-08-25 17:56:42 415

原创 Solr4.6+ multicore配置

有2中配置方式,一是从Solr Admin进行multi core的配置。 在Solr Admin控制台里面选择:Core Admin选择Add Core然后把你准备好的路径写到里面去。 name: xxx    配置core的名称instanceDir:xxx      配置指向你的Solr core的路径,可以是绝对路径,也可以是相对Solr Home的路...

2014-08-19 22:19:50 94

原创 使用MySQL作为SOLR的索引源

首先,需要在solrconfig.xml中增加<lib dir="../../../dist/" regex="solr-dataimporthandler-.*\.jar" /><!--需要增加依赖包,如果有数据库驱动,也需要增加到依赖路径中 --><requestHandler name="/dataimport" class="org.apa.

2014-08-17 17:39:00 104

原创 配置Capacity Scheduler

多用户下的Hadoop集群,少不了资源配置的管理。Capacity Scheduler作为Yahoo开源的资源管理器,有着相当不错的适用性。 在HADOOP_HOME下的lib文件夹下面,找找有没有capacity schedule的jar包。老版本的hadoop会把capacity scheduler的jar包放在contrib/capacity-scheduler/ha...

2014-08-14 23:55:18 381

Solr debugQuery使用体会

使用solr,就使用到各种的排序和boost。在公司的站内搜索引擎,就遇到了排序的问题,各种各样的条件,融合在最后一个分数里面。 开启debugQuery,就可以看到每个document的打分逻辑原理。比如说,我们的查询是这样的: /solr/select?q=ddr&defType=dismax&qf=name^1000+description^100&a...

2014-08-06 14:41:06 436

原创 python使用smtp库发送邮件

目前正在开发一个日志扫描工具,用于扫描报错日志,并打包成邮件,发送到邮箱。 虽然不复杂,但是是个非常方便的工具。 #!/usr/bin/env python# coding=utf-8from smtplib import SMTPfrom email import MIMETextfrom email import Headerfrom os.path i...

2014-07-29 13:42:36 351

原创 2014年找工作小结

从深圳离职回广州工作。去了台湾玩了11天,进入到了找工作的节奏。 把广州我能尝试的比较好的公司都面了一遍,可是全部都挂了。但是皇天不负有心人,总算在我薪资满意的范围内,找到一份数据开发的相关工作。 UC面了2次,uc是朋友推荐我去面试的,非常非常感谢他。但是UC对于人的能力要求比较高,第一次面的是java开发工程师。要求是做游戏平台部分的。对程序员的要求包括...

2014-07-27 12:48:54 128

python的subprocess模块实战 与 Linux 输出流重定向

在Liunx上面,会进行一些部署和监控的操作。有时候使用crontab直接调用shell可以满足一定需求,但是最近在接受一部分运维项目的时候会发现。部分脚本运行的过程中,stdout和stderr的输出流会无故丢失。 目前本人可以想到的方法,是利用python的subprocess模块进行调用,并记录下对应的stdout和stderr日志。 这里是一个实验,首先是一个p...

2014-07-25 13:47:15 424

原创 图解FPGrowth 算法

最近接触到一些用Mahout开发的数据挖掘代码,于是顺便就把算法原理给研究了一下。得到了附件中的PPT FP-Growth算法的应用有很多。除了最令人熟悉的啤酒尿布算法以外。还有“共词”提取。如:淘宝商品评论中,对评论进行分词,然后提取共有的评价。  ...

2014-07-23 14:41:02 875

原创 与台湾的第一次亲密接触

2014年6月3日到2014年6月13日,我和同学完成了环台湾岛的自由旅行。  首先,先简单介绍一下去台湾需要注意的事项。 台湾的旅游旺季是春天和秋天。春天可以看樱花等,秋天气候舒适。其中7月-9月会有台风,不建议去台湾。 台湾的插座是110V,而且接口和大陆的不一样,所以一定一定要带个转接口。只有少数酒店会提供万能插座的。 台湾的所有旅店,宾馆,...

2014-06-15 12:07:22 267

原创 [转]如何利用 Zookeeper 构建上层应用-之二

原文来自:http://www.cnblogs.com/haippy/archive/2012/07/23/2604556.html英文原文来自:http://zookeeper.apache.org/doc/r3.3.2/recipes.html 本文将带你如何利用 Zookeeper 实现某些分布式应用所必需的高级功能。 所有功能均可以在客户端按固定的模式实现,不需要 Z...

2014-05-24 15:59:20 88

原创 [转]ZooKeeper 典型的应用场景之一

转自:http://www.cnblogs.com/haippy/archive/2012/07/23/2604556.html  Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的...

2014-05-24 15:57:15 93

原创 Eclipse远程调试Java代码

有时候本地断点调试不能完全反映出生产环节的异常:比如服务之间的依赖,等等。 所以,远程断点调试给予了解决集成环境BUG的一个非常有利的工具。 在Eclipse下面,做如下工作:打开Eclipse,点击左上角的debug按钮,如图:   Project:选择你要debug的项目,Host:输入你的远程IP,Port:远程调用端口。如何知道远程端口,通过进入你...

2014-05-23 11:46:37 179

原创 Redis初探

redis 安装 redis官网地址:http://www.redis.io/ 1、下载源码,解压缩后编译源码。$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz$ tar xzf redis-2.8.3.tar.gz$ cd redis-2.8.3$ make 在src目录下,进行安装...

2014-05-22 18:33:53 103

原创 Python 高级之 __attr__ 对象属性

Python一切皆对象(object),每个对象都可能有多个属性(attribute)。Python的属性有一套统一的管理方案。 对象的属性可能来自于其类定义,叫做类属性(class attribute)。类属性可能来自类定义自身,也可能根据类定义继承来的。一个对象的属性还可能是该对象实例定义的,叫做对象属性(object attribute)。对象的属性储存在对象的__di...

2014-05-07 16:26:44 729

原创 Python 闭包

所谓闭包,有2中定义。 1.子函数可以使用父函数中的变量2.一个变量引用者未释放的可执行的代码块。 对第1点先举例: def line_conf(): def line(x): return 2*x+1 print(line(5)) # within the scopeline_conf()print(line...

2014-05-07 11:50:34 73

MongoDB索引学习

1.在使用索引之前在MongoDB中所有的insert,update,delete操作过程中,都会更新所有与collection相关的索引。每个索引都会为单个写操作进行开销。 所以,必须确定一下,为了索引,写入的开销是值得的,也做好当前的索引确实被使用到。 和数据库一样,Mongodb每次查询只会选择一条索引进行检索。如果查询条件出现$or,那么有可能会检索不同的...

2014-04-26 22:35:18 101

原创 了解一下MongoDB中的写关注(write concern)

         MongoDB提供了一个配置参数:write concern 来让用户自己衡量性能和写安全。分布式数据库中这样的参数比较常见,记得Cassandra中也有一个类似参数,不过那个好像是要写入几个节点返回成功。其实道理都一样分布式的集群环境考虑到性能因素不能确保每个成员都写入后在返回成功,所以只能交给用户根据实际场景去衡。         Mongodb提供了以下几个可...

2014-04-24 22:56:50 837

原创 Spring使用annotation读取properties文件

 首先在spring的配置applicationContext.xml中配置好读取properties文件的内容。 <bean class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer" id="pphc"> <property name="syste...

2014-04-23 23:23:05 343

原创 [学习] JAVA GC一些内容

1、堆(Heap)JVM管理的内存叫堆。在32Bit操作系统上有1.5G-2G的限制,而64Bit的就没有。JVM初始分配的内存由-Xms指定,默认是物理内存的1/64但小于1G。JVM最大分配的内存由-Xmx指定,默认是物理内存的1/4但小于1G。默认空余堆内存小于40%时,JVM就会增大堆直到-Xmx的最大限制,可以由-XX:MinHeapFreeRatio=指定。  默认空...

2014-04-22 21:51:26 84

原创 Linux中关于less的使用

less是一个非常给力的分页输出工具,能够快速的查看文本信息。尤其对于不断滚动的日志,用tail这样的方式查看实在太不方便了。 1.命令格式      less [参数]  文件 2.命令功能:less 与 more 类似,但使用 less 可以随意浏览文件,而 more 仅能向前移动,却不能向后移动,而且 less 在查看之前不会加载整个文件。 其中比较重要的...

2014-04-17 22:11:06 161

原创 Spring读取properties文件作为环境变量

 在这个配置文件中,我们首先定义了类型为org.springframework.beans.factory.config.PropertyPlaceholderConfigurer的bean,这个bean用来将解析properties文件,spring可以使用此类,来将其他bean中类似EL表达式${abc}的值替换为配置文件的值。PropertyPlaceholderConfigurer类...

2014-04-16 21:55:55 1985

原创 Oracle谓词推入

在Oracle中,谓词一般就是指where后面的那些过滤条件。 而在执行计划中,我们有时候会看到一个信息:VIEW PUSHED PREDICATE 就是传说中的谓词推入。 谓词推入是什么意思? 就是指视图(VIEW)在做关联之前,会将外面一层的数据放到视图里面先做过滤。一般是将外层关联的索引,放到视图内的表的索引上面来做。 在CSDN落落的Or...

2014-04-08 09:20:50 1437

原创 [转]Python字符串常用大全

Refer to: http://blog.csdn.net/daemonpei/article/details/6325762 字符串相关操作:+ :string1+string2 #联接字符串,将后一个串链接到前一个串的后面* :string*n #创建一个新字符串重复n次原来的串[] :string[n] #从字符串中获取对应位置的一个字符[:] :string[n...

2014-03-26 17:35:14 100

原创 Python的os库的使用

python os库有很多和操作系统相关的功能。其实不仅仅如此,os库中还有很多和文件,路径,执行系统命令相关的。 下面是os模块常用的方法.1.os.sep                    可以取代操作系统特定的路径分割符 2.os.name                 字符串指示你正在使用的平台。比如对于Windows,它是'nt',而对于Linux/Unix用户,...

2014-03-26 17:32:43 722

原创 使用System.getProperties()获取系统参数 配置代理

 1.java的System.getProperty()方法可以获取的值 java.versionJava 运行时环境版本java.vendorJava 运行时环境供应商java.vendor.urlJava 供应商的 URLjava.homeJava 安装目录ja...

2014-03-26 15:08:42 2114

原创 一个简单的文件合并脚本

有时候通过MR跑数会生成N个小文件。手工合并实在太讨嫌,所以就写了个Python自动合并脚本。 import osimport os.pathimport sysif len(sys.argv)<2: print 'merge file script must have enough parameters!' sys.exit()rootd...

2014-03-25 17:00:36 780

Java Memcache JDK1.4

Memcache for jdk 1.4

2013-01-25

Java NIO Sample

Java NIO的入门级别代码。 是一个非常出色的复用框架。

2012-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除