自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 问答 (1)
  • 收藏
  • 关注

原创 机器学习视频、教程

目录第一部分:机器学习入门怎样在 6 个月内成为数据科学家CMU统计机器学习课程滑铁卢大学机器学习课程Python 应用机器学习课程导论:Python 数据科学SciPy 机器学习导论课Python Pandas 数据分析CS50 机器学习课程Pandas 初学者的数据分析和处理教程什么是人工智能Azure ML 初学者的机器学习教程...

2016-12-26 16:26:00 510

原创 CAP Theorem

CAP原理中,有三个要素:• 一致性(Consistency) • 可用性(Availability) • 分区容忍性(Partition tolerance) CAP原理指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。因此在进行分布式架构设计时,必须做出取舍。而对于分布式数据系统,分区容忍性是基本要求,否则就失去了价值。因此设计分布式数据系统,就是在一致性和可用性之间取一...

2014-02-26 09:39:39 125

原创 SimpleDateFormat线程安全问题

[code="java"] private static ThreadLocal threadLocalSDF = new ThreadLocal(); public static DateFormat getShortDateFormat() { DateFormat df = threadLocalSDF.get(); if (df ...

2014-01-22 17:33:47 151

原创 Linux单机并发连接数研究

单机并发连接数研究分类: 互联网技术--linux系统用一个4四元组来唯一标识一个TCP连接:{local ip, local port, remote ip, remote port}。client每次发起tcp连接请求时,除非绑定端口,通常会让系统选取一个空闲的本地端口(local port),该端口是独占的,不能和其他tcp连接共享。tcp端口的数据类型是unsign...

2013-11-15 10:07:35 187

原创 iptables open 80

[code="shell"]iptables -F#allow access localhostiptables -A INPUT -s 127.0.0.1 -d 127.0.0.1 -j ACCEPTiptables -A OUTPUT -s 127.0.0.1 -d 127.0.0.1 -j ACCEPT#allow all IP access 8888 portiptab...

2013-11-15 10:06:59 90

原创 Curator简介(转载)

近期发现zkClient的fault-tolerent不好,于是找到了Curator,下面这篇介绍性的文章不错。转自[url]http://macrochen.iteye.com/blog/1366136[/url]Curator是Netflix开源的一套ZooKeeper客户端框架. Netflix在使用ZooKeeper的过程中发现ZooKeeper自带的客户端太底...

2013-11-15 10:06:49 128

原创 在线修改Log级别

[code="java"]package xxxx;import java.io.IOException;import java.util.Map;import java.util.Map.Entry;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;...

2013-11-11 12:09:10 625

原创 Server side JVM GC 参数

NN、Flume、Kafka等常用的Server side GC参数,可以提高GC效率,减少等待时间[code="java"]BROKER_JVM_ARGS="-Dcom.sun.management.jmxremote -server -Xmx12g -Xmn4g -XX:SurvivorRatio=6 -XX:+UseMembar -XX:+UseConcMarkSweepGC -...

2013-11-05 10:38:24 101

原创 two-phase commit 两阶段提交

在分布式系统中,事务往往包含有多个参与者的活动,单个参与者上的活动是能够保证原子性的,而多个参与者之间原子性的保证则需要通过两阶段提交来实现,两阶段提交是分布式事务实现的关键。很明显,两阶段提交保证了分布式事务的原子性,这些子事务要么都做,要么都不做。而数据库的一致性是由数据库的完整性约束实现的,持久性则是通过commit日志来实现的,不是由两阶段提交来保证的。至于两阶段提交如何保证隔离性...

2013-09-03 17:03:07 245

原创 getIP and getPid

[code="java"] private String getPid() { final String name = ManagementFactory.getRuntimeMXBean().getName(); if (name != null && name.contains("@")) { return name.spli...

2013-08-26 14:41:00 99

原创 Kafka Design

[b]Kafka Detailed Consumer Coordinator Design[/b]https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Detailed+Consumer+Coordinator+Design#KafkaDetailedConsumerCoordinatorDesign-Implementation...

2013-08-26 14:32:54 88

原创 fast-inserts-to-postgresql-with-jdbc

http://rostislav-matl.blogspot.com/2011/08/fast-inserts-to-postgresql-with-jdbc.htmlhttp://aliasmrchips.blogspot.com/2011/08/how-to-use-postgres-jdbc-copymanager.htmlhttp://stackoverflow.c...

2013-07-17 10:48:52 120

原创 FutureTaskSample

[code="java"]public class FutureTaskSample { static FutureTask future = new FutureTask(new Callable(){ public String call(){ return getPageContent(); } ...

2013-07-08 10:49:37 92

effective java 提到的内存泄露?

[code="java"]import java.util.Random;public class S { Object[] c = new Object[10]; int length = 0;// public Object pop() {// if (length == 0)// return null;// Object r = c[--le...

2012-05-18 12:00:19 106

原创 iptables open 80

[code="shell"]iptables -F#allow access localhostiptables -A INPUT -s 127.0.0.1 -d 127.0.0.1 -j ACCEPTiptables -A OUTPUT -s 127.0.0.1 -d 127.0.0.1 -j ACCEPT#allow all IP access 8888 portiptab...

2012-05-16 18:09:53 112

原创 Java ClassLoader结构

 jvm classLoader architecture:Bootstrap ClassLoader/启动类加载器 主要负责jdk_home/lib目录下的核心 api 或 -Xbootclasspath 选项指定的jar包装入工作。Extension ClassLoader/扩展类加载器 主要负责jdk_home/lib/ext目录下的jar包或 -Djava.ext....

2012-05-14 15:29:52 63

原创 NodeJS环境,代码完成,提示

开发环境:--------------------- 1. 先安装:http://www.sublimetext.com2. 再去git clone:https://github.com/tanepiper/SublimeText-Nodejs3. 将下载的SublimeText-Nodejs拷贝到 Preferences-> Browse Packages 下。...

2012-05-11 16:35:28 217

原创 Reactor&Proactor:NIO&AIO

Reactor: 同步非阻塞IO (NIO)NIO是基于事件驱动思想的,实现上通常采用Reactor(http://en.wikipedia.org/wiki/Reactor_pattern)模式,从程序角度而言,当发起IO的读或写操作时,是非阻塞的;当socket有流可读或可写入socket时,操作系统会相应的通知引用程序进行处理,应用再将流读取到缓冲区或写入操作系统。对于网络IO而言,...

2012-05-05 01:35:19 73

原创 关系模型、维度模型

[size=x-large]关系模型[/size][img]http://dl.iteye.com/upload/attachment/0067/4057/5551c5cf-7437-3cbe-84cf-cb822205921b.jpg[/img]1. 以遵循第三范式(3NF)为基础的关系模型,从ER图的“观感”上来说,较为松散、零碎,物理表数量多,而数据冗余程度低。由于数据分布于众多的表...

2012-05-01 15:37:14 397

原创 Hive调优实战

 Hive优化总结 ---by 食人花   优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,...

2012-04-26 14:28:34 364

star tree的oracle实现

两个层次的代码,后面的层次同理实现,基本上计算一个层次2分钟,后面因为数据剪枝条,可以更快。我这里少写了一步是从tree中将剪出来的枝append到结果中drop table t_tree_lv2;create table t_tree_lv2 as select tree_o,lv2,pv,convert,click,cnt, CASE ...

2012-04-20 19:01:19 76

原创 自动删除1小时/1天前数据

[code="shell"]sudo vi /etc/sudoers username ALL=(ALL) NOPASSWD: ALL[/code][code="shell"]find 对应目录 -mtime +天数 -name "文件名" -exec rm -rf {} \;find:linux的查找命令,用户查找指定条件的文件/usr/local/...

2012-03-26 15:37:40 1522

Storm搭建、安装、以及环境配置

准备工作: 1. 首先安装zookeeper,然后验证zookeeper正确性:  bin/zkCli.sh -server 127.0.0.1:2181 2.安装kafkaDownload a recent stable release.> tar xzf kafka-<VERSION>.tgz> cd kafka-<VER...

2012-03-01 15:22:57 121

批量加ssh key,无密码ssh登陆

1.     生成RSA Key pair,在跳转机上运行:ssh-keygen -t rsa然后一路回车跳过。2.     将公钥的内容复制到 15机器上:scp -P 12345  ~/.ssh/id_rsa.pub [email protected]:/home/dcplatform/lx/add_auth_key3.     进入10.1...

2012-01-31 15:28:24 128

安装MFS

一、安装fusecd /home/dcplatform/lx/fuse-2.8.3./configure --prefix=/home/dcplatform/fusemakesudo make install 添加到环境变量echo "export PKG_CONFIG_PATH=/home/dcplatform/fuse/lib/pkgconfig/" >...

2012-01-13 16:13:21 85

原创 Shell mutilple kill, linux charset env

Shell mutilple kill: ps aux | grep -i "datax" | grep -v grep | awk '{print $2}' | xargs sudo kill -9  linux charset env: export LANG=en_US.UTF-8export LC_ALL=en_US.UTF-8

2012-01-04 16:42:11 60

原创 jmap dump

jmap  -dump:format=b,file=heap.bin <pid>  

2011-12-14 13:07:21 95

原创 hadoop原理浅析及安装

 原文:http://guoli0813.blog.51cto.com/623863/293138经过几天的测试,hadoop分布式系统搭建完毕。首先说一下这几天对hadoop理论知识的理解,然后说一下安装及碰到的问题。有图有真相http://192.168.0.20:50070/dfshealth.jsp 第一:理论知识:     什么是hadoop:     ...

2011-09-26 00:16:14 126

原创 JVM内存模型

一 JVM体系结构  方法区一个JVM只有一个方法区,是所有线程共享的存放Class的线性二进制流类信息,该类型的常量池,字段信息,方法的字节码,操作数栈和该方法的栈帧中的局部变量区的大小,异常表,到类ClassLoader的引用,到Class类的应用方法区大小不固定,可以动态调整方法区也可以被GC堆一个JVM只有一个堆,所有线程共享存...

2011-08-24 14:06:30 85

randomizeArray

[code="java"] private static void randomizeArray(Object[] array) { Random r = new Random(); for (int i = 0, len = array.length; i < len; i++) { int pos = r.nextInt(len); Object temp = ar...

2011-08-22 18:21:05 255

原创 很老但是很经典的线程安全的LazyLoading单例

[code="java"]static class SingletonHolder { static Singleton instance = new Singleton(); }public static Singleton getInstance() { return SingletonHolder.instance;}[/code][ur...

2011-08-12 15:49:49 113

原创 Java Concurrency 注意点

1, 保证线程安全的三种方法: a, 不要跨线程访问共享变量 b, 使共享变量是final类型的 c, 将共享变量的操作加上同步2, 一开始就将类设计成线程安全的, 比在后期重新修复它,更容易.3, 编写多线程程序, 首先保证它是正确的, 其次再考虑性能.4, 无状态或只读对象永远是线程安全的.5, 不要将一个共享变量裸露在多线程环境下...

2011-08-01 22:06:17 130

simple LRU standalone cache

[code="java"]import java.io.Serializable;import java.util.ArrayList;import java.util.Collections;import java.util.HashMap;import java.util.List;import java.util.Map;/** * A simple LR...

2011-07-06 15:25:35 102

oracle 并发读取数据方案比较

[size=large][b]用ROWNUM控制[/b][/size]说明效率一般需要提前知道有多少条满足条件的记录[code="sql"]select * from table1 bwhere b.rowid in ( select k.rid from (select t.*, rownum rn f...

2011-07-05 17:28:06 449

Hibernate annotation @NotFound

解决异常:[code="java"]org.hibernate.ObjectNotFoundException: No row with the given identifier exists[/code]原因:多对一映射时,一方表中对应的数据不存在才抛出的。[code="java"] @ManyToOne(fetch = FetchType.LAZY) @JoinColu...

2011-07-05 15:01:19 148

原创 java远程调试

1. 保持远程和本地代码一致2. 在远程服务器上运行:[code="java"]java -Xdebug -Xrunjdwp:transport=dt_socket,server=y,address="8000" -Djava.ext.dirs=. HDFSDir[/code]3. 本地定好服务器的IP和端口即可...

2011-05-20 11:21:31 48

原创 Oracle merge

[code="sql"]create table TEST_K( C1 NVARCHAR2(100), C2 CLOB, C3 NVARCHAR2(100))[/code][code="sql"]MERGE INTO test_k t1USING (select 'abc' c1,'def' c3 from dual) t2ON (t1.c1 = t2.c...

2011-05-13 11:15:38 61

原创 tomcat ssl 433 https 注意的一些问题

1.apr 许多朋友可能在启动tomcat的时候都会看到类似这样的信息:[code="java"]org.apache.catalina.core.AprLifecycleListener init 信息: The Apache Tomcat Native library which allows optimal performance in production enviro...

2011-05-04 17:26:59 776

原创 Java 多线程 Synchronized 的注意细节

最近做java多线程开发处理中发现synchronized的使用还是有一些细节问题要注意的。 1.synchronized与static synchronized 的区别 synchronized是对类的当前实例进行加锁,防止其他线程同时访问该类的该实例的所有synchronized块,注意这里是“类的当前实例”,类的两个不同实例就没有这种约束了。那么stati...

2011-04-19 18:07:09 93

批量更名为gz结尾并且调用gunzip解压缩

文件夹下有很多扩展名为log的文件,需要批量更名为gz结尾并且调用gunzip解压缩find . -name "*.log" | xargs rename log gzfind . -name "*.gz" | xargs gunzip -d

2011-02-18 20:15:44 575

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除