自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(752)
  • 资源 (1)
  • 收藏
  • 关注

转载 聚类算法实践

转自:http://www.itongji.cn/article/0r52d32013.htmlhttp://www.itongji.cn/article/0R52D42013.htmlhttp://www.itongji.cn/article/0R52E22013.html-----所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不

2015-04-02 15:53:28 11014

转载 字符串匹配的KMP算法

字符串匹配是计算机的基本任务之一。  举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?  许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。  这种算法不太容

2015-04-01 20:35:34 6033

转载 Spark:一个高效的分布式计算系统

本文转自:http://tech.uc.cn/?p=2116---概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存

2015-01-04 11:38:57 8392

转载 AUC与ROC - 衡量分类器的好坏

二元分类器  二元分类器是指要输出(预测)的结果只有两种类别的模型。例如预测阳性/阴性,有病/没病,在银行信用评分模型中,也用来预测用户是否会违约,等等。  既然是一种预测模型,则实际情况一定是有些结果猜对了,有些结果猜错了。因为二元分类器的预测结果有两种类别(以下以阴/阳为例),对应其真实值,则会有以下四种情形:1. 预测为阳性,真实值为阴性 (伪阳性)2. 预测为阴性

2014-08-20 12:14:19 7462

转载 利用tcpcopy引流做模拟在线测试

本文转自 http://www.searchtb.com/2012/05/using-tcpcopy-to-simulate-traffic.html

2014-06-12 09:37:55 7075

转载 Treelink算法介绍

本文转自:http://www.searchtb.com/2010/12/an-introduction-to-treelink.html“机器学习”这个名词对大家来说想必不是一个陌生的词汇,特别对算法组的同学来说,工作中或多或少接触使用过这种“高科技“。对于我来说,刚来淘宝工作一个月就开始接触了机器学习,当时做主搜索功夫熊猫项目,和小致飘雪一起做交易模型,正是使用了机器学习的方法,也首次

2014-03-01 15:07:19 6987

转载 浅谈协方差矩阵

本文转自:http://hi.baidu.com/hehui1500/item/fba9444327a24693823ae1e9今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵。统计学的基本概念学过概率统计的孩子都知

2014-02-14 11:45:05 5924

转载 主成分分析(Principal components analysis)-最大方差解释

本文转自:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做P

2014-02-13 18:58:39 6465 1

转载 overfitting(过度拟合)的概念

本文转自:http://blog.csdn.net/fengzhe0411/article/details/7165549最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合

2014-02-13 17:17:59 6358

转载 Linux inode 的理解

转自:http://www.ruanyifeng.com/blog/2011/12/inode.htmlhttp://blog.s135.com/post/295/ http://hi.baidu.com/leejun_2005/blog/item/d9aa13a53b3af6e99152ee7e.html 文件名 -> inode -> device block

2013-09-24 11:32:32 6159 1

转载 Memcached statistics (stats command)

Memcached is a great tool for speeding up your database access. A “stats” command returns usage statistics but few documentation is available on what’s returned.The official Memcached Wiki shows

2013-06-27 14:13:54 6628

转载 LDAP快速入门

1. LDAP简介  LDAP(轻量级目录访问协议,Lightweight Directory Access Protocol)是实现提供被称为目录服务的信息服务。目录服务是一种特殊的数据库系统,其专门针对读取,浏览和搜索操作进行了特定的优化。目录一般用来包含描述性的,基于属性的信息并支持精细复杂的过滤能力。目录一般不支持通用数据库针对大量更新操作操作需要的复杂的事务管理或回卷策略。而目录

2013-06-20 12:16:42 6654

转载 BTrace使用简介

很多时候在online的应用出现问题时,很多时候我们需要知道更多的程序的运行细节,但又不可能在开发的时候就把程序中所有的运行细节都打印到日志上,通常这个时候能采取的就是修改代码,重新部署,然后再观察,但这种方法对于online应用来说不是很好,另外一方面如果碰到不好改的代码,例如引用的其他的外部的包什么的,就很麻烦了,BTrace就是一个可以在不改代码、不重启应用的情况下,动态的查看程序运行细节的

2013-05-31 15:50:05 6185

转载 Linux群集LVS简介

一、 LVS简介LVS是Linux Virtual Server的简称,也就是Linux虚拟服务器, 是一个由章文嵩博士发起的自由软件项目,它的官方站点是www.linuxvirtualserver.org。现在LVS已经是 Linux标准内核的一部分,在Linux2.4内核以前,使用LVS时必须要重新编译内核以支持LVS功能模块,但是从Linux2.4内核以后,已经完全内置了LVS的各个

2013-05-31 11:40:11 6416

原创 Storm初始化报错java.io.NotSerializableException

最近在做实时数据分析,使用到了twitter开源的storm,在初始化的时候报了一个序列化的错:java.lang.RuntimeException: java.io.NotSerializableException: org.joda.time.format.DateTimeFormatter报错信息很明显,因为DateTimeFormatter不支持序列化。但是我只是在bolt里使用到

2013-05-31 09:52:43 13500

转载 High performance Serialization

High performance SerializationSerialization is the process of converting an object into a stream of bytes. That stream can then be sent through a socket, stored to a file and/or database or simply

2013-05-27 11:09:02 7887

转载 HBase技术介绍

本文转自淘宝技术博客:http://www.searchtb.com/2011/01/understanding-hbase.html=====================HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

2013-05-14 12:26:00 5738

原创 启动zookeeper报错already running as process

今天启动zookeeper的时候报错:[root@hadoop-one zookeeper-3.4.5]# bin/zkServer.sh startJMX enabled by defaultUsing config: /root/zookeeper/zookeeper-3.4.5/bin/../conf/zoo.cfgStarting zookeeper ... already

2013-05-13 15:15:50 14585 2

转载 Spark, Shark, and RDDs

Spark and Shark are interesting alternatives to MapReduce and Hive. At a high level:Rather than persisting data to disk after every step, as MapReduce does, Spark instead writes to something calle

2013-04-24 21:39:50 7149

转载 How to Analyze Java Thread Dumps

The content of this article was originally written by Tae Jin Gu on the Cubrid blog. When there is an obstacle, or when a Java based Web application is running much slower than expected, we need

2013-04-24 11:27:50 8441

转载 Storm安装部署步骤

本文转自量子恒道官方博客:http://blog.linezing.com/2013/01/how-to-install-and-deploy-storm-cluster本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。3.1 Storm集群组件Storm集群

2013-04-22 14:14:36 2189

转载 AMQP协议

当前各种应用大量使用异步消息模型,并随之产生众多消息中间件产品及协议,标准的不一致使应用与中间件之间的耦合限制产品的选择,并增加维护成本。AMQP是一个提供统一消息服务的应用层标准协议,基于此协议的客户端与消息中间件可传递消息,并不受客户端/中间件不同产品,不同开发语言等条件的限制。   当然这种降低耦合的机制是基于与上层产品,语言无关的协议。AMQP协议是一种二进制协议,提供客户端应用与

2013-04-11 18:39:20 1532

转载 RabbitMQ学习笔记

合理使用消息队列(Messaging Queue)可大幅降低网络系统架构的耦合度和复杂度,让各集成部件拥有更灵活的自主弹性。同时异步处理机制在高性能和高可靠性上也有极佳的表现,是一种较理想的集成解决方案。在 ActiveMQ、ZeroMQ、RabbitMQ 之间徘徊许久,最终还是选择 RabbitMQ。ZeroMQ 和 RabbitMQ 都支持开源消息协议 AMQP,不过 ZeroMQ

2013-04-11 18:38:09 1715 1

转载 mapreduce 新旧API 区别

在hadoop 权威指南中有说明,原文如下:The new Java MapReduce APIRelease 0.20.0 of Hadoop included a new Java MapReduce API, sometimes referred to as “Context Objects,” designed to make the API easier to evo

2013-03-28 17:00:46 1273

转载 Hadoop中一些采样器的实现

Hadoop中采样是由org.apache.hadoop.mapred.lib.InputSampler类来实现的。InputSampler类实现了三种采样方法:SplitSampler、RandomSampler和IntervalSampler。SplitSampler、RandomSampler和IntervalSampler都是InputSampler的静态内部类

2013-03-28 16:59:46 1408 1

原创 关于Decode和Encode

今天程序遇到个decode失败的问题,后来发现是乱码导致的。在查问题的过程中重温了下Unicode、decode、encode等概念,看到两篇很好的文章,贴在这里。http://www.stereoplex.com/blog/python-unicode-and-unicodedecodeerrorhttp://www.joelonsoftware.com/articl

2013-03-27 22:49:18 1514

转载 Linux TCP 系统参数配置

Linux TCP 系统参数配置我们这里应用的是CentOS5.3,并内核使用的是2.6.18-128.el5PAE #1 SMP 。修改部分TCP ,有的是为了提高性能与负载,但是存在降低稳定性的风险。有的则是安全方面的配置,则有可能牺牲了性能。1.TCP keepalive TCP连接保鲜设置echo 1800 > /proc/sys/net/ipv4/tcp_ke

2013-03-25 16:37:45 1393

转载 tcp建立连接和断开连接

开始三次握手:如果你还不会简单的tcp socket编程,我建议你先去学学,这就好比你不会C++基本语法,就别去研究vtable之类。三次握手开始于客户端试图连接服务器端。当你调用诸如connect的函数时,正常情况下就会开始三次握手。随便在网上找张三次握手的图:如前文所述,三次握手也就是产生了三个数据包。客户端主动连接,发送SYN被设置了的报文(注意序号和

2013-03-25 15:24:04 2225

转载 memcached命令行参数说明

1、启动Memcache 常用参数-p       设置TCP端口号(默认不设置为: 11211)-U       UDP监听端口(默认: 11211, 0 时关闭) -l   绑定地址(默认:所有都允许,无论内外网或者本机更换IP,有安全隐患,若设置为127.0.0.1就只能本机访问)-d                    以daemon方式运行-u

2013-01-24 18:43:40 3557 2

转载 How to override comparison operators in Python

Python, like many languages, allows the behavior of operators to be customized using a scheme based on the types of objects they are applied to. The precise rules and intricacies of this customization

2013-01-22 20:18:37 1357

转载 python 内存泄露的诊断

对于一个用 python 实现的,长期运行的后台服务进程来说,如果内存持续增长,那么很可能是有了“内存泄露”一、内存泄露的原因对于 python 这种支持垃圾回收的语言来说,怎么还会有内存泄露? 概括来说,有以下三种原因:1、 所用到的用 C 语言开发的底层模块中出现了内存泄露。2、 代码中用到了全局的 list、 dict 或其它容器,不停的往这些

2012-12-15 16:52:17 3111

转载 MapReduce:默认Counter的含义

MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析下这些默认Counter的含义,方便大家观察job结果。     我的分析是基于H

2012-12-12 10:25:55 1284

转载 hbase通过row key 的前缀查询记录

如果你在hbase表中存在一些特征相同的记录,实际上就可以通过设置Filter的方式进行检索过滤。比如这个特征是前缀相同。ROW                                         COLUMN+CELL

2012-10-23 17:38:05 18322 3

转载 如何在Java程序中处理Ctrl+C

在Java控制台程序中,特别是多线程的Java控制台程序中,中途中断程序可能产生不可预料的结果,比如文件描述符没有关闭,造成文件格式的破坏,或者 远程连接没有关闭,造成远程服务器资源的浪费,等等。所以在程序中添加Ctrl+C处理机制很有必要,下面根据一个例子作一下介绍如何处理:在 程序中调用RunRuntime.getRuntime().addShutdownHook(Thread han

2012-10-23 17:36:12 11266

转载 Understanding the parallelism of a Storm topology

In the past few days I have been test-driving Twitter’s Storm project, which is a distributed real-time data processing platform. One of my findings so far has been that the quality of Storm’s docum

2012-10-20 14:29:09 1526

转载 理解inode

inode是一个重要概念,是理解Unix/Linux文件系统和硬盘储存的基础。我觉得,理解inode,不仅有助于提高系统操作水平,还有助于体会Unix设计哲学,即如何把底层的复杂性抽象成一个简单概念,从而大大简化用户接口。下面就是我的inode学习笔记,尽量保持简单。===================================理解inode

2012-10-20 11:41:54 1042

转载 java的volatile是什么意思

我们知道,在Java中设置变量值的操作,除了long和double类型的变量外都是原子操作,也就是说,对于变量值的简单读写操作没有必要进行同步。 这在JVM 1.2之前,Java的内存模型实现总是从主存读取变量,是不需要进行特别的注意的。而随着JVM的成熟和优化,现在在多线程环境下volatile关键字的使用变得非常重要。 在当前的Java内存模型下,线程可以把变量保存在本地内存(

2012-10-19 14:58:45 1035

转载 java多线程中unchecked 异常的处理UncaughtExceptionHandler

Thread的run方法是不抛出任何检查型异常(checked exception)的,但是它自身却可能因为一个异常而被终止,导致这个线程的终结。最麻烦的是,在线程中抛出的异常即使在主线程中使用try...catch也无法截获,因此可能导致一些问题出现,比如异常的时候无法回收一些系统资源,或者没有关闭当前的连接等等。 主线程之所以不处理子线程抛出的RuntimeException,是因

2012-10-19 10:50:45 2691

转载 linux diff详解

diff是Unix系统的一个很重要的工具程序。它用来比较两个文本文件的差异,是代码版本管理的基石之一。你在命令行下,输入:  $ diff diff就会告诉你,这两个文件有何差异。它的显示结果不太好懂,下面我就来说明,如何读懂diff。一、diff的三种格式由于历史原因,diff有三种格式:  * 正常格式(normal dif

2012-10-17 11:50:48 13858 2

转载 HBase二级索引与Join

二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,?ITHbase, Facebook和官方Coprocessor方案的介绍。理论

2012-10-17 11:49:28 1622

WINDOWS中CMD命令大全下载

WINDOWS中CMD命令大全下载。平时进行操作可以参考一下 。

2008-11-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除