橘子oly-CSDN博客

原创 Hadoop之Text与String的异同

String常量，创建之后不可修改字符串连接是通过StringBuilder(或StringBuffer)类实现的【区别：StringBuilder是非线程安全的，这也使其性能比StringBuffer要高(少synchroned方法)】String： UTF-16格式Unicode为解决传统字符编码方案的局限而产生Unicode方案包括：给所有字符指定一个唯一对应的数字将字符

2017-03-04 20:47:14 1478

原创 Hadoop实战之课后题--分析web服务器的日志文件

任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析：任务1很简单，简单的求和问题，用来重新熟悉hadoop MR程序的写法。优化：使用combiner()减少网络中的流量传输；这个例子中combiner和reducer的逻辑相同，两种使用同一个reduce即可。代码贴在附录里了，注释详细，可查看~任务2是一个TopK的问题，要点有以下几个：使用TreeMap来得到

2017-03-03 16:34:09 856

转载 Linux下打包运行MR程序

转载自使用命令行编译打包运行MR程序网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的，大多又是 0.20 等旧版本版本的做法，即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java

2017-03-03 10:38:23 1268

转载 JAVA学习路线图

转载自byrbss JAVA学习路线图以下是原文：Java是一个通用的编程语言，其实可以干很多事，怎么学Java就看怎么用了。但有一些一般的步骤：1. 熟悉一种文本编辑器，比如Vim, Emacs, Notepad++, TextMate等。知道哪些是开源的，哪些是闭源的，哪些要收费。养成不用盗版软件的习惯。2. 安装JDK（建议用你的Linux发行版

2017-03-03 09:12:31 633

转载 Hadoop_eclipse开发配置

参考这两篇文章http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlhttp://www.cnblogs.com/simplestupid/p/4681144.html

2017-03-02 16:43:16 381

原创 Hadoop实战(五) 高阶MapReduce

本章重点概括 TODO链接MapReduce作业顺序链接这种任务可以手动的逐个执行，但生成自动化执行序列的方式更为便捷。 mapreduce-1 | mapreduce-2 | mapreduce-3 | … 具复杂依赖的作业链接（非线性链接）通过Job和JobControl类来管理依赖JobControl类负责管理并监控作业的执行JobControl对象使用addJob()方法向其中

2017-02-28 11:08:49 544

原创 Hadoop2.2.0源码系列--Job类

获取Job对象Job的构造函数最直接的获取Job对象的方式@Deprecated public Job() throws IOException { this(new Configuration()); } @Deprecated public Job(Configuration conf) throws IOException { this(new JobConf(c

2017-02-28 10:18:50 1058

原创 Hadoop实战(四) 编写MR程序

Hadoop实战(四) 编写MR程序样例数据集1. 下载数据集Address: http://www.nber.org/patents/ wget http://www.nber.org/patents/acite75_99.zip wget wget http://www.nber.org/patents/apat63_99.zip解压: unzip acite75_99.zip上传

2017-02-28 09:17:42 3742

原创 leetcode73_ Set Matrix Zeroes

问题描述Given a m x n matrix, if an element is 0, set its entire row and column to 0. Do it in place.代码编写*很明显是遍历的思想，但是做不到一遍做完所有，至少要两遍。 *于是想到先遍历行，再遍历列。为节省时间，在遍历列的时候，需要置零的列就不再考虑已经被置零的行。 *我的思路问题就在于只考虑了优化时间复

2017-02-27 20:37:22 406

原创 Skinny-dip clustering in the sea of noise

粗读理解论文主要工作贡献理解一些相关工作： * unimodality：wiki_unimodality 单峰性数学上是指处理一个唯一的模式（只有一个单一的最大值）。 * mode：mode_wiki The mode is the value that appears most often in a set of data. * modal interval：introduct

2017-01-12 11:41:55 741

原创 leetcode62&63&64_Unique Paths

一、问题描述A robot is located at the top-left corner of a m x n grid (marked ‘Start’ in the diagram below).The robot can only move either down or right at any point in time. The robot is trying to reach the

2016-12-20 21:35:48 432

原创 leetcode60_Permutation Sequence

一、问题描述The set [1,2,3,…,n] contains a total of n! unique permutations.By listing and labeling all of the permutations in order,We get the following sequence (ie, for n = 3):"123""132"

2016-12-16 15:44:02 339

原创《高维数据的聚类分析研究及其应用》读书笔记

一、高维聚类の研究方向由于高维数据的稀疏性等特征，使得在高维聚类的研究中有如下几个研究重点：1）维度约简，主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射，常见的有PCA、SVD等。后者则是选择特征的子集，常见的搜索方式有自顶向下、随机搜索等；2）高维聚类算法，主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上，后者则可以

2016-12-13 09:36:24 9707 1

原创 kdtree&knn

前言：本文关于kdtree的知识基本来源于kdtree_wiki一、what's kdtree kdtree是 k-dimensional tree的缩写，它是一种用于组织k维空间中数据点的基于空间划分的数据结构。kdtree常用于搜索多维搜索词，包括区间搜索和最近邻搜索。kdtree是一种二叉树结构，它是BSP(Binary space partationing)树的一

2016-12-12 10:51:54 8996

原创 leetcode56&57_Merge Intervals&Insert Interval

一、问题描述Given a collection of intervals, merge all overlapping intervals.For example,Given [1,3],[2,6],[8,10],[15,18],return [1,6],[8,10],[15,18]二、代码编写这个算法思想很简单，只要将list按照interval的s

2016-12-11 20:22:53 294

原创 Hadoop实战(二) hadoop基本组成

一、Hadoop组件通常我们所理解的狭义Hadoop构成分为HDFS分布式存储系统和MapReduce编程模型两部分，下面分别从这两个部分介绍。（一）HDFSHDFS是一个分布式文件系统，下面主要介绍如何操作该文件系统。1.基本命令行操作hadoop fs -help基本的操作都遵循这个模式，比如常用的 hadoop fs -lshadoop fs -m

2016-12-08 16:26:34 2262

原创 hadoop实战(一) hadoop基本概念

一、理解Hadoop Hadoop_wiki上定义，Apache Hadoop is an open-source software framework used for distributed storage and processing of very large data sets. 就是说Hadoop是分布式的数据处理框架。二、理解MapRed

2016-12-07 17:38:46 677

原创 leetcode51&52 N-Queens

一.问题描述The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two queens attack each other.Given an integer n, return all distinct solutions to the n-que

2016-12-04 15:10:16 311

原创 EM算法

一.EM算法基本介绍和一般的算法目标一样，我们用最大似然估计，对参数进行估计l(θ) = ∑P(yi|θ)由于某些原因，你发现这个不好求(NP hard问题)，于是引入了一个隐变量(latent variable)，并把上式改写成了l(θ) = ∑P(yi|θ) = ∑∑P(yj,zj|θ) [注：里面一个求和是对所有可能的z求和，外面的求和是对y]然后通过神奇

2016-12-03 21:15:34 681

原创秩

昨天看到一个面试题，让介绍什么是秩，其实这个可能对学好了线性代数的人来说是很basic的问题吧，可是无奈数学里我最最讨厌的就是线性代数了，当初大一的时候压根没学明白。言归正传，单独给秩开一篇博客，是因为早上看到知乎的大神对秩的解释简直不要太好，贴上来，保存一下。下面的回答是按2我个人的喜好程度排的，hhh回答1：秩就是基的个数，基就是特征，基就用最小的粒度能够描述所有

2016-12-01 16:29:40 1037

原创 leetcode50_Pow(x, n)

一.问题描述Implement pow(x, n).实现指数乘法。二.代码编写首先想到的其实就是把n不断拆分成n/2，但是想歪了，可能沉浸在大数乘法那个题里，然后发现其实小数乘大数比两个相等的数运算复杂度低一点，所以就否定了这个想法。但看了tags是二分的思想，后来一想其实重点不在于每次运算的复杂度，而在于二分能将运算的次数由O(N)降低到O(logN)。所以其实这

2016-11-30 21:29:44 398

原创 xgboost调参

Xgboost调参英文版参考：https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/ Xgboost经常被用作许多数据科学家的终极武器—有多厉害不用强调了。但是使用xgboost很简单，提高其性能就很难了。算法有太多的参数，为了提高

2016-11-30 19:11:51 1922

原创 xgoost原理篇

参考xgboost官方介绍占坑先，想起来了会填的~

2016-11-30 19:10:35 1652

原创统计学习方法(五)AdaBoost

一.提升方法boosting 如果我有写过集成方法的话[没有的话看这篇集成学习理论]，集成方法的一大类就是boosting，其基本思想就是不断地在迭代过程中训练BaseModel，并增加误分样本的权重，直到达到停止条件后，组合BaseModel。从集成学习的理论我们知道boosting在组合过程中会增大模型的variance，所以BaseModel必须是低bias但低varian

2016-11-30 11:46:38 779

原创 ★leetcode45_Jump Game II

一.问题描述Given an array of non-negative integers, you are initially positioned at the first index of the array.Each element in the array represents your maximum jump length at that position.

2016-11-25 17:07:27 327

原创 ★leetcode44_Wildcard Matching

一.问题描述Implement wildcard pattern matching with support for '?' and '*'.'?' Matches any single character.'*' Matches any sequence of characters (including the empty sequence).The matching sh

2016-11-24 09:55:52 430

原创 ★leetcode43_Multiply Strings

一.问题描述实现字符串的乘法，不能直接将字符串转化成int哦~二.代码编写首先想到的方法就是根据我们平时手算乘法的方法来计算，本质上就是移位相乘相加~但是时间复杂度是O(N^2)。代码如下：'''@ author: wttttt at 2016.10.29@ problem description see: https://leetcode.com/prob

2016-11-22 20:14:11 531

原创 leetcode42_Trapping Rain Water

一.问题描述Given n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.For example, Given [0,1,0,2,1,0,

2016-11-20 16:48:59 265

原创 leetcode41_First Missing Positive

一.问题描述给定一组integers，找出其中最小的缺失的正整数值，要求时间复杂度为O(n)，空间复杂度为O(1)。二.代码编写时间复杂度为O(n)意味着不能直接对list进行排序O(NlogN)，空间复杂度为常数意味着不能新建一个list。常数空间，我们应该想到直接swap，将相应得到数字m放到list的(m-1)的位置上。全部交换完毕后，返回list中第一个不满

2016-11-20 15:58:15 319

原创 [email protected]

近期要看的：一.机器学习算法相关数学之美番外篇：平凡而又神奇的贝叶斯方法机器学习知识点其中包含了很多算法，慢慢的当做对统计学习方法的回顾总结来看吧。生成模型与判别模型从最大似然到EM算法浅解当时看统计学习方法，觉得理解了许多，但是不应用转眼间又忘了，这篇当做温习，顺便可能可以从另一个角度加深理解。使用sklearn进行集成学习——理论 ensemble这么常用

2016-11-17 15:21:24 435 1

转载机器学习中的范数规则化

机器学习中的范数规则化之（一）L0、L1与L2范数[email protected]://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题：过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大，为了不吓到大家，我将这个五个部分分成两篇博文。知识有限

2016-11-17 15:08:16 373

原创 leetcode39&40_Combination Sum& CombinationSumII

一.问题描述Given a set of candidate numbers (C) and a target number (T), find all unique combinations in C where the candidate numbers sums to T.The same repeated number may be chosen from C un

2016-11-12 11:51:43 290

原创 python之Thread和multiprocessing

下面的每个例子虽然都只给了代码，但是代码我都做了非常非常详细的注释，相信我们都能从其中得到知识的提升！~1.multithread_面向过程import threadingimport timeimport os# a program to simulate selling tickets in multi-thread way# u may realize that this i

2016-11-11 14:00:35 4705

原创 python_Jupyter环境配置

IPython是一个 Python 的一个交互式 shell，它提供了很多内建的函数。Jupyter Notebook是IPython的一个Web接口，其实它也支持其它语言。它可以展现富文本，使得整个工作可以以笔记的形式展现、存储，适合做数据分析，交互编程和学习。本文纪录了在CentOS上搭建Jupyter Notebook的步骤。参考网址：http://www.linuxdiyf.com

2016-11-10 16:32:02 20154 1

原创 kaggel入门比赛_HousePrices

kaggle入门系列比赛HousePrices，该比赛是一个经典的回归问题，预测房价，这个比赛我用来熟悉kaggle，熟悉基本的数据挖掘流程，主要是特征工程，包括常见的缺失值填补，categorial特征的处理，其实主要就是熟悉用python的pandas包对数据进行预处理。第一次尝试的过程我主要是参考了Regularized Linear Models这篇kernel，它对数据的处理就是一些

2016-11-08 20:29:50 4370

原创数据挖掘之缺失值填补常见手段

占坑先~

2016-11-08 20:04:56 7990 1

原创 leetcode36&37_SudukuSolver

36题：一.问题描述Determine if a Sudoku is valid, according to: Sudoku Puzzles - The Rules.The Sudoku board could be partially filled, where empty cells are filled with the character '.'.

2016-11-07 15:05:09 332

原创特征工程

2016-11-03 11:01:41 198

原创 leetcode34_Search for a Range

一.问题描述Given a sorted array of integers, find the starting and ending position of a given target value.Your algorithm's runtime complexity must be in the order of O(log n).If the target i

2016-11-01 09:33:31 263

原创 kaggle_1_环境配置

需要安装的基本就是各种科学计算环境的python包以及ipython。1.安装一些包依赖：yum -y install blas blas-devel lapack-devel lapackyum -y install seaborn scipyyum -y install freetype freetype-devel libpng libpng-devel2.接着安装所需的包(使用

2016-10-31 16:04:20 5218

xgboost原理

kaggle比赛HousePrices之数据预处理

最近邻算法实现

kdd2014论文集

ViewPager仿微信分页导航，多Activity载入

空空如也