自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 资源 (5)
  • 收藏
  • 关注

原创 Hadoop之Text与String的异同

String常量,创建之后不可修改字符串连接是通过StringBuilder(或StringBuffer)类实现的 【区别:StringBuilder是非线程安全的,这也使其性能比StringBuffer要高(少synchroned方法)】String: UTF-16格式Unicode为解决传统字符编码方案的局限而产生Unicode方案包括: 给所有字符指定一个唯一对应的数字将字符

2017-03-04 20:47:14 1478

原创 Hadoop实战之课后题--分析web服务器的日志文件

任务统计每个IP地址的访问次数查找访问数最多的前K个IP地址分析:任务1很简单,简单的求和问题,用来重新熟悉hadoop MR程序的写法。 优化:使用combiner()减少网络中的流量传输;这个例子中combiner和reducer的逻辑相同,两种使用同一个reduce即可。代码贴在附录里了,注释详细,可查看~任务2是一个TopK的问题,要点有以下几个: 使用TreeMap来得到

2017-03-03 16:34:09 856

转载 Linux下打包运行MR程序

转载自 使用命令行编译打包运行MR程序网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的,大多又是 0.20 等旧版本版本的做法,即 javac -classpath /usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jar WordCount.java

2017-03-03 10:38:23 1268

转载 JAVA学习路线图

转载自byrbss  JAVA学习路线图以下是原文:Java是一个通用的编程语言,其实可以干很多事,怎么学Java就看怎么用了。但有一些一般的步骤:1. 熟悉一种文本编辑器,比如Vim, Emacs, Notepad++, TextMate等。知道哪些是开源的,哪些是闭源的,哪些要收费。养成不用盗版软件的习惯。2. 安装JDK(建议用你的Linux发行版

2017-03-03 09:12:31 633

转载 Hadoop_eclipse开发配置

参考这两篇文章http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlhttp://www.cnblogs.com/simplestupid/p/4681144.html

2017-03-02 16:43:16 381

原创 Hadoop实战(五) 高阶MapReduce

本章重点概括 TODO链接MapReduce作业顺序链接这种任务可以手动的逐个执行,但生成自动化执行序列的方式更为便捷。 mapreduce-1 | mapreduce-2 | mapreduce-3 | … 具复杂依赖的作业链接(非线性链接)通过Job和JobControl类来管理依赖JobControl类负责管理并监控作业的执行JobControl对象使用addJob()方法向其中

2017-02-28 11:08:49 544

原创 Hadoop2.2.0源码系列--Job类

获取Job对象Job的构造函数最直接的获取Job对象的方式@Deprecated public Job() throws IOException { this(new Configuration()); } @Deprecated public Job(Configuration conf) throws IOException { this(new JobConf(c

2017-02-28 10:18:50 1058

原创 Hadoop实战(四) 编写MR程序

Hadoop实战(四) 编写MR程序样例数据集1. 下载数据集Address: http://www.nber.org/patents/ wget http://www.nber.org/patents/acite75_99.zip wget wget http://www.nber.org/patents/apat63_99.zip解压: unzip acite75_99.zip上传

2017-02-28 09:17:42 3742

原创 leetcode73_ Set Matrix Zeroes

问题描述Given a m x n matrix, if an element is 0, set its entire row and column to 0. Do it in place.代码编写*很明显是遍历的思想,但是做不到一遍做完所有,至少要两遍。 *于是想到先遍历行,再遍历列。为节省时间,在遍历列的时候,需要置零的列就不再考虑已经被置零的行。 *我的思路问题就在于只考虑了优化时间复

2017-02-27 20:37:22 406

原创 Skinny-dip clustering in the sea of noise

粗读理解论文主要工作 贡献 理解一些相关工作: * unimodality:wiki_unimodality 单峰性数学上是指处理一个唯一的模式(只有一个单一的最大值)。 * mode:mode_wiki The mode is the value that appears most often in a set of data. * modal interval:introduct

2017-01-12 11:41:55 741

原创 leetcode62&63&64_Unique Paths

一、问题描述A robot is located at the top-left corner of a m x n grid (marked ‘Start’ in the diagram below).The robot can only move either down or right at any point in time. The robot is trying to reach the

2016-12-20 21:35:48 432

原创 leetcode60_Permutation Sequence

一、问题描述The set [1,2,3,…,n] contains a total of n! unique permutations.By listing and labeling all of the permutations in order,We get the following sequence (ie, for n = 3):"123""132"

2016-12-16 15:44:02 339

原创 《高维数据的聚类分析研究及其应用》读书笔记

一、高维聚类の研究方向        由于高维数据的稀疏性等特征,使得在高维聚类的研究中有如下几个研究重点:1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射,常见的有PCA、SVD等。后者则是选择特征的子集,常见的搜索方式有自顶向下、随机搜索等;2)高维聚类算法,主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上,后者则可以

2016-12-13 09:36:24 9707 1

原创 kdtree&knn

前言:本文关于kdtree的知识基本来源于kdtree_wiki一、what's kdtree        kdtree是 k-dimensional tree的缩写,它是一种用于组织k维空间中数据点的基于空间划分的数据结构。kdtree常用于搜索多维搜索词,包括区间搜索和最近邻搜索。kdtree是一种二叉树结构,它是BSP(Binary space partationing)树的一

2016-12-12 10:51:54 8996

原创 leetcode56&57_Merge Intervals&Insert Interval

一、问题描述Given a collection of intervals, merge all overlapping intervals.For example,Given [1,3],[2,6],[8,10],[15,18],return [1,6],[8,10],[15,18]二、代码编写    这个算法思想很简单,只要将list按照interval的s

2016-12-11 20:22:53 294

原创 Hadoop实战(二) hadoop基本组成

一、Hadoop组件        通常我们所理解的狭义Hadoop构成分为HDFS分布式存储系统和MapReduce编程模型两部分,下面分别从这两个部分介绍。(一)HDFSHDFS是一个分布式文件系统,下面主要介绍如何操作该文件系统。1.基本命令行操作hadoop fs -help基本的操作都遵循这个模式,比如常用的  hadoop fs -lshadoop fs -m

2016-12-08 16:26:34 2262

原创 hadoop实战(一) hadoop基本概念

一、理解Hadoop        Hadoop_wiki上定义,Apache Hadoop is an open-source software framework used for distributed storage and processing of very large data sets. 就是说Hadoop是分布式的数据处理框架。二、理解MapRed

2016-12-07 17:38:46 677

原创 leetcode51&52 N-Queens

一.问题描述The n-queens puzzle is the problem of placing n queens on an n×n chessboard such that no two queens attack each other.Given an integer n, return all distinct solutions to the n-que

2016-12-04 15:10:16 311

原创 EM算法

一.EM算法基本介绍    和一般的算法目标一样,我们用最大似然估计,对参数进行估计l(θ) = ∑P(yi|θ)由于某些原因,你发现这个不好求(NP hard问题),于是引入了一个隐变量(latent variable),并把上式改写成了l(θ) = ∑P(yi|θ) = ∑∑P(yj,zj|θ) [注:里面一个求和是对所有可能的z求和,外面的求和是对y]然后通过神奇

2016-12-03 21:15:34 681

原创

昨天看到一个面试题,让介绍什么是秩,其实这个可能对学好了线性代数的人来说是很basic的问题吧,可是无奈数学里我最最讨厌的就是线性代数了,当初大一的时候压根没学明白。   言归正传,单独给秩开一篇博客,是因为早上看到知乎的大神对秩的解释简直不要太好,贴上来,保存一下。下面的回答是按2我个人的喜好程度排的,hhh回答1:秩就是基的个数,基就是特征,基就用最小的粒度能够描述所有

2016-12-01 16:29:40 1037

原创 leetcode50_Pow(x, n)

一.问题描述Implement pow(x, n).实现指数乘法。二.代码编写首先想到的其实就是把n不断拆分成n/2,但是想歪了,可能沉浸在大数乘法那个题里,然后发现其实小数乘大数比两个相等的数运算复杂度低一点,所以就否定了这个想法。但看了tags是二分的思想,后来一想其实重点不在于每次运算的复杂度,而在于二分能将运算的次数由O(N)降低到O(logN)。所以其实这

2016-11-30 21:29:44 398

原创 xgboost调参

Xgboost调参英文版参考:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/ Xgboost经常被用作许多数据科学家的终极武器—有多厉害不用强调了。但是使用xgboost很简单,提高其性能就很难了。算法有太多的参数,为了提高

2016-11-30 19:11:51 1922

原创 xgoost原理篇

参考xgboost官方介绍占坑先,想起来了会填的~

2016-11-30 19:10:35 1652

原创 统计学习方法(五)AdaBoost

一.提升方法boosting        如果我有写过集成方法的话[没有的话看这篇集成学习理论],集成方法的一大类就是boosting,其基本思想就是不断地在迭代过程中训练BaseModel,并增加误分样本的权重,直到达到停止条件后,组合BaseModel。从集成学习的理论我们知道boosting在组合过程中会增大模型的variance,所以BaseModel必须是低bias但低varian

2016-11-30 11:46:38 779

原创 ★leetcode45_Jump Game II

一.问题描述Given an array of non-negative integers, you are initially positioned at the first index of the array.Each element in the array represents your maximum jump length at that position.

2016-11-25 17:07:27 327

原创 ★leetcode44_Wildcard Matching

一.问题描述Implement wildcard pattern matching with support for '?' and '*'.'?' Matches any single character.'*' Matches any sequence of characters (including the empty sequence).The matching sh

2016-11-24 09:55:52 430

原创 ★leetcode43_Multiply Strings

一.问题描述实现字符串的乘法,不能直接将字符串转化成int哦~二.代码编写首先想到的方法就是根据我们平时手算乘法的方法来计算,本质上就是移位相乘相加~但是时间复杂度是O(N^2)。代码如下:'''@ author: wttttt at 2016.10.29@ problem description see: https://leetcode.com/prob

2016-11-22 20:14:11 531

原创 leetcode42_Trapping Rain Water

一.问题描述Given n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.For example, Given [0,1,0,2,1,0,

2016-11-20 16:48:59 265

原创 leetcode41_First Missing Positive

一.问题描述给定一组integers,找出其中最小的缺失的正整数值,要求时间复杂度为O(n),空间复杂度为O(1)。二.代码编写时间复杂度为O(n)意味着不能直接对list进行排序O(NlogN),空间复杂度为常数意味着不能新建一个list。常数空间,我们应该想到直接swap,将相应得到数字m放到list的(m-1)的位置上。全部交换完毕后,返回list中第一个不满

2016-11-20 15:58:15 319

原创 [email protected]

近期要看的:一.机器学习算法相关数学之美番外篇:平凡而又神奇的贝叶斯方法机器学习知识点其中包含了很多算法,慢慢的当做对统计学习方法的回顾总结来看吧。生成模型与判别模型从最大似然到EM算法浅解 当时看统计学习方法,觉得理解了许多,但是不应用转眼间又忘了,这篇当做温习,顺便可能可以从另一个角度加深理解。使用sklearn进行集成学习——理论 ensemble这么常用

2016-11-17 15:21:24 435 1

转载 机器学习中的范数规则化

机器学习中的范数规则化之(一)L0、L1与L2范数[email protected]://blog.csdn.net/zouxy09        今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限

2016-11-17 15:08:16 373

原创 leetcode39&40_Combination Sum& CombinationSumII

一.问题描述Given a set of candidate numbers (C) and a target number (T), find all unique combinations in C where the candidate numbers sums to T.The same repeated number may be chosen from C un

2016-11-12 11:51:43 290

原创 python之Thread和multiprocessing

下面的每个例子虽然都只给了代码,但是代码我都做了非常非常详细的注释,相信我们都能从其中得到知识的提升!~1.multithread_面向过程import threadingimport timeimport os# a program to simulate selling tickets in multi-thread way# u may realize that this i

2016-11-11 14:00:35 4705

原创 python_Jupyter环境配置

IPython是一个 Python 的一个交互式 shell,它提供了很多内建的函数。Jupyter Notebook是IPython的一个Web接口,其实它也支持其它语言。它可以展现富文本,使得整个工作可以以笔记的形式展现、存储,适合做数据分析,交互编程和学习。本文纪录了在CentOS上搭建Jupyter Notebook的步骤。参考网址:http://www.linuxdiyf.com

2016-11-10 16:32:02 20154 1

原创 kaggel入门比赛_HousePrices

kaggle入门系列比赛HousePrices,该比赛是一个经典的回归问题,预测房价,这个比赛我用来熟悉kaggle,熟悉基本的数据挖掘流程,主要是特征工程,包括常见的缺失值填补,categorial特征的处理,其实主要就是熟悉用python的pandas包对数据进行预处理。第一次尝试的过程我主要是参考了Regularized Linear Models这篇kernel,它对数据的处理就是一些

2016-11-08 20:29:50 4370

原创 数据挖掘之缺失值填补常见手段

占坑先~

2016-11-08 20:04:56 7990 1

原创 leetcode36&37_SudukuSolver

36题:一.问题描述Determine if a Sudoku is valid, according to: Sudoku Puzzles - The Rules.The Sudoku board could be partially filled, where empty cells are filled with the character '.'.

2016-11-07 15:05:09 332

原创 特征工程

2016-11-03 11:01:41 198

原创 leetcode34_Search for a Range

一.问题描述Given a sorted array of integers, find the starting and ending position of a given target value.Your algorithm's runtime complexity must be in the order of O(log n).If the target i

2016-11-01 09:33:31 263

原创 kaggle_1_环境配置

需要安装的基本就是各种科学计算环境的python包以及ipython。1.安装一些包依赖:yum -y install blas blas-devel lapack-devel lapackyum -y install seaborn scipyyum -y install freetype freetype-devel libpng libpng-devel2.接着安装所需的包(使用

2016-10-31 16:04:20 5218

xgboost原理

xgboost作者陈天奇对xgboost原理的介绍,讲得很好,真的超级好!~~~

2016-11-30

kaggle比赛HousePrices之数据预处理

kaggle比赛HousePrices之数据预处理部分的完整代码,包含非常详细的注释,属于数据挖掘预处理的经典流程性代码。

2016-11-08

最近邻算法实现

参考<>一书第二章k近邻算法, 第二节【使用k近邻算法改进约会网站的配对效果】所写成。

2016-06-24

kdd2014论文集

kdd2014论文全集

2016-05-23

ViewPager仿微信分页导航,多Activity载入

基于android的源码。利用ViewPager实现的仿微信分页导航,多Activity载入

2014-09-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除