自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(243)
  • 资源 (12)
  • 收藏
  • 关注

转载 Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

最近些统计程序时,使用了原生的java hadoop,以前使用streaming 模式, 用awk脚本写时,没有遇到编码问题,原生的java hadoop程序,在处理gb18030格式log时,当输出内容时,出现乱码。解决方法见下文(转自http://blog.csdn.net/zklth/article/details/11829563)--------------------------

2017-04-14 19:49:56 2331

转载 Hadoop中Combiner的使用

转自:http://blog.csdn.net/ipolaris/article/details/8723782在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出。下面以《Hadoop in a

2017-03-14 10:23:38 768

转载 GBK与unicode转换

最近写unicode分词时,需要处理GBK输入,用到GBK与Unicode之间的转换转自http://www.latelee.org/programming-under-linux/gbk-to-unicode-table.html----------------------------------------------------------------------------

2017-01-12 16:22:58 1484

转载 【C++】使用libxml解析XML文件

OpenCV中使用FileStorage创建和解析XML文件。但FileStorage不能处理节点为空的情况,且对属性也不友好。例子见这里。libxml是C接口的处理xml文件的开源代码库。可以在这里下载。对于一段如下的xml文件:[html] view plain copy xml version="1.0"?>  Message

2016-11-09 09:31:47 1304

原创 C++11:POD数据类型

啥是POD类型?POD全称Plain Old Data。通俗的讲,一个类或结构体通过二进制拷贝后还能保持其数据不变,那么它就是一个POD类型。平凡的定义1.有平凡的构造函数2.有平凡的拷贝构造函数3.有平凡的移动构造函数4.有平凡的拷贝赋值运算符5.有平凡的移动赋值运算符6.有平凡的析构函数7.不能包含虚函数

2016-11-03 10:48:26 520

转载 玩转Google开源C++单元测试框架Google Test系列(gtest)之六 - 运行参数

转自http://www.cnblogs.com/coderzh/archive/2009/04/10/1432789.html一、前言使用gtest编写的测试案例通常本身就是一个可执行文件,因此运行起来非常方便。同时,gtest也为我们提供了一系列的运行参数(环境变量、命令行参数或代码里指定),使得我们可以对案例的执行进行一些有效的控制。二、基本介绍前面提到,

2016-11-01 09:17:23 1347

转载 Linux动态加载动态链接库

函数 描述#include头文件定义如下四个函数dlopen 使对象文件可被程序访问dlsym   获取执行了 dlopen 函数的对象文件中的符号的地址dlerror  返回上一次出现错误的字符串错误dlclose 关闭目标文件  dlopen函数返回一个句柄,该句柄用于后续的 API 调用。dlopen的原型为:#includevoi

2016-10-25 15:10:06 622

转载 shell中test命令用法详解

test命令用法。功能:检查文件和比较值  1)判断表达式  if test  (表达式为真)  if test !表达式为假  test 表达式1 –a 表达式2                  两个表达式都为真  test 表达式1 –o 表达式2                 两个表达式有一个为真  2)判断字符串  test

2016-10-25 09:37:19 472

转载 hadoop相关优化参数

hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些值使作业运行效率达到最优。程序编写规范(1)设置Combiner如果是一大批MR程序,如果可以设置一个Combiner,Combiner可减少Map Task中间输出结果,从而减少各个Reduce Task的远程拷贝数据量,最终表现为Map Task和Reduce Task执行时间缩短。

2016-10-10 10:41:18 853

转载 如何在hadoop中控制map的个数

hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。     为了方便介绍,先来看几个名词:block_size : hdfs的文件块大小,默认为64M,可以通过参

2016-09-27 12:32:33 451

转载 cgi与fastcgi的理解

当我们在谈到cgi的时候,我们在讨论什么最早的Web服务器简单地响应浏览器发来的HTTP请求,并将存储在服务器上的HTML文件返回给浏览器,也就是静态html。事物总是不断发展,网站也越来越复杂,所以出现动态技术。但是服务器并不能直接运行php,asp这样的文件,自己不能做,外包给别人吧,但是要与第三做个约定,我给你什么,然后你给我什么,就是握把请求参数发送给你,然后我接收你的处理结果

2016-09-22 21:17:30 536

转载 使用C++标准库sort自定义比较函数导致死循环问题

永远让比较函数对相等的值返回false(来自Effective C++)---------------------------------------------------------------------------------------------------------转自http://www.cnblogs.com/yuanzz/p/3735213.html

2016-08-17 09:06:20 3333 2

转载 rsync error: protocol incompatibility / mismatch ?

1、问题今日在维护集群环境的时候,遇到了一个小问题,rsync 向集群中的机器传输文件的时候报错:protocol version mismatch -- is your shell clean?(see the rsync man page for an explanation)rsync error: protocol incompatibility (code 2) at c

2016-08-10 09:24:44 2629 2

转载 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html版权声明:    本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected]

2016-07-16 16:35:40 745

转载 gcc #pragma pack c++模板template

gcc4.4.7下编译如下,不知为什么对模板的对齐控制不起效果,遂搜了点对模板的对齐控制相关的#include #pragma pack(2)template class a{private:        id_type x;        unsigned short y;};class b{private:        int x;

2016-07-12 17:23:43 1132

转载 字符串哈希函数

基本概念所谓完美哈希函数,就是指没有冲突的哈希函数,即对任意的 key1 != key2 有h(key1) != h(key2)。设定义域为X,值域为Y, n=|X|,m=|Y|,那么肯定有m>=n,如果对于不同的key1,key2属于X,有h(key1)!=h(key2),那么称h为完美哈希函数,当m=n时,h称为最小完美哈希函数(这个时候就是一一映射了)。在处理大规模字符串数据

2016-06-17 13:56:22 698

转载 svn checkout单个文件(refers to a file, not a directory)

http://www.letuknowit.com/archives/svn-checkout-single-file/有时候需要在svn版本仓库中某个比较上层的目录中(比如根目录)checkout某一个文件,例如下面的svn版本仓库中,我们需要checkout名为readme.txt的文件,而其他的几个文件夹中都有很多内容,如果我们直接checkout根目录的所有内容,肯定是不合算的。

2016-02-17 13:09:42 4151

转载 svn: File has binary mime type property的解决办法

修改~/.subversion/config 找到最后一个section,在最后加上如下一行话: *.txt = svn:mime-type=text/plain;svn:eol-style=native 光这个还不够,向上搜索到这么一行 # enable-auto-props = yes 把前面用来注释这行的那个#和其后的空格去掉

2016-01-29 17:46:24 1408

转载 unordered_map与线性结构内存占比

转自http://blog.csdn.net/acaiwlj/article/details/49781877一、引言   当我们需要使用键值对的情况时,通常我们会使用map或者unordered_map。其中map底层是采用红黑树实现的,它的查询复杂度是O(lgn);unordered_map实际上是hash_map的实现,理论上它的查询复杂度是O(1)的。那么当我们需要使用键

2016-01-15 09:44:06 7296 2

转载 类成员函数作为pthread_create函数参数

转自http://blog.csdn.net/luo6620378xu/article/details/8521940近日需要将线程池封装成C++类,类名为Threadpool。在类的成员函数exec_task中调用pthread_create去启动线程执行例程thread_rounter。编译之后报错如下:spfs_threadpool.cpp: In member functi

2016-01-14 11:30:24 2295

转载 中文分词技术

一、       为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、 

2015-12-21 23:23:34 932

转载 linux sed命令详解

1.简介sed是非交互式的编辑器。它不会修改文件,除非使用shell重定向来保存结果。默认情况下,所有的输出行都被打印到屏幕上。sed编辑器逐行处理文件(或输入),并将结果发送到屏幕。具体过程如下:首先sed把当前正在处理的行保存在一个临时缓存区中(也称为模式空间),然后处理临时缓冲区中的行,完成后把该行发送到屏幕上。sed每处理完一行就将其从临时缓冲区删除,然后将下一行读入,进行

2015-12-21 22:35:50 657

转载 php header解决乱码问题及其他乱码问题

转自http://www.jb51.net/article/22501.htmphp的header来定义一个php页面为utf编码或GBK编码 php页面为utf编码 header("Content-type: text/html; charset=utf-8"); php页面为gbk编码 header("Content-type: text/html; charset=gb2

2015-08-03 16:20:04 4231

转载 hadoop streaming 输出数据分割与二次排序

输出数据分割默认情况下Streaming框架将map输出的每一行第一个”\t”之前的部分作为key,之后的部分作为value,key\tvalue又作为reduce的输入。可以用-D stream.map.output.field.separator改变map输出中key和value的分隔符,用-D stream.num.map.output.key.fields设置分隔符的位置,该位置之

2015-07-30 11:32:28 12456

转载 Linux使用expect实现免手工密码输入

使用expect实现自动登录的脚本,网上有很多,可是都没有一个明白的说明,初学者一般都是照抄、收藏。可是为什么要这么写却不知其然。本文用一个最短的例子说明脚本的原理。   脚本代码如下:   ##############################################   #!/usr/bin/expect   set timeout 30   spawn ss

2015-07-27 11:10:26 3074

转载 hadoop入门操作命令

转自:http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP1.         进入HADOOP_HOME目录。

2015-07-09 17:38:51 578

转载 EventBus使用详解(二)——EventBus使用进阶

转自:http://blog.csdn.net/harvic880925/article/details/40787203最新版EventBus下载链接,只需将相应EventBus2.4.jar拷贝到项目的libs下,在代码中import com.ypy.eventbus.EventBus;即可相关文章:1、《EventBus使用详解(一)——初步使用EventBus》

2015-03-13 20:20:41 975

转载 Android开发实践:使用Service还是Thread

转自http://blog.jobbole.com/77674/Service是Android的四大组件之一,被用来执行长时间的后台任务,同样,线程也可以实现在后台执行任务,它们的区别在哪呢?何时使用Service何时使用Thread呢?今天我也来说说我的理解和总结。 首先,需要了解Service的几个特点。 (1) 默认情况下,Service其实是运行

2015-02-11 09:08:15 563

转载 snmp++库编译安装与snmp的安装配置

转自:http://blog.csdn.net/youngqj/article/details/74588461.下载libdes-l-4.01a.tar.gz  http://download.csdn.net/detail/xhu_eternalcc/8383389snmp++v3.2.25.tar.gz  http://download.csdn.net/de

2015-01-21 15:58:55 3841 4

原创 开源夏令营之foldcolumn工具及解决方案(七)测试与总结

foldcolumn命令行工具功能与参数对应表各各

2014-09-05 23:00:25 1129 1

转载 求某个数是排列中的第几个--康托展开

求4132是第几个排列?解:总共4个数,所以n=4.它在全部排列的位置设为ans,初始化为0.1.第一个数是4,比4小的并且还没有出现过的数有3个:1,2,3。那么ans:=ans+ 3*(n-1)!2.第二个数是1,比1小的并且还没有出现过的数为 0个。那么ans:=ans+ 0 * (n-2)!3.第三个数是3,比3小的并且还没有出现过的数为1个:1,2。那么ans:=ans+

2014-08-28 15:35:24 1867

转载 求排列中第k大的数--逆康托展开

简单介绍下:这个方法还是用例子来说比较好例1 {1,2,3,4,5}的全排列,并且已经从小到大排序完毕(1)找出第96个数首先用96-1得到95用95去除4! 得到3余23用23去除3! 得到3余5用5去除2!得到2余1用1去除1!得到1余0有3个数比它小的数是4所以第一位是4有3个数比它小的数是4但4已经在之前出现过了所以是5(因为4在之前

2014-08-28 15:05:37 865

原创 leetcode之Binary Tree Maximum Path Sum

Given a binary tree, find the maximum path sum.The path may start and end at any node in the tree.For example:Given the below binary tree, 1 / \ 2 3Return 6.这道题一开始没看懂题目

2014-08-24 10:23:37 1043

原创 Linux C之动态库、静态库混合链接

以前写程序时要么是链接动态库要么是链接

2014-08-20 15:02:50 890

原创 Google2015校园招聘在线笔试题2--2048游戏

下午去打了个酱油,就做出一道最简单题2048游戏,

2014-08-18 22:18:29 1845 2

原创 开源夏令营之foldcolumn工具及解决方案(六)制作manpage与Makefile

heirloom的manpage是在make install的时候将其拷贝到指定目录,

2014-08-11 22:35:07 1155

原创 CSDN英雄会题解之分巧克力与巨人网络笔试题之上台阶

这两道题很相似,也很简单

2014-08-11 15:11:19 1405 2

转载 lvs负载均衡技术介绍

摘自:2. 服务器集群系统    对称多处理(Symmetric Multi-Processor,简称SMP)是由多个对称的处理器、和通过总线共享的内存和I/O部件所组成的计算机系统。SMP是一种低并行度的结构,是我们通常所说的"紧耦合多处理系统",它的可扩展能力有限,但SMP的优点是单一系统映像(Single System Image),有共享的内存和I/O,易编程。    由于

2014-08-11 13:55:29 1060

转载 文件内存映射mmap解决大文件快速读写问题和进程间共享内存

mmap函数主要用途有三个:1、将一个普通文件映射到内存中,通常在需要对文件进行频繁读写时使用,这样用内存读写取代I/O读写,以获得较高的性能;2、将特殊文件进行匿名内存映射,可以为关联进程提供共享内存空间;3、为无关联的进程提供共享内存空间,一般也是将一个普通文件映射到内存中。Linux提供了内存映射函数mmap, 它把文件内容映射到一段内存上(准确说

2014-08-09 11:08:32 5583

转载 开源夏令营之foldcolumn工具及解决方案--学习制作manpage

how do I create a man page for my shell or python script under Linux / UNIX operating systems?

2014-08-09 10:10:38 1118

EventBus2.4.jar

Android EventBus EventBus2

2015-03-13

libdes-l-4.01.tar.gz

libdes-l-4.01.tar.gz 安装snmp++时需要

2015-01-21

snmp++v3.2.25.tar.gz

snmp++是实现了snmp协议的c++库

2015-01-21

freetds-0.91-stable.tgz

freetds是linux下链接sql server的开源库

2014-06-06

USTC中科大机器学习与知识发现小作业之classfication_SC12011034

USTC中科大机器学习与知识发现小作业之classfication,自己写的,给以后学弟学妹一个参考

2013-09-19

USTC中科大机器学习与知识发现project之推荐系统

这是我在中科大代培的时候,写的一个电影推荐系统,希望能给以后的学弟学妹一个参考,机器学习与知识发现是门不错的课,自己一定要自己动手写下代码!

2013-09-19

qt5初学者入门经典-qt入门之路2

很适合qt初学者学习,里面讲解了qt5的新特性,并与qt4做了对比

2013-08-11

中科大并行程序设计历年期末考试试卷

中科大 中国科学技术大学 ustc 并行程序 历年 期末考试 试卷,供期末复习参考

2013-03-09

并行程序设计MPI常用函数

这个参考手册里面有学习并行程序设计初期用到的一些函数,非常有参考价值,尤其是初期要好好看下一些函数原型。

2013-03-09

基于php的一个简易留言板message_board

这是我初学php时,写的一个简易留言板,拿出来献丑了,希望能帮到初学者 ,欢迎下载

2011-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除