自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (9)
  • 收藏
  • 关注

原创 kettle 集群、分区

Kettle集群、分区执行顺序与结果            目录1.     Kettle集群、分区的执行顺序...3a)     转换中的一个步骤单独使用集群...3b)     转换中的两个步骤使用集群...3c)     转换中的一个步骤单独使用分区...4d)     转换中的两个步骤使用分区...5e)     转换中的一个步骤既使用分区又使用集群...6i.      分区数和集群的子...

2014-08-07 16:05:49 4919

原创 Kettle 集群(cluster)在多个服务器(windows、linux)上并发执行

        Kettle集群(cluster)在多个服务器(windows、linux)上并发执行    目录一、        Kettle的部署...3二、    服务器介绍...3三、        carte相关配置文件说明...3四、        carte服务开启...4五、        在kettle图形界面中对集群进行设定...5六、        基于kettle集群模式...

2014-07-29 15:48:10 29964 2

转载 Visual Studio+VAssistX自动添加注释,函数头注释,文件头注释

1. 增加函数头注释右击函数名,然后依次点击“Refacto”–>“Document Method”,这个时候函数头注释就会蹦出来,不过这个注释的格式是默认的,想修改注释格式,可以通过以下方法。点击 “VAssistX”–>“Visual VAssistX Options”然后选择Suggestions,再点击“Edit VA Snippets”。在打开的窗口中选择Refa

2014-07-01 14:39:35 7761 2

转载 Visual Studio+VAssistX自动添加注释

1. 增加函数头注释右击函数名,然后依次点击“Refacto”–>“Document Method”,这个时候函数头注释就会蹦出来,不过这个注释的格式是默认的,想修改注释格式,可以通过以下方法。点击 “VAssistX”–>“Visual VAssistX Options”然后选择Suggestions,再点击“Edit VA Snippets”。在打开的窗口中选择Refa

2014-06-19 10:00:03 3734

原创 sphinx安装、配置、索引与检索

0、官网下载:http://sphinxsearch.com/downloads/release/1、解压缩:tar xzvf sphinx-2.1.8-release.tar.gz2、运行configuration程序:./configure --prefix=/home/lixm/sphinx--prefix指向sphinx安装路径3、制作二级制程序:make

2014-05-23 15:08:33 904

转载 解决在Linux环境下解压zip的乱码问题

今天折腾了下把windows下的文件全部转移到了Fedora中,之后在解压那些在Windows下压缩为zip格式的压缩包时出现了久违了的乱码问题。于是乎,为了解决这个麻烦事,Google了一堆解决办法一一试过去,却依然没法解决。最后,终于在翻了N页之后找到了一段代码,抱着尝试的心理试用了一下,没想到竟然解决了这一大难题。好东西不忍独享,故而在此贴出让更多人使用。#!/usr/bin/e

2013-02-26 09:51:34 829

转载 linux下各种解压方法

转自:http://www.cppblog.com/sunrise/archive/2012/08/16/187392.html大致总结了一下linux下各种格式的压缩包的压缩、解压方法。但是部分方法我没有用到,也就不全,希望大家帮我补充,我将随时修改完善,谢谢!      .tar   解包:tar xvf FileName.tar   打包:tar cvf FileName

2013-02-25 17:30:27 2256 1

原创 linux下tar打包到windows下解压缩后中文文件名乱码

主要原因是WINDOWS与LINUX对文件系统字符集的处理方式是不相同的。zip和rar会记录字符集,自动转换,而tar不是跨平台解压缩的。比如 “中国.txt”,utf-8下编码是e4b8ade59bbd,tar里面记录的是e4b8ade59bbd.tar,然后gbk下中国不是e4b8ade59bbd,所以就是乱码了。1)对于.zip  linux下提供了zi

2013-02-18 17:00:05 13279 3

转载 Excel中Hyperlink函数最强应用:批量插入超链接

原创文章,转载或者分享,请注明来自  数据小兵  博客   谢谢合作  该文章原创地址:http://hi.baidu.com/datasoldier/item/5450c30d60aae7da73e676e3 前面介绍过一个姐妹篇:excel中如何批量提取超链接的链接地址便于统计 ,在实际应用当中发现还有反过来使用的需求,就是在excel中如何批量插入超链接地址,以本

2013-01-23 10:48:10 15397

转载 STL中用ERASE()方法遍历删除元素

STL中用ERASE()方法遍历删除元素Posted on 2008-12-27 00:23 Herbert 阅读(10974) 评论(10)  编辑 收藏 引用 所属分类: C++       STL中的容器按存储方式分为两类,一类是按以数组形式存储的容器(如:vector 、deque);另一类是以不连续的节点形式存储的容器(如:list、set、map)。在使用erase方法来删

2013-01-05 10:02:33 737

转载 matlab 画图入门与实例

一. 二维图形(Two dimensional plotting)1. 基本绘图函数(Basic plotting function):Plot, semilogx,   semilogy, loglog, polar, plotyy(1). 单矢量绘图(single vector plotting):plot(y),矢量y的元素与y元素下标之间在线性坐标下的关系曲线。例1:单矢量绘图

2012-12-18 10:17:29 7505

原创 聚类评价指标 Rand Index,RI,Recall,Precision,F1

详细说明在http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html假设一个集合中有N篇文章一个集合中有N(N-1)/2个集合对TP:同一类的文章被分到同一个簇TN:不同类的文章被分到不同簇FP:不同类的文章被分到同一个簇FN:同一类的文章被分到不同簇Rand Inde

2012-12-17 10:19:52 37075 4

转载 VS2008编译iconv静态链接库

iconv是将一种编码格式转换为另一种编码格式的开源库,例如可以把Windows环境下通用的ASCii(中文是GB2312)编码转换为国际通用的Unicode编码iconv最新版本只支持MingW和Cygwin编译1. 下载 iconv 库并解压,目前最新版本为 1.14         http://ftp.gnu.org/pub/gnu/libiconv/2、新建一

2012-10-31 16:04:20 4506 3

转载 mongodb的c++接口的说明

mongodb c++ 接口说明说明:IN表示输入参数;OUT表示输出参数;(1)构造函数:DBClientConnection(bool auto_connect, 0, double so_timeout);auto_connect(IN):连接失败后自动重连so_timeout(IN):非连接超时,tcp的读写超时(2)连接mongo:bool

2012-10-25 10:08:34 3404 1

原创 windows C++ 出错重启和每天重启

/****************************************************************************** FUNCTION GetNowTime()

2012-10-19 14:27:33 1056

转载 GetModuleFileName

1.函数原型:  DWORD GetModuleFileName(  HMODULE hModule,  LPTSTR lpFilename,  DWORD nSize  );  函数参数说明:  hModule HMODULE 装载一个程序实例的句柄。如果该参数为NULL,该函数返回该当前应用程序全路径。

2012-10-15 17:01:18 934

转载 GBK与UTF8编码相互转换

1、将GBK转换成UTF8string GBKToUTF8(const std::string& strGBK){ string strOutUTF8 = ""; WCHAR * str1; int n = MultiByteToWideChar(CP_ACP, 0, strGBK.c_str(), -1, NULL, 0); str1 = new WCHAR[n];

2012-08-29 15:05:31 948

转载 通过Mysql语句查询得到mysql安装路径

1、通过Mysql语句得到mysql安装路径:select @@basedir as basePath from dual  2、通过dos命令将库导出到mysql安装目录bin下:C:\Program Files\MySQL\MySQL Server 5.0\bin>mysqldump.exe -u root -p test > a.txt

2012-08-21 09:13:22 28208 3

原创 匹配汉字的正则表达式

[\u4e00-\u9fa5]

2012-08-14 16:51:34 839

转载 linux安装jsoncpp

#tar -zxf scons-2.1.0.tar.gz  #cd scons-2.1.0 #python setup.py install #tar -zxf jsoncpp-src-0.5.0.tar.gz  #cd jsoncpp-src-0.5.0 #scons platform=linux-gcc #mv libs/linux-gcc-4.1.2/libjson_

2012-04-26 16:46:25 1107

转载 Linux统计某文件夹下文件、文件夹的个数

统计某文件夹下文件的个数ls -l |grep "^-"|wc -l统计某文件夹下目录的个数ls -l |grep "^d"|wc -l统计文件夹下文件的个数,包括子文件夹里的ls -lR|grep "^-"|wc -l如统计/home/han目录(包含子目录)下的所有js文件则:ls -lR /home/han|grep js|wc -l 或 ls -l

2012-04-26 15:29:09 618

转载 C++:在迭代中删除map的成员

C++:在迭代中删除map的成员 首先要清楚一点,迭代器相当于是容器上的指针,容器可以自己管理内 存,因此迭代器可能失效。如果你在不知情的情况下使用了失效的迭代器,后果是不可预料的。可能程序立即崩掉,也可能什么事都没有发生。崩掉了算你 幸运,因为你至少知道出了问题,不然有你受的。回到正题,我想说什么呢?比如: 程序代码map theMap;//

2012-04-12 17:12:16 1675 1

原创 中文文本分类流程

中文文本分类中使用较多的特征抽取方法包括文档频率DF、互信息MI、信息增益IG和CHI等。文本分类主要分成建立特征库、分类模型训练和分类测试三个步骤。1、预处理,包括分词和停用词的移除。2、选择合适的特征抽取方法,对每个词条进行计算,设定合适的阈值,将特征词低于该阈值的词条移除,构成特征库。3、在训练和分类模块中,依据特征库对文本进行特征提取,进而将文档表示为特征向量。

2012-04-12 16:12:45 2341

转载 Linux命令之wc - 统计文件行数、单词数或字节数

用途说明wc命令用来打印文件的文本行数、单词数、字节数等(print the number of newlines, words, and bytes in files)。在Windows的Word中有个“字数统计”的工具,可以帮我们把选中范围的字数、字符数统计出来。Linux下的wc命令可以实现这个功能。使用vi打开文件的时候,底下的信息也会显示行数和字节数。 常用参数

2012-03-28 09:08:43 2072

转载 linux 下查看文件个数及大小

ls -l |grep "^-"|wc -l或find ./company -type f | wc -l查看某文件夹下文件的个数,包括子文件夹里的。ls -lR|grep "^-"|wc -l查看某文件夹下文件夹的个数,包括子文件夹里的。ls -lR|grep "^d"|wc -l说明:ls -l长列表输出该目录下文件信息(

2012-03-28 08:53:57 658

转载 C++ 避免使用宏

避免使用宏概述:        宏是C和C++语言的抽象设施中最生硬的工具,它是披着函数外衣的饥饿的狼,很难驯服,它会我行我素地游走于各处。要避免使用宏。讨论:        在C++中,几乎从不需要使用宏。        可以用const或者enum定义易于理解的常量,用inline避免函数调用的开销,用template指定函数系列和类型系列,用nam

2012-03-19 17:10:42 832

转载 C++ map 根据值排序

typedef pair PAIR;    int cmp(const PAIR& x, const PAIR& y)    {      return x.second > y.second;    }        map m;    vector vec;    for (map::iterator curr = m.begin(); curr

2012-02-23 14:19:55 682

转载 文本相似度的计算-向量空间模型

在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1其中,W1k、W2k分别表示文本D1和D2第K个特征项的权值,1在自动归类中,我们可以利用类似的方法来计算待归类文档和某类目的相关度。

2012-02-22 10:21:54 1527

转载 特征选择算法之开方检验

前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在

2012-02-21 17:34:25 3845 3

转载 特征选择方法之信息增益

前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带

2012-02-21 11:25:07 30105 17

转载 STL算法目录

迭代器的各种形式概述:InputIterator:一个只允许单个向序列读入元素的输入迭代器,前向传递使用operator++和operator*。也可以通过operator==和operator!=检测输入迭代器。OutputIterator:一个只允许单个向序列写入元素的输出迭代器,前向传递使用operator++和operator*。不可以通过operator==和operator!=

2012-02-09 16:09:46 652

转载 C++ 随机函数

一、C++中不能使用random()函数     random函数不是ANSI C标准,不能在gcc,vc等编译器下编译通过。但在C语言中int random(num)可以这样使用,它返回的是0至num-1的一个随机数。 可改用C++下的rand函数来实现。     1、C++标准函数库提供一随机数生成器rand,返回0-RAND_MAX之间均匀分布的伪随机整数。 RAND_MAX必须至少

2012-02-09 15:14:04 446

转载 Linux C/C++ 内存泄漏检测工具:Valgrind

[ 2009-7-31 21:01 | by 张宴 ]  Valgrind 是一款 Linux下(支持 x86、x86_64和ppc32)程序的内存调试工具,它可以对编译后的二进制程序进行内存使用监测(C语言中的malloc和free,以及C++中的new和delete),找出内存泄漏问题。  Valgrind 中包含的 Memcheck 工具可以检查以下的程序错误:

2012-02-01 10:06:20 517

原创 C格式读取文件内容

/**--------------------- 以下为C格式读取文件 -----------------------**//******************************************************************* * 功能:C语言读取文件内容 * 参数:filename - [in] 文件名 * content - [out]

2012-01-17 13:28:05 2040

转载 ORA-24369

ORA-24369:required callbacks not registered for one or more bind handles(没有为一个或一个以上的连接句柄注册要求的回调)            引发该异常主要是由于Update...returning...into时候,与where条件匹配的数据行不唯一,导致Oracle LOB 定位器不能正确定位造成的。

2012-01-12 09:24:21 2167

转载 C++ split字符串

#include #include int main (){ char str[] ="- This, a sample string."; char * pch; printf ("Splitting string \"%s\" into tokens:\n",str); pch = strtok (str," ,.-"); while (pch != NULL)

2011-12-20 17:48:22 436

原创 C++ 多线程讲解及示例代码

C++本身并没有提供任何多线程机制,但是在windows下,我们可以调用SDK win32 api来编写多线程程序。创建线程函数:HANDLE CreateThread(  LPSECURITY_ATTRIBUTESlpThreadAttributes,  //默认安全级别0  SIZE_T dwStackSize,    //堆栈大小默认(2M)  LPTHREAD_STAR

2011-12-19 13:40:20 1251

原创 oracle grant 存储过程 执行 job 小总结

grantGRANT — 赋予一个用户,一个组或所有用户访问权限GRANT privilege [, ...] ON object [, ...] TO { PUBLIC | GROUP group | username }输入privilege可能的权限有: SELECT访问声明的表/视图的所有列/字段.INSERT向声明的表中插入所有列字段.UPDATE更新声明

2011-12-14 16:12:06 3871

转载 C格式读取文件

最近经常会使用C语言读写文件,所以在此总结一下。 在C语言中,文件操作都是由库函数来完成的,可以分为读和写两种操作。操作流程为使用fopen()打开文件>>使用下面的库函数读或写文件>>fclose()关闭文件。 下面先列出会用到的库函数。一、打开文件fopen() 用来打开文件操作。语法:文件指针名=fopen(文件路径,使用文件方式);例子:FI

2011-12-13 10:46:59 3310

原创 \r与\r\n的区别 以及 endl

\n是换行,英文是New line。\r是回车,英文是Carriage return。如果用过机械打字机,就知道回车和换行的区别了。。。  换行就是把滚筒卷一格,不改变水平位置。     回车就是把水平位置复位,不卷动滚筒。但是我们平时按得Enter到底是回车还是换行,不太清楚??看到一种说法:windows下enter是 \r\n,linux/unix下是\n,m

2011-12-07 11:17:23 3392 2

hue工作流使用说明

本文档举例说明hue的工作流(workflow)、协调器(coordinator)、批处理器(bundle)的使用

2015-09-22

kettle5.3连接hdfs、hbase、kettle5.2源码编译

本文档详细描述了kettle5.3连接hdfs,kettle5.3连接hbase,kettle5.2的源码编译。

2015-05-26

kettle集群(cluster)在多个服务器上并发执行

kettle集群(cluster)在多个服务器上并发执行,文档详细移动,通过测试成功

2014-07-29

C++ 奇异值分解 SVD 文本聚类 文本分类

C++ 奇异值分解 可调用矩阵计算工具eigen,但运行速度太慢。调用matlab也有点繁琐。下载了svdcmp.c文件,调试运行通过代码。 A=UKV',svdcmp.c计算的对焦矩阵K不是按从大到小排序,该代码已经做了调整,并且v'也是对应奇异值修正得矩阵,可直接用v'用到文本分类或文本聚类中

2012-12-10

linux下安装jsoncpp

linux安装jsoncpp,可以直接复制到相应目录,在复制该文件之前要将前一篇资源也复制进去即可。具体的安装过程见技术博客

2012-04-26

linux下安装jsoncpp之前的准备:scons

linux下 安装jsoncpp需要使用到scons,文件为已经编译好的了。具体的编译过程见技术博客

2012-04-26

win下json编译好的静态库

windows环境下 C++调用json用于解析,需要提供编译好的静态库

2012-04-26

win下libcurl的编译

该文件存放的是编译好的libcurl,具体的编译过程参考上一篇分享的vs环境下教你使用libcurl资源

2012-04-26

vs环境下教你使用libcurl

libcurl 使用文档,教你编译libcurl库,以及具体的使用示例

2012-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除