自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (15)
  • 收藏
  • 关注

原创 MySQL千万级 重复数据查找及删除方案

创建表:create table userinfo ( id varchar(32) , dept int,/**部门号**/ name varchar(32),/**用户名**/ primary key (id));向表中插入测试数据:insert into userinfo (id,dept,name) value('a001',1,'aa');in

2013-07-25 21:36:17 1872

原创 夹角余弦与文章相似性比较

对与文章D={D1,D2};D1特征T1={t1,t2,t3};D2特征T2={t1,t3,t4}则有T={t1,t2,t3,t4}计算D1中T集合各特征的TFIDF值得到向量V1,计算D2中T集合各特征的TFIDF值得到向量V2计算D1和D2的相似性,可以使用计算这两个向量的相似程度,我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方

2013-07-19 22:42:43 863

原创 向量空间模型(VSM)介绍

向量空间模型(VSM:Vector Space Model)是一个应用于信息过滤,信息撷取,索引 以及评估相关性的代数模型,由Salton等人于20世纪70年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量

2013-07-19 19:21:18 2226

原创 全文检索

全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。关于全文检索1.只处理文本。2.不处理语义。3.搜索时英文不区分大小写。4.结果列表有相关度排序。在信息检索工具中,全文检索是最具通用性和实用性的。

2013-07-18 22:29:21 891

原创 正向索引和倒排序索引

正向索引:以词为单位,记录每个关键词的词频、格式、位置等权重信息,把页面转换为一个关键词组成的集合。正向索引不能直接用于排名,排名程序需要扫描所有索引库中的文件,找出包含关键词的文件,再进行相关性计算,这样的计算量无法满足实时返回排名结果的要求。 正向索引举例:文档号       关键字      位置1            中国         31

2013-07-18 22:13:23 2282

原创 集合求取并集交集补集

package com.util.array;import java.util.ArrayList;import java.util.Collections;import java.util.HashSet;import java.util.LinkedHashSet;import java.util.List;import java.util.Set;/**

2013-07-08 20:21:40 2022

原创 MySQL复制表结构、建临时表

1.复制表结构及数据到新表CREATE TABLE 新表 SELECT * FROM 旧表2.只复制表结构到新表CREATE TABLE 新表 SELECT * FROM 旧表 WHERE 13.复制旧表的数据到新表(假设两个表结构一样)INSERT INTO 新表 SELECT * FROM 旧表4.复制旧表的数据到新表(假设两个表结构不一样)INSERT INTO

2013-07-04 21:09:05 1138

原创 eclipse下切换svn用户

<br /> 在eclipse中经常用到用svn进行代码版本控制,为了提交或更新代码的时候不反复地提示我们输入用户名和密码,于是我们<br />就习惯把访问SVN的用户名密码自动保存起来。以便下次自动使用,不要再次手工输入,但是有些时候需要变更密码或者用户名,<br />就有些麻烦了,下面是二种解决办法:<br />1、通过删除SVN客户端的账号配置文件<br />  1)查看你的Eclipse中使用的是什么SVN Interface(中文:svn接口)windows > preference > Team

2011-04-16 21:32:00 3313 1

原创 Tomcat环境下使用JNI调用中科院ICTCLAS分词

使用SSH框架开发应用将程序部署到Tomcat,由于有一个程序使用JNI调用中科院ICTCLAS分词,部署到tomcat下报no ICTCLAS in java.library.path提示为无法找到ICTCLAS动态库,此时只需将中科院分词JNI包下的内容复制到/bin目录中或jar程序运行目录中即可。

2013-08-24 11:18:38 1063

原创 Eclipse环境下使用JNI调用中科院ICTCLAS分词

下载中科院分词程序包如:ICTCLAS50_Windows_32_JNIEclipse中新建工程,并将分词程序需要的数据拷贝到工程根目录将对应的JNI程序拷贝到工程中,对应的内容如下:package ICTCLAS.I3S.AC;public class ICTCLAS50{ //public enum eCodeType //{ // CODE_TYPE_U

2013-08-17 16:57:18 990

原创 仿google suggest

找很很久最后使用jquery.autocomplete实现google suggest效果,做出的最终效果如下图:其中index.jsp内容如下: .search-input { PADDING-RIGHT: 2px; PADDING-LEFT: 4px; PADDING-BOTTOM: 2px; W

2013-08-15 22:31:08 671

原创 Unix/Linux历史

UNIX的历史开始于1969年ken Thompson,Dennis Ritchie(即著名的K&G,C语言的发明人)与一群人在一部PDP-7上进行的一些工作,后来这个系统变成了UNIX。它主要的几个版本为:V1(1971):第一版的UNIX,以PDP-11/20的汇编语言写成。包括文件系统,fork、roff、ed等软件。V4(1973):以C语言从头写过,这使得UNIX修改容易,可以在

2013-08-15 21:53:52 785

原创 常见相似度量

1. 欧氏距离2. 标准化欧氏距离3. 马氏距离4. 夹角余弦5. 汉明距离6. 相关系数 & 相关距离 1. 欧氏距离(Euclidean Distance)       欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:  (3)两个n维向量a(x11,x12,

2013-08-14 20:34:01 1176

原创 matlab矩阵操作常用函数

isempty 判断空矩阵isempty(nonzeros(a)) 判断全零矩阵union(A,B) 求集合A和B的并集intersect(A,B)求集合A和B的交集setdiff(A,B)求集合A和B的差集A-Bsetdiff(U,A) 求集合A关于全集U的补集

2013-08-04 15:20:51 3164

原创 matlab中load与savd函数的用法

save的用法:把当前Matlab工作空间的一个或者多个变量存入外部文件。在默认情况下,save命令以MAT格式存写数据,但也可以指定存写的文本方式。注意:save无法在文本文件中,保存复数变量。如果有复数时,save只保存它们的实部。另外,对于结构型变量,save只能保存结构型标量,而不能保存结构型变量数组。'-mat'   Binary MAT-file format (defau

2013-08-04 13:57:31 4908

原创 matlab稀疏矩阵处理

稀疏矩阵:a = randint(30,100);[i,j,s] = find(a);S = sparse(i,j,s);T = full(S); 稀疏矩阵的描述a=[1 1 0.1;2 1 0.2 ;3 2 0.3];%格式为: 某行 某列 对应值%转换为可描述矩阵S=spconvert(a);%还原原始未压缩矩阵full(S) 注意:对于稀疏

2013-08-04 13:37:40 3739

原创 MySQL 常用函数

1.字符串操作  length(str)返回字符串所占的字节数    char_length(str)返回字符串所占的字符数  GROUP_CONCAT(CONCAT('''',data,''''))字符串连接函数2.查看结束进程函数  show processlist;查看进行及状态  kill id;结束进程

2013-08-03 14:34:58 578

原创 MyEclipse 安装SVN 报错Failed to load JavaHL Library

MyEclipse安装SVN-Site1.8插件后建立SVN连接时总是 出现错误“Failed to load JavaHL Library”,找了好久也没找到原因。后来试下调整SVN interface属性,居然不报错了。

2013-08-03 12:57:36 792

原创 svn: SSL negotiation failed 错误

今天搭建了一个SVN服务把原来的VSS数据迁移到SVN中,提交时遇到了SSL negotiation failed,不解,后来查看了下,可能是客户端和服务端版本不兼容问,Eclipse 用svn-site1.6.5而,SVN服务器是VisualSVN-2.5.2版本的.将Eclipse 使用的svn客户端重新安装svn-site1.8版本的问题得到解决。

2013-08-02 18:55:42 1909

原创 Lucene介绍

Lucene 是一个最为流行的基于Java 的高性能开源全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能,利用它可以轻易地为Java软件加入全文搜寻功能。目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene

2013-07-30 22:38:14 689

原创 结构化数据和非结构化数据

我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。半结构化数据,如XML,HTML,JSON 等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。 对结构化数据的搜索:如对数据库的搜索,用 SQL语句。再如对元数据的

2013-07-30 21:43:56 1095

原创 matlab日期函数

datestr(d,f) 将日期数字转换为字符串例如:>>datestr(now,31)ans =2013-07-30 17:45:03 >>datestr(datenum('2013-07-30 17:48:20'),31)ans =2013-07-30 17:48:20 datenum(str,f)将字符串转换为日期数字例如:>>datenum('201

2013-07-30 18:11:57 951

原创 matlab变量

MATLAB中的变量命名规则1.变量名必须以字符开头,后面可以跟字母、数字、下划线,但不能用空格和标点符号(这个跟C标准相同);2.变量名区分大小,A和a表示两个不同的变量;3.名字可以任意长,但是只有前面的63个字符参与识别;4.避免使用函数名和系统保留字;基本的变量类型:局部变量、全局变量、静态变量。局部变量:函数体内都有自己定义的变量,不能从其它函数和MATLAB工作

2013-07-29 21:55:02 1814

原创 java中timer的使用

使用案例一:启动时不执行,每天指定的时间执行import java.text.SimpleDateFormat;import java.util.Date;import java.util.Timer;import java.util.TimerTask;/** * 定时任务测试 */public class TaskTest {  //日期格式化到天 pr

2013-07-29 18:39:20 632

原创 Windows cmd命令行连接MySQL命令

系统必须安装MySQL客户端程序,进行程序bin目录输入如下命令:mysql   -u root     -plmp2p     -h 192.168.1.254    -P 3306  -D test        即可进行远程连接具体含义如下:mysql -u用户名 -p密码 -h 服务器IP地址 -P 服务器端MySQL端口号 -D 数据库名注意:    (1)服务器端口

2013-07-25 21:48:31 877

原创 matlab中knnsearch平滑处理

V=[0.0 ,0.0;0.1,0.2];Vq=[0.0,0.0];[idx, dist] = knnsearch(V,Vq,'dist','cosine','K',2);最好找出两个矩阵中的最小值,如果最小值非零则C=最小值*0.01,如果最小值为零则C=0.01[idx, dist] = knnsearch(V+C,Vq+C,'dist','cosine','K',2);这

2013-07-18 22:50:10 1681

原创 matlab svd奇异值算法

[U,S,V] = svd (X) %返回一个与X同大小的对角矩阵S,两个矩阵U和V,且满足= U*S*V'。若A为m×n阵,则U为m×m阵,V为n×n阵。奇异值在S的对角线上,非负且按降序排列。[U,S,V] = svd (X,0)   %得到一个“有效大小”的分解,只计算出矩阵U的前n列,矩阵S的大小为n×n。 格式  s = svds(A,K) 若A为m×n阵,则U为m×

2013-07-18 20:53:07 2616

原创 matlab K-means 聚类算法

K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小。使用方法:Idx=Kmeans(X,K)[Idx,C]=Kmeans(X,K) [Idx,C,sumD]=Kmeans(X,K) [Idx,C,sumD,D]=Kmeans(X,K) […]=Kmeans(…,’Param1’,Val1,’Param2’,Val2

2013-07-18 20:48:35 1485

原创 matlab计算夹角余弦

a=[1 2 3];b=[4 5 6]; cos@=dot(a,b)/norm(a)/norm(b);或cos@=dot(a/norm(a),b/norm(b)); 也可以使用:A=[a;b]B=1-pdist(A,'cosine');

2013-07-18 20:41:43 12199

原创 对内存敏感的WeakHashMap

WeakHashMap是map的一种实现,它采用弱引用作为内部存储方案,一旦内存不够时,GC回收未被引用的表项,从而避免系统内存溢出,它可以作为简单的缓存方案。注意:当引用的key为强引用时退化为HashMap,表项无法自动清理。import java.util.Map;import java.util.WeakHashMap;/** * 对WeakHashMap测试

2013-07-18 20:37:24 732

原创 MySQL数据库调优之七

终于插入了160w数据,先进行首次统计吧,感觉首次统计的文章暂时解决不了,暂时能优化的的是首次查询后的其他查询统计。其他时间的统计测试如下图:统计查询基本上不消耗时间,看来以前进行的优化还是很有效果的,只是首次查询的速度慢的问题早晚要解决的。

2013-07-15 20:12:51 589

原创 MySQL数据库调优之六

本打算在数据达到百万级时在进行调试,没想到数据大道二三十万的时候查询有点吃不消了。数据不过26w,首次查询用时21.27秒。这是时候统计查询已经显出凌乱了,最少需要10s,最长需要68s。

2013-07-12 21:09:40 797

原创 java调用matlab程序jvm报错的解决方法

#  EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x55ab3427, pid=8144, tid=6716## Java VM: Java HotSpot(TM) Client VM (10.0-b19 mixed mode windows-x86)# Problematic frame:# C  [jvm.dll+0x3427]

2013-07-12 11:56:02 1924

原创 java递归函数测试

递归的最大次数还与参数与递归函数的复杂度有关。/** * 测试递归调用 * @version 1.0 */public class TestRecursive { /** * 递归相加. * @param i * author lizhongde * date Jul 11, 2013 * remark */ publ

2013-07-11 21:53:47 826

原创 java递归调用测试

递归相对于循环而言有简洁的一面,但也暗含了许多问题,如死循环式递归,递归太深导致栈溢出等等。下面代码主要测试递归到底能运行多少次/** * 测试递归调用 * @version 1.0 */public class TestRecursive { /** * 递归相加. * @param i * author lizhongde *

2013-07-11 21:43:16 263

原创 IdentityHashMap的使用

import java.util.IdentityHashMap;import java.util.Map;/** * IdentityHashMap与常用的HashMap的区别是: * 前者比较key时是“引用相等”而后者是“对象相等”,即对于k1和k2, * 当k1==k2时,IdentityHashMap认为两个key相等, * 而HashMap只有在k1.equ

2013-07-09 22:43:40 1321

原创 MySQL中SQL调优三语句

Explain+SQL语句以及Extend+SQL查看SQL语句执行的表连接顺序、连接方式、是否用到索引、是否需要全表扫描以及是否有中间临时表和文件排序信息。CHECK TABLE tablename检查表视图是否有错误,对MyISAM 和 InnoDB表有作用,也可以检查视图是否有错误。OPTIMIZE  TABLE tablename可以将表中的空间碎片进行合并,消除由于删除或者更新造

2013-07-09 22:10:51 626

原创 MySQL数据库调优之五

准备表数据,进行十万数据测试。十万数据首次查询用时16.70s使用1000个用户不同时间统计查看数据库响应时间:最终统计结果如图:

2013-07-09 21:30:26 607

原创 EXISTS与In的区别

in和exists都是关注有没有只要发现匹配记录则停止对待查表的遍历,继续外表的下一条记录,相对于连接查询而言具有提前终止的短路功能。in是把外表和内表作hash 连接,而exists 是对外表作loop 循环,每次loop 循环再对内表进行查询。两个表大小相当,那么用in 和exists 差别不大。另外in会对值进行null判断,如果没有null值影响,同等条件下使用exists会效率稍

2013-07-09 20:36:04 657

原创 java调用matlab报错

Abnormaltermination:Segmentationviolation Register State(from fault):  RAX = 000000001131e6b0  RBX = 000000001131e6b0  RCX = 000000001131e6b0  RDX = 000000000e41cc40  RSP = 000000000e41cc0

2013-07-08 20:25:26 1368 1

ICTCLAS50_Windows_64_JNI

中科院中文分词windows 64位系统JNI方式调用程序。

2013-08-24

ICTCLAS50_Windows_32_JNI

中科院中文分词windows 32位系统JNI方式调用程序。

2013-08-24

jquery.autocomplete

jquery.autocomplete 类似google suggest自动补全框架,包含代码及api和响应的demo。

2013-08-15

ligerUI API

ligerUI API使用说明文档,接口使用的详细说明。

2013-08-15

PowerDesinger12.5破解文件

PowerDesinger12.5破解文件,可以消除使用时间限制.

2011-09-19

jquery1.3.2 API

jquery1.3.2 API很好用,很经典

2010-03-31

XMLHTTPRequest参考文档

XMLHTTPRequest操作使用的帮助文档,你可以明白它是怎么调用的,它对你学习ajax 很有帮助作用

2010-03-25

FormValidation.rar

验证form的很好的工具,你可以方便的使用和改变它的验证规则

2010-03-25

cewolf 开发包

很好用的报表工具 cewolf 开发包,对开发报表的人来说是很好的工具.

2010-03-25

局域网聊天工具飞秋FeiQ

飞秋FeiQ,类qq的聊天工具很好用的。

2009-02-19

该资源是十进制转二进制

该资源是十进制转二进制,你可以学习一下,也可以给以指正。

2009-02-13

J2EE初学者要理解的几个问题

J2EE初学者要理解的几个问题

2008-05-19

Java 编程技术中汉字问题的分析及解决

Java 编程技术中汉字问题的分析及解决

2008-05-19

PowerDesigner12 注册机

PowerDesigner12 注册机.exe

2008-05-18

SqlServerJDBC_setup

SqlServerJDBC_setup

2008-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除