自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一起学习-共同进步

学无止境啊

  • 博客(82)
  • 资源 (3)
  • 收藏
  • 关注

原创 最短编辑距离

最短编辑距离:编辑距离是一种字符串之间相似程度的计算方法。按照Damerau给出的定义,即两个字符串之间的编辑距离等于使一个字符串变成另外一个字符串而进行的(1)插入、(2)删除、(3)替换或(4)相邻字符交换位置而进行操作的最少次数。编辑距离越短,两个字符串的相似度越高。再看这些算法的过程当中,了解到一种思想,叫做动态规划,我对动态规划的理解也不是特别深刻,在编码的过去的几年少有

2016-08-03 13:25:24 862

原创 Simhash学习笔记

文档如果直接使用MD5做hash这种方式进行去重操作,对于一些相似文档的处理就无能为力了,简单的一个字符的变化,hash值就会发生变化,Simhash简单来说就是类似文档所产生的hash值也是类似的,这样一来就可以通过计算hash值的相似度来进行文档相似度的计算。

2016-08-01 16:47:17 2367

原创 爬虫 编写DownEngine

编写DownEnginedownEngine主要负责下载HTML页面,以供解析引擎(parseEngine)解析。 下载页面的目的就是为了解析其中的内容,如果不是目标页,需要解析其中的link,然后放到未解析的队列里,如果是目标页面,则需要解析其中的元数据,执行持久化操作。 /**DownEngine Interface***/public inte

2016-08-01 11:29:56 455

原创 爬虫系统简介

爬虫系统简单介绍爬虫所包括的组件下载组件 解析组件持久化组件去重组件

2016-07-28 22:14:43 7342

原创 Zookeeper节点类型

Zookeeper节点类型 每个节点都有生命周期,生命周期不同,则界点类型也不一样 持久节点 创建以后一致存在,除非显式执行删除操作,否则一直存在 临时节点 临时节点在一个会话之间会一直存在,知道会话失效 持久顺序节点 基本特性同持久节点一致,基于顺序的特性,如果设置此标记,则为子节点创建过程中,可为节点名添加数字后缀。 临时顺序节点 基本特性同临时节点一致,基于顺序的特性

2016-07-28 15:41:10 532

原创 zookeepeer选举master

zookeepeer选举master 在爬虫系统中,往往需要一个中心系统来控制爬虫任务的调度,分配,根据每个worker上的负载情况的,动态的进行负载均衡,在此之前,是通过固定配置的方式,配置出那一台机器属于是master,但这

2016-07-28 15:28:47 1231

原创 zookeeper笔记

目的:想把爬虫系统的配置转移到zookeeper管理zookeeper作为一个帮助搭建分布式系统的框架,在统一管理配置和选举master上的非常优秀。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步

2016-07-27 10:21:44 447

转载 Java 保存对象到文件中

http://blog.csdn.net/lntswangxin/article/details/5990473

2015-03-11 15:57:03 629

转载 bloomfitler 解决大数据查询问题

BloomFilter——大规模数据处理利器   Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例:  假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综

2015-03-10 16:30:46 493

转载 spring mvc 简单讲解

http://elf8848.iteye.com/blog/875830/

2015-03-10 09:48:19 428

转载 SOCKET IO 网络聊天室

http://blog.fens.me/nodejs-socketio-chat/SOCKET IO 网络聊天室

2014-08-22 09:58:46 543

转载 后台模版的网络框架

http://www.cnblogs.com/xiaoyao2011/archive/2011/09/05/2167606.html

2014-08-17 00:36:19 457

转载 java版本激活应用

http://www.2cto.com/kf/201312/268157.html

2014-07-16 23:28:03 551

转载 python 笔记

http://blog.chinaunix.net/uid-24917554-id-3476396.html

2014-05-28 17:00:30 438

转载 Linux判断进程是否存在并启动该进程

Linux判断进程是否存在并启动该进程1.Linux判断进程是否存在并启动该进程#!/bin/bash#判断进程是否存在,如果不存在就启动它PIDS=`ps -ef |grep myprocess |grep -v grep | awk '{print $2}'`if [ "$PIDS" != "" ]; thenecho "myprocess is runing!"el

2014-05-21 16:15:04 901

转载 Linux下crontab命令的用法

任务调度的crond常驻命令crond 是linux用来定期执行程序的命令。当安装完成操作系统之后,默认便会启动此任务调度命令。crond命令每分锺会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。而linux任务调度的工作主要分为以下两类:1、系统执行的工作:系统周期性所要执行的工作,如备份系统数据、清理缓存2、个人执行的工作:某个用户定期要做的工作,例如每隔10分

2014-05-21 14:10:43 469

转载 mysql LoadData使用方法

http://kevin850115.iteye.com/blog/578142

2014-05-19 12:52:29 3354

转载 python 安装问题

http://blog.sina.com.cn/s/blog_3fe961ae0100zgav.html

2014-05-07 16:43:44 571

转载 PHP 配置简洁

http://www.cnblogs.com/angelox/archive/2008/10/09/1306732.html (如何配置php)http://www.jb51.net/article/30128.htm                                                         (支持)

2014-01-26 11:14:44 501

转载 quartz 时间配置

http://gcy6164.iteye.com/blog/1287941  quartz定时任务时间设置描述(2011-03-03 16:23:50)转载▼标签: quartz时间it 分类: 凌乱小记  这些星号由左到右按顺序代表 :     *    *     *     *    *     *   *                                格

2014-01-21 14:26:30 963

原创 linux

修改   etc/profile 应该使用其生效

2014-01-06 14:49:31 484

原创 hadoop 文档搜集

http://blog.csdn.net/rzhzhz/article/details/7701700

2013-11-26 17:40:46 491

转载 MINA 简介

http://blog.163.com/haizai219@126/blog/static/44412555201071995251380/

2013-11-12 11:22:15 485

原创 java String byte 16

/** * 字符串转换成十六进制字符串 * @param String str 待转换的ASCII字符串 * @return String 每个Byte之间空格分隔,如: [61 6C 6B] */ public static String str2HexStr(String str) {

2013-10-24 11:33:41 580

原创 IM example

http://blog.csdn.net/way_ping_li/article/details/9056635

2013-10-20 23:24:40 538

转载 install jdk in linux

http://blog.csdn.net/hzqnju/article/details/6779556

2013-08-20 23:16:38 476

原创 java 虚拟机整理

函数重写的原理   http://blog.csdn.net/li4951/article/details/7197289

2013-08-16 14:41:36 496

转载 数据库连接池配置

一、           数据源的配置:*    与 Hibernate 集成最常见的一种: 配置sessionFactory -->        bean id = "sessionFactory" class= "org.springframework.orm.hibernate3.LocalSessionFactoryBean">            

2013-08-12 16:00:01 760

转载 struts 学习方略

如何学习Struts2 ———— Struts2的学习途径 (downpour) http://www.iteye.com/wiki/struts2/1306-struts2-way-of-learning———— Struts2的学习资料 (downpour) http://www.iteye.com/wiki/struts2/1314-struts2-of-

2013-08-09 16:12:24 500

转载 quartz config in spring

Quartz是一个强大的企业级任务调度框架,Spring中继承并简化了Quartz,下面就看看在Spring中怎样配置Quartz:首先我们来写一个被调度的类:\package com.kay.quartz;public class QuartzJob { public void work() { System.out.println("Qu

2013-08-09 10:32:00 726

原创 抓包工具简单实用

wireshark 抓包过滤,可以抓取指定ip地址 以及端口 传送过来的 数据包

2013-08-08 17:10:50 931

原创 wp8

Windows Phone App Studio

2013-08-08 11:09:36 602

原创 spring mvc 学习

http://exceptioneye.iteye.com/blog/1300672

2013-07-22 17:40:20 569

转载 js 校验

http://blog.csdn.net/woshisap/article/details/6534724

2013-07-12 10:38:37 514

转载 Failed to get local hostname java.net.UnknownHostException

ERROR in ch.qos.logback.core.util.ContextUtil@9c3b915 - Failed to get local hostname java.net.UnknownHostException: Tomcat-129: Tomcat-129: 未知的名称或服务at java.net.UnknownHostException: Tomcat-129: Tomc

2013-07-05 16:18:32 5733

原创 apache 开源项目

1: httpclient 2:mima 网络应用开发框架3: 开源的压力测试工具 Jmeter

2013-06-07 17:52:30 804

转载 netty网络编程

http://javacrazyer.iteye.com/blog/1748198

2013-06-04 11:09:43 682

原创 mysql 安装问题回顾

因为新的公司使用的是,mysql的数据库,所以需要在vmware上装一个新的linux系统,然后将mysql安装到linux系统上面,这期间出现了很多问题,从上午上班一直到现在,才刚刚把问题解决,现在讲问题进行一个梳理。  1:安装mysql ,    1。1:卸载当前系统中存在的mysql版本,linux系统中存在不同版本的文件不兼容,所以必须写在干净之前的版本文件。

2013-05-30 16:24:37 721

转载 hibernate 懒加载

在Hibernate框架中,当我们要访问的数据量过大时,明显用缓存不太合适, 因为内存容量有限 ,为了减少并发量,减少系统资源的消耗,这时Hibernate用懒加载机制来弥补这种缺陷,但是这只是弥补而不是用了懒加载总体性能就提高了。我们所说的懒加载也被称为延迟加载,它在查询的时候不会立刻访问数据库,而是返回代理对象,当真正去使用对象的时候才会访问数据库。   实现懒加载的前提:

2013-05-09 22:11:53 450

原创 spring 概念描述

spring 作为一个开源框架有几下几个特点  1 :轻量级   2 :依赖注入,控制反转  3:面向切面  4:容器  5:框架,spring提供了使用简单的组件配置组合合成一个复杂的应用,应用中一般都是使用xml配置文件组合起来的,并且spring提供很多的基础功能,是开发人员可以更加专注于应用逻辑的开发。核心容器  Application Context 上下文模

2013-04-19 16:29:29 562

java编写的计算器

呵呵 用java写的java 计算器 是我在nIIt培训的时候写的 很简单 而且还有 很多的bug 但是作为想我一样的新手 有时候可能会很需要 对于在大学里的java课程设计的话 没有任何问题的

2011-04-16

java 聊天室

呵呵 用java写的java聊天室 是我在nIIt培训的时候写的 很简单 但是作为想我一样的新手 有时候可能会很需要 对于在大学里的java课程设计的话 没有任何问题的

2011-04-16

java 编写的记事本

完全用java做的记事本 运用的是java的swing技术 通过Java io流的读入读出 完成记事本功能

2011-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除