自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(33)
  • 资源 (2)
  • 收藏
  • 关注

原创 Spark SQL UDF

目前 Spark SQL 不支持自定义UDF ,底层 SQL 引擎用的 catalyst 。在SqlContext 中 有一个 Analyzer@transient  protected[sql]lazyval analyzer:Analyzer =    newAnalyzer(catalog, Em

2014-09-13 22:17:05 904

原创 搭建Spark Eclipse 开发环境

1、安装 Sbt ,是一个类似 maven 的工具。下载地址:http://www.scala-sbt.org/release/docs/Getting-Started/Setup.html 2、在~/.sbt/plugins/plugins.sbt (Windows:C:\Users\Administrator\.sbt\0.13\plugins) 里面加一名:      addSbtP

2014-04-25 09:25:12 3441 1

原创 Pig对于数据倾斜Join的优化原理

Pig对于数据倾斜Join的优化原理1、对数据抽样2、根据样本数据,估计出某个key的所有的记录数以及所占的总内存,pig.skewedjoin.reduce.memusage 控制reduce消耗内存比例,再计算出某个key所需要的reduce个数,以及reduce的总数。3、将结果存一个文件中,相当于索引文件,格式为:(swpv,0,3), (swps,4,5)(说明:,, )

2014-03-21 17:59:24 1228

原创 BP(反向传播)神经网络 java 实现

/** * */package ann.bp;import java.util.Random;/** * @author tian.yj * */public class BPAnn { private double eta ; private int hn ; private int on ; private double b = 1.0 ; private

2014-01-16 15:45:03 1300 1

原创 linux php 安装错误解决

Linux安装PHP ,make 的时候报错:make: *** [ext/dom/node.lo] Error 1解决办法:$ curl -o php-5.2.17.patch https://mail.gnome.org/archives/xml/2012-August/txtbgxGXAvz4N.txt$ tar jxf php-5.2.17.tar.bz2 

2013-09-18 10:14:18 2025 1

原创 HNC-全局联想脉络

全局联想脉络—语义块 和句类         一个语义块包含 核心部分 和说明部分。         语义块分为:主语义块:有 4 种:特征E、作用者A、对象B、内容C辅语义块:有 7 种:条件、手段、工具、途径、参照、因、果。         只表达作用效应链的一个环节的句类称为基本句类,表达两个或多个环节的句类称为混合句类。         E语义块构成的句子,分别命名

2013-07-30 17:45:02 562

原创 HNC-局部联想脉络

局部联想脉络概念分为:抽象概念、具体概念对抽象概念用 五元组 和 语义网络 表达对具体概念用 挂靠展开近似 表达         五元组:动态、静态、属性、值、效应。(u,g,u,z,r),用于表达抽象概念的外在表现。         语义网络(表达抽象概念的内涵):1.  基元概念语义网络Ø  主体基元概念:有6个一级节

2013-07-29 16:05:25 506

原创 线性回归算法,最小二乘法,java的实现

线性回归算法,最小二乘法,java的实现/** * 最小二乘法 线性回归 * y = a x + b * * b = sum( y ) / n - a * sum( x ) / n * * a = ( n * sum( xy ) - sum( x ) * sum( y ) ) / ( n * sum( x^2 ) - sum(x) ^ 2 ) * * @au

2013-05-16 13:26:24 3722 1

原创 一道面试题算法

题目为:给你1-1000个连续自然数,然后从中随机去掉两个,再打乱顺序,要求只遍历一次,求出被去掉的两个数。有一种算法,用的异或,实际上是遍历不只一次,具体异或的算法:http://blog.leezhong.com/tech/2011/06/03/php-xor-find-num.html今天想到另一种算法,用方程求解。m = ( 1 + 2 + ...+ 1000) - (998

2013-03-08 10:14:19 797

原创 MongoDB 分片、主从配置 及 原理

有三台机器:A、B、C(三个主从复制,两个分片)1、分别在 A、B、C 三台机器上启动 两个分片、主从服务,命令如下: bin/mongod --shardsvr --replSet shard1 --port 27017 --dbpath /data/shard1_1 --logpath /data/shard1_1/shard1_1.log --logappend --fork注意

2013-02-26 10:20:53 1227

转载 Apache Mahout 简介

在信息时代,公司和个人的成功越来越依赖于迅速有效地将大量数据转化为可操作的信息。无论是每天处理数以千计的个人电子邮件消息,还是从海量博客文章中推测用户的意图,都需要使用一些工具来组织和增强数据。 这其中就蕴含着机器学习 领域以及本文章所介绍项目的前景:Apache Mahout(见 参考资料)。机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数

2013-02-19 15:48:08 405

原创 hadoop reduce 复制不过来的问题

hadoop reduce 复制阶段 , 有时候 一直停留一个 数据的复制,一直复制不过去。reduce > copy (135 of 159 at 16.00 MB/s) 如果出现这样的问题,不多数原因是因为 hostname 和 hosts 配置的问题。1. hostname 和 slaves 中配置一致。2. hosts 中必须配置 别名,别名 和host

2013-01-17 14:50:54 863

原创 Unicode 解码

package util;import java.nio.ByteBuffer;import java.nio.charset.Charset;import java.util.regex.Matcher;import java.util.regex.Pattern;/** * @author tian * */public class CharSetUtil { /**

2013-01-15 11:34:07 1557 1

转载 hadoop目录

参数描述 默认 配置文件例子值dfs.name.dirname node的元数据,以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉{hadoop.tmp.dir}/dfs/namehdfs-site.xm/hadoop/hdfs/namedfs.name.edits.di

2012-12-25 16:35:08 117

转载 hadoop端口号列表

常用的端口配置HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.address NameNode web管理端口5007

2012-12-25 13:39:45 2940 1

原创 Nutch 抓取一半自动停下的问题解决

用Nutch抓取的时候,问题遇到: WARN crawl.Generator: Generator: 0 records selected for fetching, exiting ... INFO crawl.Crawl: Stopping at depth=1 - no more URLs to fetch.可能问题有:1. Filter 过滤的问题,看正则写的对不对。

2012-11-28 14:17:08 1447

原创 Nutch 模块简单介绍

Nutch 的入口 是 : Crawl 。主要模块:1。Injector将 入口  url 放入 crawldb 中。并初始化 crawldb。2。Generator读取crawldb中 的url,过滤出将要抓取的url列表,叫 fetchlist ,并生成相应的 segment。3。Fetcher将 fe

2012-11-26 14:57:03 702

转载 配置hadoop 使用fair scheduler调度器

hadoop版本为cloudera hadoop cdh3u3配置步骤为1.  将$HADOOP_HOME/contrib/fairscheduler/hadoop-fairscheduler-0.20.2-cdh3u3.jar拷贝到$HADOOP_HOME/lib文件夹中2.  修改$HADOOP_HOME/conf/mapred-site.xml配置文件

2012-11-17 10:13:52 781

原创 Hadoop SSH配置,启动 输入密码 解决

1. ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa2.cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 这两步可以实现,本地 ssh localhost,配置完后,最好先 ssh 一下,这样可以生成一些东西到 ~/.ssh/known_hosts 如果是 伪分布式的,ssh 已经配置完成了。有的系统,

2012-11-16 17:41:01 2282

转载 Nutch 命令(官方)

Setup Nutch from binary distributionDownload a binary package (apache-nutch-1.X-bin.zip) from here.Unzip your binary Nutch package. There should be a folder apache-nutch-1.X.cd apache-

2012-11-15 11:04:55 509

原创 linux 目录详解

使用linux也有一年多时间了  最近也是一直在维护网站系统主机  下面是linux目录结构说明 本人使用的是centos系统,很久没有发表博文了 近期会整理自己所用所了解知识点,发表linux相关的文章,记录自己的linux点点滴滴。  linux 目录结构   /: 根目录,一般根目录下只存放目录,不要存放文件,/etc、/bin、/de

2012-11-12 17:38:05 761

原创 Nutch、Hadoop、Lucene、Solr 之间 的数据交互

Nutch1.4最近一段在研究Nutch、Solr,Nutch 把数据 存放在 HDFS 上,想探讨一下 Nutch 是怎么把数据存储到HDFS 上,查看源码分析。在看 Nutch 源码时,没有找到一点于 Lucene 关联的内容,Nutch 把所有的,都按自己的重新写了一遍,NutchDocument、NutchField ,都 实现 Hadoop的 Writable 接口。这样就很容易

2012-03-28 19:10:03 3045 4

原创 下载Excel,IE zip 问题,直接打开报错

下载 Excel 的时候,如果是 2007 的,IE 下载下来是 zip ,不是zip 的,直接开报错问题。2003 和 2007 的ContentType标准不一样。在web.xml中加: xls application/vnd.ms-excel xlsx application/vnd.openxmlformats-officedocument.spre

2012-03-01 18:32:02 1090

原创 java 基于 MemCache 的队列实现

在用Memcache 的时候,想有一个类似于队列的功能。import java.util.Collection;import com.danga.MemCached.MemCachedClient;/** * 基于MemCache的一个队列实现 * @author v_tianyongjun * */public class MemCacheQueue{ private s

2012-02-24 20:19:08 1288

原创 java 同步代码

Pool.javapublic class Pool { private static Pool pool = new Pool(); private int count ; private int mount = 80 ; private Pool(){} public static Pool getInstance(){ return pool; }

2012-02-06 16:14:27 446

转载 ssh: connect to host localhost port 22: Connection refused ,已经安装过ssh

在配置 Hadoop 的时候,ssh 已经安装过了,一直 ssh 连接不上,网上找了好多资料,都千篇一律,最终找到一篇 管用的。如下:SSH ( Security SHell ) 是Linux 通用的远程登录连接协议安装:在Cygwin包Net->openssh$ssh localhostssh: connect to host localhost

2012-02-02 13:41:23 1245

原创 Office 2007 Mime Types (for IIS)

.docm,application/vnd.ms-word.document.macroEnabled.12.docx,application/vnd.openxmlformats-officedocument.wordprocessingml.document.dotm,application/vnd.ms-word.template.macroEnabled.12.dotx,applic

2012-01-29 18:39:25 482

原创 Lucene 构造Query,查询多个Field

在 Lucene 中,查询多 Field 构造Query ,最先想到 MultiFieldQueryParser ,但是构造的时候 必须有个 queryString ,就是搜索一个串,去匹配多个Field 。有时候有这样的需求,每个 Field 匹配的不一样,如更新索引时,需要更精确匹配到,这样的就没法满足了。TermQuery query1 = new TermQuery(term1);

2011-12-27 16:25:58 896

原创 jquery ajax datatype json 总是进error函数

以前用jQuery1.4没这种问题,现在用1.6遇到这种问题。用JQuery的ajax,dataType=json ,后台返回的json格式正确 但总是进到error里面,经查找原因后,JQuery1.4 以后,返回的json格式必须是标准的格式,像{a:"a"} 这种是错误的必须是{"a":"a"}

2011-12-16 18:57:51 2228

原创 上传文件的问题 及解决方法

最近在做个文件上传,最开始用Flash的一个上传组件,Flash 上传 在IE下是正常的,FireFox、Chrome 下有问题,IE 下Flash和文档本身是同一个连接,FireFox、Chrome下Flash是另一个连接,所以和文档本身不属于同一个Session,问题就来了。一种解决办法是,js 把Cookie里 JSESSIONID 取出来,设置到Flash里的一个参数里,然后上传的时候

2011-12-16 18:57:08 506

原创 ckeditor 配置 上传 图片(缺少图像源文件地址)

前两天研究ckecitor,使用图片上传功能,找了好多教程在 config.js 里面 加上:   config.filebrowserImageUploadUrl = '/context/uploadpath'; // 上传图片 的 Action然后 在后台返回 图片路径,一直不正确 ,报一个 缺少图像源文件地址 错误,一直找不到原因,因为打不开官网也不知道需要后台返回什么格式。

2011-12-16 18:55:54 4755 7

原创 java 取泛型的Class(T.class)及创建 T[] 数组

在java中 class Test{} ,如果在Test类中要创建 T 的实例 ,取 T 的Class ,及创建 T[] 实例 ,不能直接用 (new T() / new T[size] / T.class 这些都是错误的。)java 代码编译后,泛型会被擦除,所以 取出来并不那么容易。对于Class而言T已经被擦拭为Object,而真正的T参数被转到使用T的方法(或者变量

2011-12-15 12:07:42 1840 1

原创 POI 生成 Excel ,关于 下拉列表(有效性)

POI 生成 Excel ,生成下拉列表(有效性)即 Excel 中有效性的 序列,值可以是 按逗号分开的,但这种长度有限制。具体方法:CellRangeAddressList rl = new CellRangeAddressList();String[] list = {"aa","bb"};CellRangeAddress address = new CellRangeAdd

2011-12-15 11:52:03 4076

squid dns 缓存 技术 cdn

Squid全套使用手册 squid 网络加速技术,cdn

2010-10-15

linux 网管 资料1

linux管理员学习资料 第一部分Linux网络管理员指南

2010-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除