自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (4)
  • 收藏
  • 关注

原创 kettle 发送邮件附件乱码问题

kettle 邮件附件 附件名中文乱码

2017-01-15 10:30:29 3815 1

原创 mac 安装 mysql odbc 驱动

这段时间研究 Excel VB编程,公司windows电脑链接 oracle/mysql 数据库很容易,回家使用mac 发现数据库驱动配置跟windows还是很不一样的。一开始我参考了一篇 mysql 链接 excel 的文章:https://www.douban.com/note/532801751/?type=rec       我参考里面第二种方法,就是先去官网下载 mysq

2016-12-25 21:59:14 5756 1

原创 pentaho data-integration(kettle) 资源库备份

PDI(kettle)自动备份资源库,每天定时将资源库备份至xml文件

2016-12-15 11:18:09 9422 1

原创 kettle对xml的追加写入

最近研究xsl解析xml生产html功能;实现过程中发现生成 特定格式的xml 文件比较麻烦。kettle本身提供xml生产组件;但是太弱了,捣腾了好久终于实现了;今天有空把它贴出来。xml写入方式一)作业设计如图:生产xml数据如下: 1 tom juli shenzhen  2 jack lurry shanghai  3 rose aiven

2016-09-06 15:22:45 4048 2

原创 kettle 不识别自定义常量

最近做了一个 kettle 发送邮件附件的作业,关于邮件的发件人、收件人、用户名、密码等信息我定义在一个自定义常量组件中。错误日志:2016/08/15 18:13:14 - 自定义常量数据.0 - Finished processing (I=0, O=0, R=0, W=1, U=0, E=0)org.pentaho.di.core.exception.KettleExceptio

2016-08-15 18:30:44 6866

原创 I was unable to save the HTTP result to file because of a I/O error: Server redirected too many tim

最近使用kettle 的http 组件下载文件的时候遇到了下面的错误:2016/08/15 11:46:58 - 下载P2PContractPay - Start of HTTP job entry.2016/08/15 11:46:58 - 下载P2PContractPay - Connecting to URL: http://100.20.12.23/download/160

2016-08-15 12:54:59 1029

原创 Oracle SQL developer 输入字体异常

在Oracle Sql developer 中开发的时候经常会遇到下面的情况(字体异常,造成sql无法执行):select * from dual;select * from dual;后来发现 PL/SQL 也会出现这种情况。造成原因: 误按了 shift + 空格 键解决方法: 按下 shift + 空格键以前误按,也不知道误按了

2016-08-01 11:20:07 3067 4

原创 hive udf开发以及永久注册udf函数

网上大部分资料显示注册 hive udf 函数大体有两种方法:第一种、创建临时函数。如在hive CLI执行下面命令:hive> add jar helloudf.jar;hive> create temporary function helloworld as 'com.hrj.hive.udf.helloUDF';hive> select helloworld(t.co

2015-01-23 10:39:57 5511 1

原创 org.apache.sqoop.hive.HiveImport - Loading uploaded data into Hive Intercepting System.exit(1)

在 HUE 的 作业设计器中 运行sqoop 作业,调用命令:

2014-10-29 10:03:09 2498 3

原创 ERROR hive.ql.metadata.Hive - NoSuchObjectException(message:default.hive_born table not found)

Current (local) dir = /data2/yarn/nm/usercache/admin/appcache/application_1414125871247_0209/container_1414125871247_0209_01_000002------------------------ hive-service-0.13.1-cdh5.2.0.jar json-s

2014-10-29 09:49:01 3805

原创 Mahout决策森林调用测试

最近研究 决策森林

2014-08-08 12:41:51 934 1

原创 mahout关于决策树应用报错异常处理

Exception in thread "main" java.lang.IllegalArgumentException: Wrong number of attributes in the string: 2. Must be: 42at com.google.common.base.Preconditions.checkArgument(Preconditions.java:125)

2014-08-07 18:42:31 1624

原创 org.apache.mahout.classifier.df.data.DescriptorException: Bad Token

这个错误主要是 解析

2014-08-07 15:30:39 614

原创 stop-all.sh 命令无法停止hadoop集群

最近一直都在研究 Mahout算法,hadoop集群也没怎么改动;今天

2014-08-05 11:08:16 7799

原创 FileInputFormat setInputPathFilter过滤文件报错找不到文件夹

设置文件过滤代码:FileInputFormat.setInputPathFilter(job,MyPathFilter.class);过滤器shix

2014-07-28 15:57:48 1703

原创 Mahout之bayes算法学习(四)

之前看了Mahout官方实

2014-07-24 18:17:19 696

原创 Mahout之bayes算法学习(三)

本来只是简单的将

2014-07-21 10:35:25 814

原创 bayes示例数据20news-all转换成20news-seq报错

ja2014-07-17 10:16:18 [pool-1-thread-1] - [WARN] Failed to connect to /192.168.9.72:50010, add to deadNodes and continuejava.net.BindException: Address already in use: no further information

2014-07-18 16:30:06 726

原创 hadoop单节点安装及eclipse调用

由于算法测试需要调用hadoop集群,但是使用别人da

2014-07-16 11:19:27 640

原创 Mahout之bayes算法学习(二)

直接在linux上面运行classify-20newsgroups.sh 还是挺容易的,但是大部分时间我们不是简单的

2014-07-15 10:16:47 758 6

原创 Mahout之bayes算法学习(一)

关于bayes理论知识,

2014-07-14 17:57:52 1099

原创 根据Mahout FPGrowth算法生成的结果计算关联规则项

在调用 Mahout 算法包之前,我们xian

2014-07-10 16:05:18 1318 2

原创 关于《深入推荐引擎相关算法 - 聚类》文章学习感悟

查找资料发现很多网站都引用了《深入推荐引擎相关算法 - 聚类》这篇文章

2014-07-09 16:54:48 649

原创 ClusterDumper输出聚类中心点

Mahout中关于KMeans方法调用的代码:   Path directoryContainingConvertedInput = new Path(output, DIRECTORY_CONTAINING_CONVERTED_INPUT);   log.info("Preparing Input");   InputDriver.runJob(input, directoryCon

2014-07-08 16:47:04 1234

原创 FSDataOutputStream.writeUTF(String)写入文本异常

在使用hadoop的文件写入流 FSDataOutputStream 写入字符串的时候出现了y

2014-07-04 17:39:57 3589

原创 hadoop-eclipse-plugin-2.2.0.jar放到eclipse的plugins文件夹后,eclipse中没有map/reduce项

安装这个hadoop-eclipse-plugin-2.2.0的插件搞了三天,搞得很郁闷啊!最后

2014-06-26 09:37:44 5775

原创 爬虫代理ip设置

爬虫的过程中可能会涉及到ip代理的问题。网上有很多可用的ip代理信息:http://pachong.org/下面就是从中选择一个最合适的ip。实现思路:1. 获取该页面内容,提取每一行ip信息。2. 新建一个java Bean 封装每一个ip属性。3.将所有的javaBean添加到一个arraylist中。4.对整个arraylist排序。代码如下:/*

2014-03-17 17:18:58 6108

原创 新浪微博关键字搜索结果抓取

我在实现抓取关键字搜索结果的时候确实遇到的验证码识别问题很蛋疼,一开始本来想破解验证码,后来查了资料发现,这个很难;就像实现手动填写验证码。网上提供手动填写验证码的基本实现思路是:1. 请求获取图片。2. 保存图片至本地。3. 打开图片。4.手动填写验证码,模拟请求验证码识别验证。后来看了别人的blog发现一个更简单暴力的方法,就是开浏览器填写验证码。//打开浏览器,手

2014-03-17 17:06:54 4095

原创 获取新浪微博滚动加载内容

前段时间写了一些关于抓取新浪微博的经历,现在就贴一些我遇到过一些问题的代码实现思路吧:(我使用的是 htmlunit 爬虫)每个人的博客主页中都有微博内容块,每次点击查看微博内容的时候你会发现,微博内容不是一次加载的;这个问题不管是新浪还是腾讯,它们的内容加载方式都是一样的。废话不多说,直接将代码实现:1. 请求微博内容url,获取请求返回的数据,由于返回的微博内容时嵌入在js

2014-03-17 16:46:34 11275 5

原创 新浪微博内容抓取

最近抓取新浪微博的相关内容,遇到了很多问题也解决了很多问题。一开始我是使用httpclient爬虫抓取网页,但是后面发现微博网页内容很多都是嵌入到js中的;所以改用了htmlunit。下面重点总结几点我的经验吧!httpclient、htmlunit、新浪微博API这三者的优缺点:httpclient:优点:爬虫比较稳定,相关使用方法很详细,可以参考《自己动手写网络爬虫》这本书

2014-03-07 17:32:16 3907 2

原创 jsoup去掉标签中的标签,保留非标签内容

通过jsoup的select这一获取标签<bid="d_price" class="d_price "><spanclass="yen">¥414.50现在的问题是,我只想提取414.50这个价格而不要span标签及里面的内容。我的解决方法时://通过jsoup中select选择b标签,在获取html内容String htmlContent = "¥414.

2013-11-28 18:08:56 11814

kettle有关xml的多种写入方式

kettle有关xml的多种写入方式

2016-09-06

protege3.x教程的项目源代码

在使用protege入门教程(基础篇、推理篇、进阶篇)时,要提示项目下载;但是点击链接是下载不了的。这儿提供了项目的源代码,包过基础篇的Animal.owl还有推理篇,使用推理机推理后的newAnimal.owl,及其他项目代码。

2013-08-14

RacerPro1.9安装程序

这个事程序安装版的,在protege3.1中可以结合使用;运行效果还不错。

2013-08-14

本体开发软件和graphviz插件

里面包含了protege3.1安装程序和graphviz2.12安装程序;以及关于ontology的相关教程。建议graphviz安装到默认文件夹。

2013-08-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除