pan_haufei-CSDN博客

原创 oozie action参数传递

1.shell节点参数传递第一步：在shell节点编辑器中将想要传递的变量输出：# !/bin/bashtest='test123'echo "test:$test" 第二步：节点高级属性中勾选捕获输出：第三步：其他节点获取想要的变量：${wf:actionData(nodeName).variableName}nodeName:想要获取输出变量...

2019-01-07 16:24:07 2525

原创 apache griffin本地安装部署

1.下载到本地github地址：https://github.com/apache/griffin2.解压导入到idea,安心等待下载依赖jar包3.修改service模块下的三个配置文件，见图片 4.编译等待5.右键运行6.本地访问...

2018-12-17 19:26:54 5929 16

原创通过oozieClient获取指定jobid工作流的状态信息以及节点的状态信息

1.pom文件添加依赖<dependency> <groupId>org.apache.oozie</groupId> <artifactId>oozie-client</artifactId> <version>4.3.1</version&g

2018-12-03 17:05:41 2011

原创 selenium使用webdriver,打开浏览器

1.准备python安装，环境变量配置selenium安装：pip install selenium2.写一个打开百度的脚本 test.pyfrom selenium import webdriverimport timedriver=webdriver.Chrome()driver.maximize_window()time.sleep(5)driver.get("...

2018-07-27 15:08:57 10972 1

原创 shell定时执行

1.安装crontabyum install vixie-cronyum install crontabs2.启动crontab服务service crond start 启动服务service crond stop 关闭服务service crond restart 重启服务service crond reload 重新载入配置service crond stat...

2018-07-27 09:51:47 6505

原创 kettle环境搭建

1.github上面kettle的源码下载地址:https://github.com/pentaho/pentaho-kettle2.环境准备: 1 Maven, version 3+ 2.Java JDK 1.8 工具建议使用idea，在idea上面配置好jdk和maven。在idea上面配置jdk:在idea中配置maven3.用idea打开解压好的源码，等待...

2018-07-19 21:24:03 4235

原创表格展示+多余数据省略+鼠标悬浮显示

本人非专业前端，写的不好还望多多指教1.首先需要将需要这样处理的td，th设置一下样式 text-align: center; /*设置水平居中*/ vertical-align: middle; /*设置垂直居中*/ white-space: nowrap; /*文本不会换行，在同一行显示*/ overflow: hidden; /*超出隐藏*/

2017-12-13 20:24:19 1071

原创 mako模板+django+分页

遇到的问题：我看网上html页面大家通过page2.next_page_number和page2.preivous_page_number获取上一页和下一页的页码,而我在mako页面获取到的是一串很长的字符串，而不是需要的页码数，我的解决方案是通过后端传过来要上一页和下一页的页码。1.网上我找到的大多数是针对html页面来写的基于django框架的分页，我对着网上的针对自己的情况进行了

2017-12-13 19:59:29 644

原创非maven项目将第三方依赖打入jar

之前非maven项目都是将第三方以来拖入到打好的jar，依赖少还好，多的话太麻烦，下面的一篇博客写的很好，可以看看：http://blog.csdn.net/memray/article/details/17969443maven项目如何用assembly插件将依赖打入jar，后续再仔细研究，现在记录一下。

2017-10-30 20:52:10 476

原创 spark提交任务,参数的形式是JSON

spark提交任务,参数的形式是JSON比如：spark2-submit --class com.iflytek.test.Jcseg_HiveDemo spark_hive.jar {"tablename":"dhzp","fields":["text1","text2"]} {"tablename":"dhzp111","fields":["text1_jcseg","text2_j

2017-10-12 10:33:58 1332

原创 org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;

恭喜老铁，跟我遇到了一样的问题，接下来是解决方法：遇到的问题：org.apache.spark.sql.AnalysisException: Table or view not found: `traintext`.`train`; line 1 pos 14;'Project [*]+- 'UnresolvedRelation `traintext`.`train` at o

2017-09-20 16:29:27 13420 7

原创 hive脚本的三种执行方式

1.hive控制台执行，安装了hive之后直接命令行输入hive，进入控制台。2.hive -e "sql语句",直接输入就会有结果，sql语句根据具体情况自己书写3.hive -f a.sql -hivevar table=peoplea.sql的内容如下set mapred.job.queue.name=default;set hive.exec.red

2017-08-17 15:13:30 2419

原创 hive基本概念

1.hive是一个基于hadoop之上的一个数据仓库。可以处理的数据是关系型数据库（结构性）、本地数据、hdfs数据（非结构化的数据）；2.hive是对处理数据的mapreduce的封装平台3.hive会提供一些简单的类sql语句来代替mapreduce执行；4.hive是为对数据库比较数据的非专业人员准备的5.hive的操作语句：QL语句--》HSql--》类（like）sq

2017-08-17 14:08:03 898

原创用oozie命令行的方式在yarn上运行spark任务

1.做这个实验之前你的服务器上最好装了cdh集群，以及添加必要的组件，如hadoop，oozie，spark，yarn等。2.需要准备一个关于spark的demo架包，我写的是WordCount功能的jar，网上关于这个的一大堆。3.准备一个job.propertie和workflow.xml，内容如下job.propertiesworkflow.xml3.把需要的配置

2017-07-20 11:48:59 4572 7

转载分类算法：bayes

给大家推荐一片通俗易懂的博客，很适合一些数学功底像我一样不扎实的同学学习：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html

2017-07-19 14:26:56 367

原创 OneHotEncoder介绍单属性多属性scala实现

因为项目的需要，将数据库中表的属性向量化，然后进行机器学习，所以去spark官网学习了一下OneHotEncoder,官网的相关介绍比较少，主要是针对单属性的处理，但是项目的要求是多属性的处理，网上找了很多的资料，研究了大半天终于将它集成到了自己的项目之中，下面分享一下自己的学习心得，说的不好的地方，还请各位大神多多指教。介绍：将类别映射为二进制向量，其中至多一个值为1（其余为零）

2017-06-07 21:00:51 4390

原创 Word2Vec

以前对于文本类型的数据，都是通过tf-idf进行处理的，这个可以参见以前写的博客，这里就不在详细介绍了。最近项目组老大跟我说了word2vec这种文本型特征提取的方式。特地给我讲解了一下俩者之间的区别：一个词经过tf-idf处理之后，是一个数字，如果是相近的词语，它是无法区分的。Word2Vec就不一样了，比如研究和科研这俩个词，经过Word2Vec处理之后，是向量的形式。科研:[

2017-06-06 21:34:27 456

原创 KAFKA的安装配置

一、kafka单机部署1.上传kafka_1.20-0.10.1.0.tgz到linux2.解压tar -xzvfkafka_1.20-0.10.1.0.gz -C /home/hadoop/work/ 3.在bin下查看脚本cd /home/hadoop/work/ kafka_1.20-0.10.1.0/bin在c

2017-06-01 10:09:50 373

原创 Scala文件I/O

1.scala往文件里面写，如果没有该文件，会新建这个文件。package com.iflytek.fileimport java.io._object FileWrite { def main(args: Array[String]) { val writer = new PrintWriter(new File("e:\\test.txt" ))

2017-05-09 20:05:23 357

原创 Linux下访问不了Tomcat下的项目

今天访问服务器上的tomcat下的项目访问不了，自己找了点资料，发现是端口被占用了，下面主要来看看解决的步骤：1.netstat -anp|grep 8080 查看8080端口是否被占用从图中可以看出8080端口被java的31025（进程id）占用了。可以进一步通过ps -aux|grep 31025（进程id）查看进程的详细信息2.知道端口被占用之后，可以通过kill -9 3

2017-05-08 16:27:59 2834

原创 Jcseg分词器的实现详解

1.之前的项目一直都是用的ik分词器，但是最近的一个项目项目大佬说ik好像很长时间都没更新，版本太老旧，故而用了新的jcseg的分词器，于是也上网找了一些资料，学习了一下如何使用jcseg分词器。2.http://www.docin.com/p-782941386.html这个是网上找到的Jcseg中文分词器开发说明文档3.具体实现在pom文件里面添加相关架包<depende...

2017-05-03 17:18:26 6549

原创文本型数据的向量化:TF-IDF

1.对于文本型数据的分类处理（或者其他的处理），根据ik和jcseg等分词器先对它们进行分词处理之后，大家都知道，计算机是处理不了汉字的，对于文本型的词我们如何才能让计算机处理呢？我们可以通过TF-IDF将文本型的数据向量化。对于TF-IDF的概念我就不再阐述，网上的资源非常多，这里我主要来看看是如何实现的。2.测试数据的准备（pca.txt）1,纵坐标是该词在该文章中的权重

2017-05-03 16:44:11 3350

原创 scala的maven项目读取配置文件

scala的maven项目读取src/main/resources目录下的资源文件该如何读取呢？下面提供一种默认的和一种自定义的：对于application.conf配置文件，是默认的配置文件：application.conf内容如下：mysql { url : "jdbc:mysql://192.168.76.14:3306/ibigdata?useUnicode=tru

2017-04-28 10:15:48 1597

原创降维:主成分分析(PCA)

定义：可以将特征向量投影到低维空间，实现对特征向量的降维步骤：1.数据预处理。这里预处理包含俩个部分：均值归一化和属性范围调整。均值归一化是相应属性减去平均值；而属性范围则在归一化基础上初一属性方差。2.计算特征之间的协方差矩阵。该矩阵是一个n*n的对称矩阵。3.计算协方差矩阵的特征值和特征向量。4.将特征值从大到小排序。5.保留最上面的N个特征向量。6.将原数据映射到

2017-04-25 16:33:17 619

原创提交任务到spark集群及spark集群的安装

/iflytek/server/spark/spark-2.0.0-bin-hadoop2.6/bin/spark-submit //spark集群的安装目录的bin目录下的spark-submit命令--class com.iflytek.Mtk //项目的入口类--master spark://192.168.76.15:7077 //master节点的网址--executo

2017-04-25 11:25:03 337

原创 SparkStreaming小例子

1.安装nc才可以打开端口rpm -ivh /media/CentOS_6.7_Final/Packages/nmap-5.51-4.el6.x86_64.rpm 2.ncat -lk 12343.package com.iflytek.sparkstreaming;import java.util.Arrays;import org.apache.log4j.Level;

2017-04-25 09:10:38 290

原创 jsp基础知识 jsp指令 jsp9大内置对象 jstl表达式

JSP1,JSP的生命周期理解JSP底层功能的关键就是去理解它们所遵守的生命周期。JSP生命周期就是从创建到销毁的整个过程，类似于servlet生命周期，区别在于JSP生命周期还包括将JSP文件编译成servlet。以下是JSP生命周期中所走过的几个阶段： 1,编译阶段：servlet容器编译servlet源文件，生成servlet类当浏览器请求JSP页面时，JSP

2016-12-07 20:23:03 716

原创第三方支付易宝支付的具体实现

无图无真相，所以先上一波图做这个项目之前，你必须要有p1_MerId和keyValue,这个需要自己去官网申请的，这里我提供做测试的。p1_MerId="10001126856"和keyValue="69cl522AV6q613Ii4W6u8K6XuW8vM1N6bFgyv769220IuYe9u37N4y7rI4Pl";然后需要来个工具类，一个是用来加密的MD5加密算法，一个

2016-12-06 19:02:42 7581 1

原创 html 边框变粗 margin -1px

最近刚开始学习web前端，html和css,对于遇到的边框变粗的问题，用margin为负值解决问题发表一些自己的理解首先我们来看看下面一张图片list-style: none; border:1px solid black; width: 200px; line-height:

2016-11-07 08:59:47 6631

原创 XStream将XML映射到对对象

张三黄山路666号阜阳安徽 236000 中国 18056075816 李四望江西路888号合肥安徽 230091

2016-08-20 19:44:13 436

原创利用java反射机制将orcale数据库中的表反射到类中

import java.lang.reflect.Field;import java.lang.reflect.Method;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;

2016-08-19 07:53:51 303

原创 JDBC动态SQL语句连接orcale数据库的工具类

import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;public class DbUtil { private static

2016-08-17 20:26:14 675

原创 JDBC静态sql语句连接的工具类编写

为了方便静态SQL语句进行增删改查的操作，编写了一个工具类进行操作。import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import java.

2016-08-16 20:11:21 423

原创 java常用对象

boolean b=Pattern.matches("(86)*0*1\\d{10}",mobile);//大陆手机号码的匹配日期类Date date =new Date();//构造当前的时间calendar=Calendar.getInstance();//通过工厂方法获取实例calendar.set(year, month, date);//设置年月（0-11）日时分秒位当

2016-08-16 10:24:01 520

原创文件的字节流和字符流

1.字节流进行读取出文本的内容 try { FileInputStream fis=new FileInputStream(fileName); byte[] bytes; bytes = new byte[fis.available()]; fis.read(bytes); String content=new String(bytes);// 通过使用平台的默认字符集解码指定的 by

2016-08-14 21:05:49 358

原创 SQL连接查询和合并查询

连接查询分为内连接，交叉连接，外连接，外连接又可以分为左外连接，右外连接和全外连接，现在我们就来区分一下他们：内连接：采用inner join关键字举个例子：答案：效果图：交叉连接：使用cross join关键字实际上就是关系A和关系B的笛卡尔积例子：答案：SELECT * FROM EMPLOYEE CROSS JOIN DEPT;效果图

2016-08-13 20:49:26 720

pan_haufei的博客