AI_skynet-CSDN博客

转载 Scala语言与Play框架入门教程

Scala语言简介Scala语言编译后的代码直接运行在Java虚拟机之上，可调用所有的Java代码库，Scala设计目标是成为比Java更好的语言。Scala同时具备和整合了面向对象及函数式的编程特性。Play框架简介Play Framework是一个开源的Web应用框架，使用Scala和Java语言混合编写。Play遵循传统的MVC（Model-View-Controller: 模型、视图和控制器

2017-03-01 18:54:44 1769 1

原创 Java常见的几种内存溢出

一.java.lang.OutOfMemoryError:Java heap space：解决方法： 1.检查程序，看是否有死循环或不必要地重复创建大量对象 2.修改这两个参数来增加堆内存 -Xms3062m 设置堆初始内存 -Xmx3062m 设置堆最大内存二.java.lang.OutOfMemoryError: PermGen space：这种是方法区内存不够，

2017-02-24 23:13:41 799

原创 HDFS负载均衡

HDFS负载平衡HDFS的数据可能并不总是被均匀的置于所有的DataNode中,最常见的原因是向一个已经存在的集群添加一个新的节点。当放置新的块时(块：一个文件的数据会被存储为一系列的块)。NameNode 在选择DataNode节点存储这些块之前会考虑多方面参数。一些注意事项如下：策略保证一个块的其中之一个副本在同一个节点(这个节点是块写的节点)需要将一个块的副本分配到不同的机架上，这样可

2017-02-19 20:56:41 4162

原创 HDFS副本存放策略

第一个block副本放在和client所在的node里（如果是集群外提交，则随机挑选一台磁盘不太慢、CPU不太忙的节点上）。第二个副本放置在与第一个节点不同的机架中的node中（随机选择）。第三个副本和第二个在同一个机架，随机放在不同的node中。如果还有更多的副本就随机放在集群的node里。流水线复制当客户端向 HDFS 文件写入数据的时候，一开始是写到本地临时文件中。

2017-02-19 20:28:50 3581

原创 Hadoop 添加节点和删除节点

一。增加节点 1.解压hadoop程序，并把namnode的配置文件复制到配置文件目录下 2.修改namenode的slaves文件增加该节点 3.在该节点对ssh,hosts，jdk 进行配置，并修改所有节点的/etc/hosts增加该节点映射 4.在该节点启动Datanode和Nodemanager $HADOOP_HOME/sbin/hadoop-daemon.sh start d

2017-02-19 15:04:27 3154 1

原创 Linux top命令详解

使用SSHClient客户端连接到远程Linux系统。使用top命令查看系统的当前运行的情况。如图对top命令执行的结果做了简单的图解，下面针对每一项做详细的解释。 top命令的第一行“top - 10:30:41 up 7 days, 23:47, 1 user, load average: 0.12, 0.07, 0.06”显示的内容依次为“系统当前时间、系统到目前为止已运行的时间、当前登

2017-02-16 11:00:10 290

原创 secureCRT 让linux vim工具显示颜色

众所周知 VIM具有很好的颜色显示功能，并且还支持许多程序语法，是编写shell脚本的一大利器。但是通过secureCRT 连接linux 需要经过一些配置才能把这样的效果显示出来 1.确认已经安装的vimrpm -qa|grep vim2.选项->会话选项->终端->仿真设置如下选项英文版的应该是 optins->session options->Terminal->emulati

2017-02-08 16:14:04 562

原创 centos 下安装vim 及vim的一些使用技巧

查看是否已安装 rpm -qa|grep vim安装命令yum -y install vim*显示行号在 vim 里执行(在普通模式下直接按冒号，并输入下面的命令):set number在VIM模式下按”0″ , 是数字0哈, 就可以到达行首啦到行尾是$, 就是shift+4linux vim :set fileencoding 命令查看文档字符集查找字符串 /stri

2017-02-08 16:09:08 327

原创 hive的dual表

dual表的概念来自oracle，数据库建立时即与数据字典一起初始化，该表只有一个varchar2类型名为dummy的字段，表数据只有一行“X”，用来查询一些系统信息，如select sysdate from dual; select user from dual;select seq.nextval from dual等。为了能在hive中测试一些时间、数学、聚合函数，可以仿照orac

2017-01-21 21:18:12 6212

原创 spark解决 org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow

使用spark sql 的 thrift jdbc接口查询数据时报这个错误Exception in thread "main" java.sql.SQLException: org.apache.spark.SparkException: Job aborted due to stage failure: Task 3107 in stage 308.0 failed 4 times, most r

2017-01-17 19:52:12 13059 2

原创 eclipse 自定义代码模板功能

使用eclipse的同学都知到输入main 按Alt+/ 回车就可以自动生成主函数 syso 按Alt+/ 回车就可以自动生成主println方法那我们如何定义自己的代码模板呢？我们以 jdk 1.7的新特性 try-with-resources为例打开 Windows->Pr

2017-01-16 20:47:05 4959

原创 eclipse插件OpenExplorer快速打开文件目录

1.在使用eclipse开发时有事需要访问文件所在的文件夹，默认的eclipse没有快速打开windows资源管理器的功能，只能右键属性然后再打开很不方便。 2.OpenExplorer这个插件可以满足这个功能，下载地址 https://github.com/samsonw/OpenExplorer/downloads，将jar包放到eclipse的plugins目录中，重新启动eclips

2017-01-13 14:42:02 443

原创 eclisep安装反编译插件jadClipse

我的eclipse版本先下载jadClipse的jar包链接：https://sourceforge.net/projects/jadclipse/然后，将net.sf.jadclipse_3.3.0.jar拷贝到eclipse的plugins目录下；再删除eclipse的configuration目录下org.eclipse.update文件，如果，你的eclipse是开着的，点击菜单

2017-01-13 14:33:57 3803

原创 flume 概述

Apache Flume 是一个分布式的，可靠的，可用的,可从许多不同的数据来源聚合和移动大量日志数据的高效数据收集系统.flume的用途并不仅限于日志数据的收集，由于数据源是可定制的，flume可以用于运输网络流量数据，社交媒体数据，和几乎任何数据源所产生的大量数据Flume的架构主要有一下几个核心概念： Event：最基本的数据传输单元。 Agent：一个独立的Flume进程，包含组件Sou

2017-01-13 14:18:10 420

原创 flume入门例子

1.官网下载 tar.gz 包 http://flume.apache.org/download.htmltar -zxvf apache-flume-1.7.0-bin.tar.gzconf 目录下配置 netstat.conf文件agent.sources = s1agent.channels = c1agent.sinks = sk1agent.sources.s1.type=netcat

2017-01-12 17:08:33 297

原创 hive 环境搭建

前提 hadoop 集群已经启动并搭建完毕，mysq已经安装完毕 1.解压hive tar -zvxf apache-hive-0.14.0-bin.tar.gz -C /usr/local/ mv apache-hive-0.14.0-bin/ hive 2备份配置文件 cp hive-env.sh.template hive-env.sh cp hive-de

2016-12-27 16:42:52 404

原创 windows 查看，修改环境变量

首先明确一点：所有的在cmd命令行下对环境变量的修改只对当前窗口有效，不是永久性的修改。也就是说当关闭此cmd命令行窗口后，将不再起作用。1、查看当前所有可用的环境变量：输入 set 即可查看。 2、查看某个环境变量：输入 “set 变量名”即可，比如想查看path变量的，即输入 set path 3、修改环境变量：输入 “set 变量名=变量内容”即可，比如将path设置为“d:/wps

2016-12-20 11:28:22 14997

原创 spark on yarn 报 org.apache.hadoop.util.Shell$ExitCodeException: 问题

今天把新数据中心基于 spark 1.6 jdk 1.7 hadoop2.7的scala程序拿到老数据中心jdk1.6/jdk.17 hadoop 2.2 环境进行 spark on yarn测试使用spark-shell 或者 spark-submit 提交时报如下错误org.apache.hadoop.util.Shell$ExitCodeException: at

2016-12-12 19:24:54 3516

原创 windows如何批量修改文件名

因为工作需要有时候需要批量修改excel文件故将方法分享出来1.在F盘建立一个文件夹，将批量生成的excel放置于该文件夹中，如下图所示2 鼠标左键点击，开始-》运行-》在对话框中输入字母“cmd”，进入dos模式，如下图所示。 3 在dos模式输入命令行“F:”然后回车，输入命令行“cd workspace”然后回车,再输入命令行“dir /b>rename.xlsx”，如下图所示，可将

2016-12-08 10:54:37 16881 3

原创 linux下执行java程序时切换JDK环境

有时在服务器上部署的程序可能是在不同的jdk版本下编译的这时候就需要运行时动态选择不同的jre环境运行，而不是依赖系统配置的环境变量这里可以借助shell脚本#!/bin/bashexport JAVA_HOME=/data/hadoop2/jdk1.8PATH=$JAVA_HOME/bin:$PATHjava com.llc.xxx

2016-12-07 13:38:49 1456

原创执行java 程序时需要引入第三方jar包的解决办法

1.第一种办法是循环遍历需要引入的那个目录的jar包WORKDIR=/xxx/xxxfor jar in $WORKDIR/lib/*.jardo lib=$lib:$jardoneecho $WORKDIR java -classpath $lib com.llc.xxx >> "../application.out" 2>&1 2.第二种办法是使用j

2016-12-07 13:33:38 1510

原创解决ant编译源码Unknown Source的问题

其实出现Unknown Source的原因是在编译时没有指定相应的选项，具体可以参见javac -g系列参数的帮助。当通过javac编译时，默认相当于指定-g:source,lines，这样编译出来的class文件中会包含源代码和行号信息；而通过ant编译时，默认相当于指定-g:none，这样编译出来的class文件会比较小，但是不包含任何调试信息，所以出错的时候就会打印出上面的错误堆栈信息。

2016-12-02 20:56:09 3273

原创 Spark 动态上架下架worker

关闭 $SPARK_HOME/sbin/spark-daemon.sh --config conf/ stop org.apache.spark.deploy.worker.Worker 1 --webui-port 8081 spark://llc1:7077开启 $SPARK_HOME/sbin/spark-daemon.sh --config conf/ start org.apache.sp

2016-12-02 17:01:35 438

原创简单总结spark中executer的个数设置

1.standlone模式下公式：execuoterNum = spark.cores.max/spark.executor.cores相关参数在启动具体应用时指定例如启动基于standlone模式的spark sql的thrift 接口时设置这两个参数--total-executor-cores--executor-cores 它们共同决定了当前应用启动executor的个数$

2016-12-02 16:35:08 11148

原创 hive与json：使用HDFS上的json格式数据建立hive表

1 下载对应版本的 jar包 http://mvnrepository.com/artifact/org.apache.hive.hcatalog/hive-hcatalog-coreadd jar /home/xxx/hive-hcatalog-core-2.1.0.jar2.创建表CREATE TABLE json_table(id bigint, sourceType int)ROW F

2016-11-30 17:41:00 7932 1

转载分析spark on yarn cluster 与 client 模式的区别

Spark on yarn有分为两种模式yarn-cluster和yarn-client Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN )，集群管理负责启动executor进程，编写Spark application 的人根本不需要知道Spark用的是什么集群管理。Spark支持的三种集群模式，这三种集群模式都由两个组件组成:master和slave。Maste

2016-11-23 11:12:47 5110

原创 spark standalone模式环境搭建

官网下载编译好的tar包解压缩包 tar -zxvf sparkxxxx.gz cd conf cp spark-env.sh.template spark-env.shspark1节点(主节点) vi spark-env.shSPARK_MASTER_IP=spark1 //主节点IP export JAVA_HOME=/usr/local/jdkvi slaves spar

2016-11-23 10:59:58 518

原创 hive查询数据导出到本地目录或hdfs的方法

一、导出到本地文件系统　　hive> insert overwrite local directory '/home/mydir/mydir' > select * from test;　二、导出到HDFS中hive> insert overwrite directory '/home/mydir/mydir' > select * from test;

2016-11-23 10:50:43 5932

翻译 Hadoop 回收站trash

和Linux系统的回收站设计一样，HDFS会为每一个用户创建一个回收站目录：/user/用户名/.Trash/，每一个被用户通过Shell删除的文件/目录，在系统回收站中都一个周期，也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话，HDFS就会自动的把这个文件/目录彻底删除，之后，用户就永远也找不回这个文件/目录了。配置：在每个节点(不仅仅是主节点)上添加配置 core-site.x

2016-11-22 15:40:59 580

原创构建HBase集群

vi ~/.bashrcexport HBASE_HOME=/data/hadoop1/hbase-1.2.2export PATH=$HBASE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin:$JAVA_HOME/bin:$PATHsource ~/.bashrcvi hbase-env.sh export

2016-11-22 15:28:32 346

原创构建Hadoop HA 集群 hadoop 2.7.2 版本

向公司申请了4台虚拟机，搭建了一个测试hadoop集群. Centos 7 64位操作系统 llc1 10.1.5.10 llc2 10.1.5.11 llc3 10.1.5.12 llcf 10.1.5.13hadoop1 hadoop2 做namenode 主备机器名 ip地址安装软件

2016-11-22 15:24:10 650

原创 Linux下安装tar.gz包的JAVA JDK（非Root用户）

1.orcale官网下载jdk包这里以jdk-7u21-linux-x64.tar.gz 为例解压一般解压到/usr/local/目录下 2.tar -zxvf jdk-7u21-linux-x64.tar.gz 3,配置环境变量vi ~/.bashrc export JAVA_HOME=/usr/local/jdk PATH=$JAVA_HOME/bin:$PATH保存退

2016-11-22 15:04:39 613

原创 Zookeeper集群环境搭建实践

第一步：服务器配置三台虚拟机 centos 6.5 64位 192.168.50.150 hadoop0 192.168.50.151 hadoop1 192.168.50.152 hadoop2 第二步：下载Zookeeper. 官网 3.4.5 第三步：安装Zookeeper 注：先在第一台服务器server1上分别执行(1)-(3)步。（1）解压：这里假定以d

2016-11-22 15:03:03 294

原创 SSH免密码登录

” 公私钥”认证方式简单的解释:首先在客户端上创建一对公私钥（公钥文件：~/.ssh/id_rsa.pub；私钥文件：~/.ssh/id_rsa）。然后把公钥放到服务器上（~/.ssh/authorized_keys）, 自己保留好私钥.在使用ssh登录时,ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了。公钥私钥 linux 加密算法是单向的只能加密不能解密

2016-11-22 15:00:44 319

原创 centos 6修改ip 设置初始IP

快捷设置IP ifconfig eth1 192.168.50.100/24vim /etc/sysconfig/network-scripts/ifcfg-eth1#粘贴DEVICE=eth1IPADDR=192.168.50.100NETMASK=255.255.255.0BOOTPRO=static# If you're having problems with gated m

2016-11-22 14:54:57 904

原创 hadoop 伪分布式安装

一.设置操作系统环境 1.设置ip地址 1)通过centos桌面操作使用命令ifconfig查看ip地址当修改了ip之后，使用命令service network restart重新启动网络服务 vi /etc/sysconfig/network-scripts/ifcfg-eth0 2.设置主机名 hostname查看主机名称 vi /etc/

2016-11-22 14:51:30 332

原创 Jersey入门例子

1.编写目的简单的对Jersey进行介绍，并实现一个完整的Jersey测试实例 1.1Jersey简介Jersey是一个RESTFUL请求服务JAVA框架，与常规的JAVA编程使用的struts框架类似，它主要用于处理业务逻辑层。与Struts类似，它同样可以和hibernate,spring框架整合。http://baike.baidu.com/item/Jersey/175

2015-10-10 14:13:58 1136

原创 JStorm安装

因为工作需要，需要使用jstorm 现在把jstorm的安装过程和大家分享一下，我是参照https://github.com/alibaba/jstorm 上面和百度进行安装的.安装jstorm前需要安装jdk zookeeper 建议较新版本我用的是3.4.6 参考其他日志，这里不再赘述八台服务器 CentOS 7 1.python python 需要至

2015-10-09 10:43:36 937

空空如也

空空如也