自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark集成HIve 往HDFS中写数据权限不足的解决办法

1,错误呈现Spark集成HIve后执行如下语句def readHive(): Unit ={ val conf: SparkConf = new SparkConf().setMaster("local").setAppName("my") val sc: SparkSession = SparkSession.builder() .enableHiveSupport()// 启用Hive的支持 .config("spark.sql.warehouse.dir", "h.

2020-09-12 00:46:20 1223

原创 Scala详细总结

1、Scala的变量和数据类型1、变量命名规范:首位必须是字母或者_或者特殊符号,其他的字符必须是数字、字母、_、特殊符号2、变量1、定义: val/var 变量名:变量类型 = 值2、val与var的区别: val定义的变量不可用被重新赋值,类似java的final var定义的变量可以被重新赋值3、scala在定义变量的时候,可以省略变量类型,scala会自动推断3、字符串定义1、""包裹会得到一个字符串: val name = "zhangsan"2、插值表达式[就是字符串的

2020-09-05 00:13:55 581

原创 HBase详细解读之二

4、Hbase优化1、预分区[在创建表的的时候多创建几个region]:​ 原因: 默认情况下,创建表的时候只有一个region,前期所有的请求都会落在这一个region上,会对region所在的regionserver造成请求压力1、shell 1、create '表名','列簇名',SPLITS=>['rowkey1','rowkey2',..] create 'person','f1',SPLITS=>['10','11'] 此时会创建三个region。 第一个re

2020-08-23 22:19:11 418

原创 启动Phoenix时报错方法

启动Phoenix时报错Unable to load native-hadoop library for your platform... using builtin-java classes where applicable解决办法: 1,在执行上述命令之前:先关闭hbase(包括HMaster和regionServer) 2,/bin/hbase clean --cleanAll ...

2020-08-23 20:25:25 1379 1

原创 HBase详细解读之一

1、HBase简介1、Hbase是什么? Hbase是分布式存储海量数据的Nosql数据库2、Hbase的应用场景: 实时 3、数据模型 1、Table: 数据存储形式 2、Region: table的一个分段,region保存在regionserver上面 3、Store: store的个数与列簇的个数一致 4、rowkey: hbase的数据的主键。 数据在hbase中是有序的,按照rowkey的字典序进行排序 5、列簇: hbase的表结构的一部分[相当于mysql的字段] 6

2020-08-21 19:49:35 138

原创 HBase核心开发API

资源的创建和释放 /** * 初始化 配置信息 */ @Before public void init() { configuration = HBaseConfiguration.create(); configuration.set("hbase.zookeeper.quorum", "hadoop102:2181,hadoop103:2181,hadoop104:2181"); try { c

2020-08-21 19:45:11 120

原创 Flume和Kafka结合实现日志采集

1,业务流程2,日志采集2.1采集模型(1)用传统的flume聚合模型采用这种模型服务器3的压力比较大,有可能会宕机.服务器1和服务器2是主动往服务器3进行数据的推送,而不是服务器3主动拉取.(2)结合Kafka的聚合模型(Kafka source)[1]解析采用Kafka Channel,省去了Sink,提高了效率。KafkaChannel数据存储在Kafka里面,所以数据是存储在磁盘中。注意在Flume1.7以前,Kafka Channel很少有人使用,因为发现parseAsFlu

2020-08-18 22:58:09 1073

原创 sqoop开发参数

(1)在sqoop-env.sh 添加export HADOOP_COMMON_HOME=/opt/module/hadoop-3.1.3export HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3export HIVE_HOME=/opt/module/hiveexport ZOOKEEPER_HOME=/opt/module/zookeeper-3.5.7export ZOOCFGDIR=/opt/module/zookeeper-3.5.7/conf

2020-08-18 22:52:27 249

原创 hive优化

1,Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM emp;在这种情况下,Hive可以简单地读取emp对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找、字段查找、limit查找等都不走mapreduce。<proper

2020-08-17 00:20:26 156

原创 hive习题

--学生表CREATE TABLE STUDENT(S_ID STRING,S_NAME STRING,S_BIRTH STRING,S_SEX STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';load data local inpath '/opt/module/hive/datas/sroce/student' overwrite into table STUDENT;-- 课程表CREATE TABLE COURSE(.

2020-08-16 23:52:26 174

原创 Azkaban的群起脚本

# !/bin/bashif [ $# -lt 1 ]then echo "请输入参数" exitficase $1 in "start-exe" ) for host in hadoop102 hadoop103 hadoop104 do echo "========================$host start azkaban-exec===========================" ssh $host "cd /opt/module/azka.

2020-08-13 22:50:23 236

原创 接口编写知识点

接口编写知识点1,json格式 1、对象转json JSON.toJsonString(json字符串) 2、json转对象 JSON.parseObject(json字符串,类.class)2, http请求2.1,get请求(1)概述get请求的时候,参数都是拼在url后面,url与参数通过?分割,参数与参数之间通过&连接,参数与值之间通过=连接,参数与值之间通过 get请求不会向body中传入参数,而且get请求可以直接在浏览器上执行

2020-08-13 22:47:35 152

原创 azkaban创建project报500的错误的解决办法

因为权限不够,需要配置权限为管理员的权限

2020-08-12 15:02:31 553 1

原创 从服务器数据库中把数据导入到本地oracle数据库中

(1)exp by/[email protected]/qzj03 file=F:/1.sql log=F:/log.log 用户名/密码@IP地址/实例名 文件=文件导入的路径 日志=日志导入的路径(2)把导出的数据文件.sql改为.dmp 再用命令台运行 找到该.dmp文件所在的目录比如:F://>imp 数据库用户名/密码 file=.dmp文件所在地

2020-08-12 08:39:05 354

原创 Hive之常用函数

Hive常用的内置函数2.1空字段赋值1)空字段赋值 nvl()-- 给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_value的值,select nvl(null,'空值');2)if(表达式,default,default)-- if(表达式,value1,value2) 如果表达式为true 则取value1,否则取value2select if('' is null,'空值',

2020-08-10 20:48:23 559

原创 两大表Join时报Map operator initialization failed错误解决方法

1,错误信息 :Map operator initialization failedTaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1596414152423_0018_3_02_000002_3:java.lang.RuntimeException: java.lang.RuntimeException: Map operator initialization failed at

2020-08-03 13:34:45 3420 1

原创 Hadoop HA集群搭建

Hadoop HA集群搭建流程一,环境准备(1)修改IP(2)修改主机名及主机名和IP地址的映射vim /etc/hostnamevim /etc/sysconfig/network-scripts/ifcfg-ens33DEVICE=ens33TYPE=EthernetONBOOT=yesBOOTPROTO=static#修改改为静态NAME="ens33"IPADDR=192.168.244.102 #改为服务器的IpPREFIX=24GATEWAY=192.168.244

2020-07-28 19:52:02 405

原创 6台服务器集群配置文档

6台服务器集群部署文档一,集群部署规划服务器号102103104105106107HDFSNN2NNDNDNDNYARNNMNMNMRMLogHistoryServer二,文件的配置1,核心文件的配置 core-site.xml<!-- 指定NameNode的地址 --> <property> <name>fs.defaultFS</name>

2020-07-28 18:53:16 335

原创 hadoop工作流程图

2020-07-28 18:31:09 1198 1

原创 删除hadoo集群data和logs的脚本

#!/bin/bash#格式化namenode的时候需要删除data和log目录if [ $# -lt 1 ] then echo "没有输入参数,需要输入相应的服务名 如hadoop102" exit;fi HADOOP_PATH_DATA="/opt/module/hadoop-3.1.3/data" HADOOP_PATH_LOGS="/opt/module/hadoop-3.1.3/logs"for host in $@do echo "=================.

2020-07-28 18:05:53 2686

原创 hadoop集群群起脚本

#!/bin/bashif [ $# -lt 1 ]then echo "你需要输入一个参数" exit; fi HADOOP_PATH_BIN="/opt/module/hadoop-3.1.3/bin" HADOOP_PATH_SBIN="/opt/module/hadoop-3.1.3/sbin" case $1 in "start") echo "==============启动hadoop集群=================" echo "=====.

2020-07-28 18:05:07 421

原创 集群免密登录脚本

#!/bin/bash#免密登录 配置 需要几台服务器免密登录参数就写几台if [ $# -lt 1 ]then echo "没有输入参数,请输入相应的参数,如hadoop102" exitfiecho "=============== 在$1生成私钥和公钥 ================="echo " "ssh $1 "ssh-keygen -t rsa"for host in $@do echo "==============把公钥发到$host上===========.

2020-07-28 18:04:25 293

原创 hadoop集群分发脚本

#!/bin/bashif [ $# -lt 1 ] then echo "没有参数路径,请输入需要分发的目录路径" exit;fi#遍历集群所有的机器for host in hadoop102 hadoop103 hadoop104 hadoop105 hadoop106 hadoop107doecho "==================== $host =========================="#遍历所有的目录 ,逐个发送 for file in $@.

2020-07-28 18:01:45 185

原创 ReduceTask工作机制源码解析

1. 在LocalJobRunner$Job中的run()方法中 try { if (numReduceTasks > 0) { //根据reduceTask的个数,创建对应个数的LocalJobRunner$Job$ReduceTaskRunnable List<RunnableWithThrowable> reduceRunnables = getReduceTaskRunnables( ...

2020-07-28 16:58:06 165

原创 Shuffle流程(溢写,归并)源码解析

1. map中的kv持续往 缓冲区写, 会达到溢写条件,发生溢写,最后发生归并。2. map中的 context.write(k,v) 1) . mapContext.write(key, value); (1). output.write(key, value); <1> collector.collect(key, value, partitioner.getPartition(key, va...

2020-07-28 16:57:33 643 1

原创 MapTask的工作机制源码解析

1. 从Job提交流程的(2)--><9> 进去 Job job = new Job(JobID.downgrade(jobid), jobSubmitDir); 构造真正执行的Job , LocalJobRunnber$Job2. LocalJobRunnber$Job 的run()方法 1) TaskSplitMetaInfo[] taskSplitMetaInfos = SplitMetaInfoReader.readSplitMetaIn...

2020-07-28 16:57:01 299

原创 Job提交流程源码解析

1. job.waitForCompletion(true); 在Driver中提交job 1) sumbit() 提交 (1) connect(): <1> return new Cluster(getConfiguration()); ① initialize(jobTrackAddr, conf); 通过YarnClientProtocolProvider | LocalClientProtocol...

2020-07-28 16:55:42 251

原创 MapTask阶段默认分区源码解析

// reduceTask的个数大于1的情况// 如果没有自定义分区器,并且reduceTask的个数设置大于1的话就会走HashPartitioner(job.setNumberReduceTasks(2))public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@link Object#hashCode()} to partition. */ public int getPar.

2020-07-28 16:54:36 235

原创 hadoop常用的调优参数

hadoop常用的调优参数1)资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 mapreduce.reduce.memory.mb

2020-07-26 15:03:17 297

原创 mysql基础知识一

一、DDLSQL的分类DDL:数据定义语言,定义库,表结构等,包括create,drop,alter,show等DML:数据操作(Manipulation)语言,增删改查数据,包括insert,delete,update,select等​ DRL/DQL:专指查询DCL:数据控制语言,权限,事务等管理。1、查看所有数据库show databases;2、指定使用某个数据库use 数据库名;3、创建数据库create database 数据库名; #使用my.ini中配置的服务器的编

2020-07-25 16:48:03 387

原创 redis.conf配置文件参数

2020-05-23 20:24:38 131

原创 浅谈oracle trim(),ltrim(),rtrim()的用法

(1)如图 想去掉字符串最右边的逗号,可以使用如下语句select rtrim(a.id,',') from tempqq a 其中 rtrim()函数的作用是把最右边右边符合rtrim(a.id,',')中‘’里面的字符去掉(2)如图 想去掉字符串最左边的逗号,可以使用如下语句select ltrim(a.id,',') from tempqq a其中 rt...

2019-05-17 18:19:12 1559

原创 如何设置ireport的text可以换行

第一步:勾选如图属性第二步:选择如图属性的属性值

2019-04-29 11:05:13 1182

原创 处理plsql连接oracle数据库报ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务问题的方法

用plsql登录的oracle的时候出现这个错误解决方法有二个:第一:先检查,oracle数据的服务是否正常启动了如果没有启动 则手动启动以上图标红的那两个服务第二:检查一下oracle的监听文件是否有你的实例信息没有的话就按如上图例子进行配置...

2019-04-25 10:46:56 1462

原创 改变list类型的数据值

--想把list类型里面位置2和位置3的数据进行调换public class Dmeo3 { public static void main(String[] args) { Dmeo3 d=new Dmeo3(); List&lt;Map&lt;String, Object&gt;&gt; list=new ArrayList&lt;&gt;();...

2019-03-14 15:18:15 2384

原创 浅谈map的遍历方式

Map&lt;String, Object&gt; map=new HashMap&lt;String, Object&gt;(); map.put("one", "one"); map.put("two", "two"); map.put("three", "three"); // (1)map的...

2019-03-14 15:09:43 101

原创 spoon 查询数据向一张表插入数据 在更新另外两张表相应的字段

一个表输入,一个插入/更新 ,两个更新。1,首先要编辑要连接的数据库信息点击test 出现以下i提示的话 说明数据库连接成功2,在’表输入‘中写入要查询的sql语句,3,在插入/更新填写相应的信息4,更新另外两张表的步骤...

2019-03-11 11:25:06 2881

原创 如何恢复Oracle delete的数据

create table person(id varchar2(32),username varchar2(34),age number)--插入数据insert into person values('1','张三',23);insert into person values('2','李四',25)--有时候我们为了方便处理Oracle的垃圾数据会使用delete语句进行数...

2019-03-05 11:06:56 3035 1

原创 Oracle特有的update更新方法

create table person(id varchar2(32),username varchar2(34),age number)--插入数据insert into person values('1','张三',23);insert into person values('2','李四',25)--Oracle特有的update更新方法update person s...

2019-03-05 10:43:29 916

原创 低版本的jrxml文件在高版本的的iReport打开修改,再次使用时却无法使用的解决办法

在高版本的iReport的工具--&gt;选项如上图:选择Last version的相应的版本就可以解决问题了

2019-03-05 10:13:59 1137

c#石头剪刀布小游戏程序

c#石头剪刀布小游戏程序,适合初学者使用

2017-08-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除