鸿儒之观-CSDN博客

原创 Spark集成HIve 往HDFS中写数据权限不足的解决办法

1,错误呈现Spark集成HIve后执行如下语句def readHive(): Unit ={ val conf: SparkConf = new SparkConf().setMaster("local").setAppName("my") val sc: SparkSession = SparkSession.builder() .enableHiveSupport()// 启用Hive的支持 .config("spark.sql.warehouse.dir", "h.

2020-09-12 00:46:20 1223

原创 Scala详细总结

1、Scala的变量和数据类型1、变量命名规范:首位必须是字母或者_或者特殊符号，其他的字符必须是数字、字母、_、特殊符号2、变量1、定义: val/var 变量名:变量类型 = 值2、val与var的区别: val定义的变量不可用被重新赋值,类似java的final var定义的变量可以被重新赋值3、scala在定义变量的时候，可以省略变量类型，scala会自动推断3、字符串定义1、""包裹会得到一个字符串: val name = "zhangsan"2、插值表达式[就是字符串的

2020-09-05 00:13:55 581

原创 HBase详细解读之二

4、Hbase优化1、预分区[在创建表的的时候多创建几个region]: 原因: 默认情况下，创建表的时候只有一个region,前期所有的请求都会落在这一个region上,会对region所在的regionserver造成请求压力1、shell 1、create '表名','列簇名',SPLITS=>['rowkey1','rowkey2',..] create 'person','f1',SPLITS=>['10','11'] 此时会创建三个region。第一个re

2020-08-23 22:19:11 418

原创启动Phoenix时报错方法

启动Phoenix时报错Unable to load native-hadoop library for your platform... using builtin-java classes where applicable解决办法: 1,在执行上述命令之前：先关闭hbase（包括HMaster和regionServer） 2,/bin/hbase clean --cleanAll ...

2020-08-23 20:25:25 1379 1

原创 HBase详细解读之一

1、HBase简介1、Hbase是什么? Hbase是分布式存储海量数据的Nosql数据库2、Hbase的应用场景: 实时 3、数据模型 1、Table: 数据存储形式 2、Region: table的一个分段，region保存在regionserver上面 3、Store: store的个数与列簇的个数一致 4、rowkey： hbase的数据的主键。数据在hbase中是有序的，按照rowkey的字典序进行排序 5、列簇: hbase的表结构的一部分[相当于mysql的字段] 6

2020-08-21 19:49:35 138

原创 HBase核心开发API

资源的创建和释放 /** * 初始化配置信息 */ @Before public void init() { configuration = HBaseConfiguration.create(); configuration.set("hbase.zookeeper.quorum", "hadoop102:2181,hadoop103:2181,hadoop104:2181"); try { c

2020-08-21 19:45:11 120

原创 Flume和Kafka结合实现日志采集

1,业务流程2,日志采集2.1采集模型(1)用传统的flume聚合模型采用这种模型服务器3的压力比较大,有可能会宕机.服务器1和服务器2是主动往服务器3进行数据的推送,而不是服务器3主动拉取.(2)结合Kafka的聚合模型(Kafka source)[1]解析采用Kafka Channel，省去了Sink，提高了效率。KafkaChannel数据存储在Kafka里面，所以数据是存储在磁盘中。注意在Flume1.7以前，Kafka Channel很少有人使用，因为发现parseAsFlu

2020-08-18 22:58:09 1073

原创 sqoop开发参数

(1)在sqoop-env.sh 添加export HADOOP_COMMON_HOME=/opt/module/hadoop-3.1.3export HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3export HIVE_HOME=/opt/module/hiveexport ZOOKEEPER_HOME=/opt/module/zookeeper-3.5.7export ZOOCFGDIR=/opt/module/zookeeper-3.5.7/conf

2020-08-18 22:52:27 249

原创 hive优化

1,Fetch抓取Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM emp;在这种情况下，Hive可以简单地读取emp对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit查找等都不走mapreduce。<proper

2020-08-17 00:20:26 156

原创 hive习题

--学生表CREATE TABLE STUDENT(S_ID STRING,S_NAME STRING,S_BIRTH STRING,S_SEX STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';load data local inpath '/opt/module/hive/datas/sroce/student' overwrite into table STUDENT;-- 课程表CREATE TABLE COURSE(.

2020-08-16 23:52:26 174

原创 Azkaban的群起脚本

# !/bin/bashif [ $# -lt 1 ]then echo "请输入参数" exitficase $1 in "start-exe" ) for host in hadoop102 hadoop103 hadoop104 do echo "========================$host start azkaban-exec===========================" ssh $host "cd /opt/module/azka.

2020-08-13 22:50:23 236

原创接口编写知识点

接口编写知识点1,json格式 1、对象转json JSON.toJsonString(json字符串) 2、json转对象 JSON.parseObject(json字符串,类.class)2, http请求2.1,get请求(1)概述get请求的时候，参数都是拼在url后面，url与参数通过?分割，参数与参数之间通过&连接，参数与值之间通过=连接，参数与值之间通过 get请求不会向body中传入参数，而且get请求可以直接在浏览器上执行

2020-08-13 22:47:35 152

原创 azkaban创建project报500的错误的解决办法

因为权限不够,需要配置权限为管理员的权限

2020-08-12 15:02:31 553 1

原创从服务器数据库中把数据导入到本地oracle数据库中

（1）exp by/[email protected]/qzj03 file=F:/1.sql log=F:/log.log 用户名/密码@IP地址/实例名文件=文件导入的路径日志=日志导入的路径（2）把导出的数据文件.sql改为.dmp 再用命令台运行找到该.dmp文件所在的目录比如：F://>imp 数据库用户名/密码 file=.dmp文件所在地

2020-08-12 08:39:05 354

原创 Hive之常用函数

Hive常用的内置函数2.1空字段赋值1)空字段赋值 nvl()-- 给值为NULL的数据赋值，它的格式是NVL( value，default_value)。它的功能是如果value为NULL，则NVL函数返回default_value的值，select nvl(null,'空值');2)if(表达式,default,default)-- if(表达式,value1,value2) 如果表达式为true 则取value1,否则取value2select if('' is null,'空值',

2020-08-10 20:48:23 559

原创两大表Join时报Map operator initialization failed错误解决方法

1,错误信息 :Map operator initialization failedTaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1596414152423_0018_3_02_000002_3:java.lang.RuntimeException: java.lang.RuntimeException: Map operator initialization failed at

2020-08-03 13:34:45 3420 1

原创 Hadoop HA集群搭建

Hadoop HA集群搭建流程一,环境准备（1）修改IP（2）修改主机名及主机名和IP地址的映射vim /etc/hostnamevim /etc/sysconfig/network-scripts/ifcfg-ens33DEVICE=ens33TYPE=EthernetONBOOT=yesBOOTPROTO=static#修改改为静态NAME="ens33"IPADDR=192.168.244.102 #改为服务器的IpPREFIX=24GATEWAY=192.168.244

2020-07-28 19:52:02 405

原创 6台服务器集群配置文档

6台服务器集群部署文档一,集群部署规划服务器号102103104105106107HDFSNN2NNDNDNDNYARNNMNMNMRMLogHistoryServer二,文件的配置1,核心文件的配置 core-site.xml <property> <name>fs.defaultFS</name>

2020-07-28 18:53:16 335

原创 hadoop工作流程图

2020-07-28 18:31:09 1198 1

原创删除hadoo集群data和logs的脚本

#!/bin/bash#格式化namenode的时候需要删除data和log目录if [ $# -lt 1 ] then echo "没有输入参数,需要输入相应的服务名如hadoop102" exit;fi HADOOP_PATH_DATA="/opt/module/hadoop-3.1.3/data" HADOOP_PATH_LOGS="/opt/module/hadoop-3.1.3/logs"for host in $@do echo "=================.

2020-07-28 18:05:53 2686

原创 hadoop集群群起脚本

#!/bin/bashif [ $# -lt 1 ]then echo "你需要输入一个参数" exit; fi HADOOP_PATH_BIN="/opt/module/hadoop-3.1.3/bin" HADOOP_PATH_SBIN="/opt/module/hadoop-3.1.3/sbin" case $1 in "start") echo "==============启动hadoop集群=================" echo "=====.

2020-07-28 18:05:07 421

原创集群免密登录脚本

#!/bin/bash#免密登录配置需要几台服务器免密登录参数就写几台if [ $# -lt 1 ]then echo "没有输入参数,请输入相应的参数,如hadoop102" exitfiecho "=============== 在$1生成私钥和公钥 ================="echo " "ssh $1 "ssh-keygen -t rsa"for host in $@do echo "==============把公钥发到$host上===========.

2020-07-28 18:04:25 293

原创 hadoop集群分发脚本

#!/bin/bashif [ $# -lt 1 ] then echo "没有参数路径,请输入需要分发的目录路径" exit;fi#遍历集群所有的机器for host in hadoop102 hadoop103 hadoop104 hadoop105 hadoop106 hadoop107doecho "==================== $host =========================="#遍历所有的目录 ,逐个发送 for file in $@.

2020-07-28 18:01:45 185

原创 ReduceTask工作机制源码解析

1. 在LocalJobRunner$Job中的run()方法中 try { if (numReduceTasks > 0) { //根据reduceTask的个数，创建对应个数的LocalJobRunner$Job$ReduceTaskRunnable List<RunnableWithThrowable> reduceRunnables = getReduceTaskRunnables( ...

2020-07-28 16:58:06 165

原创 Shuffle流程(溢写，归并)源码解析

1. map中的kv持续往缓冲区写，会达到溢写条件，发生溢写，最后发生归并。2. map中的 context.write(k,v) 1) . mapContext.write(key, value); (1). output.write(key, value); <1> collector.collect(key, value, partitioner.getPartition(key, va...

2020-07-28 16:57:33 643 1

原创 MapTask的工作机制源码解析

1. 从Job提交流程的(2)--><9> 进去 Job job = new Job(JobID.downgrade(jobid), jobSubmitDir); 构造真正执行的Job , LocalJobRunnber$Job2. LocalJobRunnber$Job 的run()方法 1) TaskSplitMetaInfo[] taskSplitMetaInfos = SplitMetaInfoReader.readSplitMetaIn...

2020-07-28 16:57:01 299

原创 Job提交流程源码解析

1. job.waitForCompletion(true); 在Driver中提交job 1) sumbit() 提交 (1) connect(): <1> return new Cluster(getConfiguration()); ① initialize(jobTrackAddr, conf); 通过YarnClientProtocolProvider | LocalClientProtocol...

2020-07-28 16:55:42 251

原创 MapTask阶段默认分区源码解析

// reduceTask的个数大于1的情况// 如果没有自定义分区器,并且reduceTask的个数设置大于1的话就会走HashPartitioner(job.setNumberReduceTasks(2))public class HashPartitioner<K, V> extends Partitioner<K, V> { /** Use {@link Object#hashCode()} to partition. */ public int getPar.

2020-07-28 16:54:36 235

原创 hadoop常用的调优参数

hadoop常用的调优参数1）资源相关参数（1）以下参数是在用户自己的MR应用程序中配置就可以生效（mapred-default.xml）配置参数参数说明 mapreduce.map.memory.mb 一个MapTask可使用的资源上限（单位:MB），默认为1024。如果MapTask实际使用的资源量超过该值，则会被强制杀死。 mapreduce.reduce.memory.mb

2020-07-26 15:03:17 297

原创 mysql基础知识一

一、DDLSQL的分类DDL：数据定义语言，定义库，表结构等，包括create,drop,alter，show等DML：数据操作（Manipulation）语言，增删改查数据，包括insert,delete,update,select等 DRL/DQL：专指查询DCL：数据控制语言，权限，事务等管理。1、查看所有数据库show databases;2、指定使用某个数据库use 数据库名;3、创建数据库create database 数据库名; #使用my.ini中配置的服务器的编

2020-07-25 16:48:03 387

原创 redis.conf配置文件参数

2020-05-23 20:24:38 131

原创浅谈oracle trim（），ltrim（），rtrim（）的用法

（1）如图想去掉字符串最右边的逗号，可以使用如下语句select rtrim(a.id,',') from tempqq a 其中 rtrim（）函数的作用是把最右边右边符合rtrim(a.id,',')中‘’里面的字符去掉（2）如图想去掉字符串最左边的逗号，可以使用如下语句select ltrim(a.id,',') from tempqq a其中 rt...

2019-05-17 18:19:12 1559

原创如何设置ireport的text可以换行

第一步:勾选如图属性第二步:选择如图属性的属性值

2019-04-29 11:05:13 1182

原创处理plsql连接oracle数据库报ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务问题的方法

用plsql登录的oracle的时候出现这个错误解决方法有二个:第一:先检查,oracle数据的服务是否正常启动了如果没有启动则手动启动以上图标红的那两个服务第二:检查一下oracle的监听文件是否有你的实例信息没有的话就按如上图例子进行配置...

2019-04-25 10:46:56 1462

原创改变list类型的数据值

--想把list类型里面位置2和位置3的数据进行调换public class Dmeo3 { public static void main(String[] args) { Dmeo3 d=new Dmeo3(); List<Map<String, Object>> list=new ArrayList<>();...

2019-03-14 15:18:15 2384

原创浅谈map的遍历方式

Map<String, Object> map=new HashMap<String, Object>(); map.put("one", "one"); map.put("two", "two"); map.put("three", "three"); // (1)map的...

2019-03-14 15:09:43 101

原创 spoon 查询数据向一张表插入数据在更新另外两张表相应的字段

一个表输入，一个插入/更新，两个更新。1，首先要编辑要连接的数据库信息点击test 出现以下i提示的话说明数据库连接成功2，在’表输入‘中写入要查询的sql语句，3，在插入/更新填写相应的信息4，更新另外两张表的步骤...

2019-03-11 11:25:06 2881

原创如何恢复Oracle delete的数据

create table person(id varchar2(32),username varchar2(34),age number)--插入数据insert into person values('1','张三'，23);insert into person values('2','李四'，25)--有时候我们为了方便处理Oracle的垃圾数据会使用delete语句进行数...

2019-03-05 11:06:56 3035 1

原创 Oracle特有的update更新方法

create table person(id varchar2(32),username varchar2(34),age number)--插入数据insert into person values('1','张三'，23);insert into person values('2','李四'，25)--Oracle特有的update更新方法update person s...

2019-03-05 10:43:29 916

原创低版本的jrxml文件在高版本的的iReport打开修改，再次使用时却无法使用的解决办法

在高版本的iReport的工具-->选项如上图：选择Last version的相应的版本就可以解决问题了

2019-03-05 10:13:59 1137

c#石头剪刀布小游戏程序

空空如也