自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark整合hive配置

spark整合hive配置spark整合hive配置1.hive环境配置完成,略~~2.JAR包3.hive-site.xml4.测试spark整合hive配置1.hive环境配置完成,略~~2.JAR包cp {HIVE_HOME}/lib/mysql-connector-java-5.1.44-bin.jar {SPARK_HOME}/jars/cp {HIVE_HOME}/conf/hive-site.xml {SPARK_HOME}/conf3.hive-site.xml编辑{SPAR

2020-09-27 15:27:01 361

原创 centos7防火墙快速入门

linux centos7防火墙操作1.查看防火墙状态firewall-cmd --state如果显示 not running 表示已经关闭防火墙。2.关闭防火墙:systemctl stop firewalld.service3.禁止开机自启动:systemctl disable firewalld.service4.开启防火墙systemctl start firew...

2020-05-07 15:12:23 143

原创 hive调优之map task数量

第一步:根据输入文件超过mapred.max.split.size大小的,以block为单位(block的倍数)切分成不小于mapred.max.split.size大小的split。如果切分下来的大于mapred.min.split.size.per.node大小则生成一个split第二步:每个rack1上切分下的碎片进行合并,如果长度超过mapred.max.split.size时生成一个s...

2020-03-03 16:05:37 1915

原创 hive transform

hive transform python语法select transform( sessionid, datajson, ods_day ) using './pyenv.sh getVal.py' as ( sessionid, datajson, ods_day ) from dou...

2020-03-02 19:09:59 377

原创 史上最全git操作

git remote -v //查看远程库信息git remote rm origin //删除关联的origin的远程库git remote add origin [email protected]:doudou666/douyonghou.git //添加关联的仓库git push origin HEAD:refs/for/edw-data-process_1-0-123_BRANCH //发...

2019-09-11 18:00:40 176

原创 【linux】 sed、awk、cut、sort、uniq等命令

head [文件] -n 15 //默认是查看前10行tail [文件] -n 5tail -f [文件] //实时看cat [文件] | grep -n "jdslk" //加-n显示行号cat /etc/passwd | grep -v -n mapred:*cat a.txt | wc -l //统计-e 是编辑命令,用于多个编辑任务-f -h 帮助。-n 仅显示scri...

2019-09-04 17:22:31 259

原创 python爬虫-之前接的一家长租公寓的项目

长租公寓项目项目描述:公司想通过目前中国长租公寓的信息,比如:长租公寓品牌(比如自如、蛋壳、优逸客家等多个品牌)、房源位置(这里具体到省、市、区、小区名),房源个数,房屋设备、位置优势、租房价格等,去分析不同公寓品牌在不同城市的服务情况。从而去决策租房的消费情况和各个品牌的一个个走势。最终以热力图、折线图等呈现出来。项目流程:1.从网上抓取各个品牌的f房源信息2.进行数据预处理、清洗、去...

2019-02-25 10:42:40 233

原创 阿里云服务器centos7上部署Hadoop2.6

阿里云服务器centos7上部署Hadoop2.6------------------------core-site.xml<configuration> <!-- 指定HDFS老大(namenode)的通信地址 --> <property> <name>fs.defaultFS</name> ...

2018-11-09 16:07:43 215

原创 spark分布式解压工具

​ spark解压缩工具,目前支持tar、gz、zip、bz2、7z压缩格式,默认解压到当前路下,也支持自定义的解压输出路径。另外支持多种提交模式,进行解压任务,可通过自定义配置文件,作为spark任务的资源设定。

2024-01-10 19:24:52 654

原创 跟AI聊spark的运行机制,看来还得需要人类指导才能正确回答出来

2024-01-02 17:28:37 370

原创 Container exited with a non-zero exit code 13. Error file: prelaunch.err.

spark提交报这个错,主要原因是你在代码中指的的是local模式,二用spark-submit提交是指定了yarn集群模式,所以报这个错了,他找不到你的yarn集群。

2023-12-20 12:06:44 894

原创 flume安装配置

向本机的 44444 端口发送内容,在 Flume 监听页面观察接收数据情况。使用 Flume 监听一个端口,收集该端口数据,并打印到控制台。配置文件 flume-netcat-logger.conf。判断 44444 端口是否被占用。

2023-10-20 13:45:28 217

原创 hive3在升级

VERSION需要更改一下版本号。DBS需要更新数据库对应的路径。

2023-09-06 16:06:43 547

原创 安装hive3报表信息 Unknown column ‘B0.CTLG_NAME‘ in ‘where clause‘)

是因为hudi-utilities-bundle_2.11-0.7.0.jar 和 hive-standalone-metastore-3.1.0.jar依赖冲突导致,需要把hive/lib/hudi-utilities-bundle_2.11-0.7.0.jar 去掉,不然会默认采用hudi这个jar解析元数据的定义。

2023-07-21 12:03:03 153

原创 excel通过odbc访问excel

【代码】excel通过odbc访问excel。

2023-07-20 11:45:28 387

原创 sparkstream重启+删除任务日志

sparkstream定时清除日志和重启

2022-06-21 16:27:06 236 1

原创 DataX二次开发

项目背景:项目目的:详细设计:

2022-05-31 19:13:59 460

原创 Flink日志分析实战笔记

Flink日志分析实战笔记1.安装VM虚拟机2.安装centos7环境3.net网络配置TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesIPV6_FAILURE_FATAL=noIPV6_ADDR_GEN_MODE=stable-privacyNAM

2022-03-31 10:08:39 753

原创 excel计算一年第几周

=TEXT(B2,“yyyy”)&TEXT(WEEKNUM(TEXT(B2,“yyyy-mm-dd”),2),“00”)

2022-03-30 15:10:07 271

原创 idea配置datax源码python环境

打开project sturcure导入一个外部源添加python环境,找到python安装路径,点击ok选择Source,添加想要添加的模块5. 点击dependencies,配置python环境

2022-03-29 13:18:34 836

原创 记录一次生产环境丢数问题

描述:突然某天凌晨收到企业微信,电话,短信,轰炸式的报警,某个关联销售数据计算转化的应用层数据某个小时分片数据缺数(0条)过程:基于以上问题,先去看了调度器的任务,没出问题,再去上一层DW表有数,看看维度表是否被人删了(一般不可能),然而有数并没啥问题,,,有点怀疑人生,又看了一轮,流式任务正常,kafka正常,flume正常,dw层正常,还奇怪啊,订单数据也正常但是spark任务跑的很稳定并无报销,奇怪啊,遇到什么灵异事件了啊,查看了yarn日志没报错,会不会是磁盘坏了,验证没问题啊,,,,基本是能想到

2022-03-04 19:08:54 1163

原创 hive客户端报错Exception in thread “main“ java.lang.RuntimeException: org.apache.hadoop.hdfs.server.nameno

Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /tmp/hive/nitb-bak/e562f896-6129-424b-b8b2-fdd4298228a5. Name node is in safe mode.Resources are low on NN. Please add

2022-02-21 13:57:40 2985 2

原创 煮一壶清茶,悟一种人生

煮一壶清茶,悟一种人生奔牛 [兴县本地通](javascript:void(0)???? 今天曾几何时自己带着些许窘迫、些许无奈,但又满怀抱负之心来到北京,在北京留下一个个足迹。谈不上报效国家,但最起码给自己制定了发展目标。现在回想一下这几年,虽然没达到一百分,但还是有所收获。记得当时设想,等我老了,我可以跟我儿子说,爸年轻时骑个单车每天背个电脑穿梭在中关村,奔波在一堆码农队伍之中,你现在用的这个系统里面,就有爸当年写的一行代码……但是往往设想很美好,现实还是比较残酷。还记得刚来北京第一次,因为租住

2021-09-12 21:14:58 454

原创 bash: sz: command not found

yum install lrzsz

2021-04-11 23:48:40 2633

原创 ls: 无法访问/opt/module/spark-2.4.7-bin/lib/spark-assembly-*.jar: 没有那个文件或目录

ls: 无法访问/opt/module/spark-2.4.7-bin/lib/spark-assembly-*.jar: 没有那个文件或目录vim hive将/lib/spark-assembly-*.jar`替换成/jars/spark-*.jar`,就不会出现这样的问题 sparkAssemblyPath=`ls ${SPARK_HOME}/jars/spark-*.jar`

2021-03-11 15:33:46 388

原创 spark-env.sh配置

vim /conf/spark-env.sh#!/usr/bin/env bashexport JAVA_HOME=/opt/module/jdk1.8.0_221export SCALA_HOME=/opt/module/scala-2.13.5export HADOOP_HOME=/opt/module/hadoop-3.1.4export HADOOP_CONF_DIR=/opt/module/hadoop-3.1.4/etc/hadoopexport SPARK_MASTER_IP=n

2021-03-11 11:57:09 2861

原创 kafka集群安装

kafka集群安装一、下载wget https://downloads.apache.org/kafka/2.7.0/kafka_2.13-2.7.0.tgz二、解压tar -zxvf kafka_2.13-2.7.0.tgz -C /opt/module/三、配置vim ${KAFKA_HOME}/config/server.properties#broker的全局唯一编号,不能重复broker.id=01 #用来监听链接的端口,producer或consumer将在此端口建立连

2021-03-10 15:27:54 139

原创 zookeeper集群安装

zookeeper集群安装一、解压tar -zxvf apache-zookeeper-3.6.1-bin.tar.gz -C ../module/二、环境变量vi /etc/profile.d/zookeeper.sh export ZOOKEEPER_HOME=/export/servers/zookeeper-3.4.5-cdh5.14.0 export PATH=$PATH:$ZOOKEEPER_HOME/binsource /etc/profile三、配置相关cd

2021-03-10 11:22:45 84

原创 centos7开机自动启动设置

centos7开机自动启动设置一、脚本编辑vim hadoop_startup.sh#!/bin/sh#chkconfig: 2345 90 10#description:auto_runsleep 300hdfs --daemon start secondarynamenodehdfs --daemon start datanodeyarn-daemon.sh start nodemanager二、启动设置cp hadoop_startup.sh /etc/rc.d/init.

2021-03-10 11:07:55 331

原创 Linux免密配置

Linux免密配置一、生成私钥公钥ssh-keygen二、拷贝公钥到目标机ssh-copy-id slave2scp -r/rf 包名 ip:路径。例如scp -r /etc/hosts 192.168.15.155:/etc/

2021-03-05 20:57:59 142

原创 linux权限修改

linux权限修改一、chown修改目录或文件的用户名和用户组# chown 用户名:组名 文件路径chown root:root /datachown -R root:root /data二、chmod修改目录或文件的访问权限chmod -R 777 /home/linux三、groups# 查看当前用户所属组groups# 查看某个用户所属组groups work...

2021-03-04 21:17:19 127 2

原创 Azkaban安装和部署

Azkaban安装和部署一、下载下载地址:http://azkaban.github.io/downloads.html网盘地址:https://pan.baidu.com/s/1E4ijWCJrbHRp6BFPUDpA-A 提取码:9rwg二、解压tar -zxvf azkaban-web-server-2.5.0.tar.gztar -zxvf azkaban-executor-server-2.5.0.tar.gztar -zxvf azkaban-sql-script-2.5.0.ta

2021-03-01 19:02:33 170

原创 Flink安装和部署

Flink安装和部署[本地模式​] 一、下载wget https://mirrors.bfsu.edu.cn/apache/flink/flink-1.12.1/flink-1.12.1-bin-scala_2.11.tgz二、解压tar -zxvf flink-1.12.1-bin-scala_2.11.tgz -C ../software/三、配置bash脚本1.vim ~/.bash_profileexport FLINK_HOME=/usr/local/fli.

2021-03-01 18:14:51 94

原创 EasticSearch安装部署

EasticSearch安装部署1.下载curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.6.2.tar.gz2.配置配置elasticsearch.yml文件# vim ./config/elasticsearch.ymlcluster.name: my-applicationpath.data: /opt/software/elasticsearch-6.6.2/tmp/data

2021-03-01 17:40:37 145

原创 scala中=>符号

scala中=>符号1.函数类型用于连接参数类型和返回值类型,充当的连接符号def f1(x: Int, y: Int): Int = x + yvar f2: (Int, Int) => Int = f12.匿名函数"=>"是连接符号,符号左边是参数,右边是函数体var f3 = (x: Int, y: Int) => x + y3.case语句"=>"充当的是语法格式var x = 1var y = x match {case 1 => x

2021-02-25 12:55:46 413

原创 http-sever安装部署

http-sever安装部署一、安装nodejs环境1.需要nodejs环境,官网下载nodejs2.配置3.测试二、npm安装http-server三、运行安装http-server需要nodejs环境一、安装nodejs环境1.需要nodejs环境,官网下载nodejshttps://nodejs.org/dist/v12.19.0/node-v12.19.0-linux-x64.tar.xz2.配置 1>解压 sudo tar -xJvf node-$VERSION-$DIST

2020-10-13 11:13:00 697 7

原创 hive中操作hdfs命令

版本:Hadoop 2.7.4– 查看dfs帮助信息[root@hadp-master sbin]# dfsUsage: dfs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OWNER][:[GROUP]] PA

2020-10-10 13:50:33 3944

原创 hadoop hdfs命令

版本:Hadoop 2.7.4– 查看hadoop fs帮助信息[root@hadp-master sbin]# hadoop fsUsage: hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [O

2020-10-10 13:48:39 342

原创 hive存储格式大白话解析

一、两种存储格式1.行存储:以行为单位进行存储的格式。逻辑上可以假设为一座高楼大厦每一层为一行。那么这栋楼会特别高,但是比较窄。2.列存储:以行为单位进行存储的格式,逻辑上可以假设为一座高楼大厦每一层为一列,那么这栋楼会比较低,但是比较宽。二、优缺点1.行存储:**TEXTFILE SEQUENCEFILE**行存储的写入是一次性完成,消耗的时间比列存储少,并且能够保证数据的完整性;缺点是数据读取过程中会产生冗余数据,如果只有少量数据,此影响可以忽略;数量大可能会影响到数据的处理效率。比如:我

2020-09-30 16:28:11 128

原创 is running beyond virtual memory limits.【虚拟内存超出运行】

虚拟内存超出运行报错信息:Container [pid=30866,containerID=container_1600927953860_0003_02_000001] is running beyond virtual memory limits. Current usage: 117.3 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.yarn Container

2020-09-28 15:16:30 2580 1

SHELL剔除另一个的文件内容

采用shell剔除包含的内容,分别有三类文件A、B、C ,要实现D1=A-C D2=B-C D3=D2-D1

2019-09-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除