侠客刀-CSDN博客

原创 spark整合hive配置

spark整合hive配置spark整合hive配置1.hive环境配置完成，略~~2.JAR包3.hive-site.xml4.测试spark整合hive配置1.hive环境配置完成，略~~2.JAR包cp {HIVE_HOME}/lib/mysql-connector-java-5.1.44-bin.jar {SPARK_HOME}/jars/cp {HIVE_HOME}/conf/hive-site.xml {SPARK_HOME}/conf3.hive-site.xml编辑{SPAR

2020-09-27 15:27:01 361

原创 centos7防火墙快速入门

linux centos7防火墙操作1.查看防火墙状态firewall-cmd --state如果显示 not running 表示已经关闭防火墙。2.关闭防火墙：systemctl stop firewalld.service3.禁止开机自启动：systemctl disable firewalld.service4.开启防火墙systemctl start firew...

2020-05-07 15:12:23 143

原创 hive调优之map task数量

第一步：根据输入文件超过mapred.max.split.size大小的，以block为单位（block的倍数）切分成不小于mapred.max.split.size大小的split。如果切分下来的大于mapred.min.split.size.per.node大小则生成一个split第二步：每个rack1上切分下的碎片进行合并，如果长度超过mapred.max.split.size时生成一个s...

2020-03-03 16:05:37 1915

原创 hive transform

hive transform python语法select transform( sessionid, datajson, ods_day ) using './pyenv.sh getVal.py' as ( sessionid, datajson, ods_day ) from dou...

2020-03-02 19:09:59 377

原创史上最全git操作

git remote -v //查看远程库信息git remote rm origin //删除关联的origin的远程库git remote add origin [email protected]:doudou666/douyonghou.git //添加关联的仓库git push origin HEAD:refs/for/edw-data-process_1-0-123_BRANCH //发...

2019-09-11 18:00:40 176

原创【linux】 sed、awk、cut、sort、uniq等命令

head [文件] -n 15 //默认是查看前10行tail [文件] -n 5tail -f [文件] //实时看cat [文件] | grep -n "jdslk" //加-n显示行号cat /etc/passwd | grep -v -n mapred:*cat a.txt | wc -l //统计-e 是编辑命令，用于多个编辑任务-f -h 帮助。-n 仅显示scri...

2019-09-04 17:22:31 259

原创 python爬虫-之前接的一家长租公寓的项目

长租公寓项目项目描述：公司想通过目前中国长租公寓的信息，比如：长租公寓品牌（比如自如、蛋壳、优逸客家等多个品牌）、房源位置（这里具体到省、市、区、小区名），房源个数，房屋设备、位置优势、租房价格等，去分析不同公寓品牌在不同城市的服务情况。从而去决策租房的消费情况和各个品牌的一个个走势。最终以热力图、折线图等呈现出来。项目流程：1.从网上抓取各个品牌的f房源信息2.进行数据预处理、清洗、去...

2019-02-25 10:42:40 233

原创阿里云服务器centos7上部署Hadoop2.6

阿里云服务器centos7上部署Hadoop2.6------------------------core-site.xml<configuration>  <property> <name>fs.defaultFS</name> ...

2018-11-09 16:07:43 215

原创 spark分布式解压工具

spark解压缩工具，目前支持tar、gz、zip、bz2、7z压缩格式，默认解压到当前路下，也支持自定义的解压输出路径。另外支持多种提交模式，进行解压任务，可通过自定义配置文件，作为spark任务的资源设定。

2024-01-10 19:24:52 654

原创跟AI聊spark的运行机制，看来还得需要人类指导才能正确回答出来

2024-01-02 17:28:37 370

原创 Container exited with a non-zero exit code 13. Error file: prelaunch.err.

spark提交报这个错，主要原因是你在代码中指的的是local模式，二用spark-submit提交是指定了yarn集群模式，所以报这个错了，他找不到你的yarn集群。

2023-12-20 12:06:44 894

原创 flume安装配置

向本机的 44444 端口发送内容，在 Flume 监听页面观察接收数据情况。使用 Flume 监听一个端口，收集该端口数据，并打印到控制台。配置文件 flume-netcat-logger.conf。判断 44444 端口是否被占用。

2023-10-20 13:45:28 217

原创 hive3在升级

VERSION需要更改一下版本号。DBS需要更新数据库对应的路径。

2023-09-06 16:06:43 547

原创安装hive3报表信息 Unknown column ‘B0.CTLG_NAME‘ in ‘where clause‘)

是因为hudi-utilities-bundle_2.11-0.7.0.jar 和 hive-standalone-metastore-3.1.0.jar依赖冲突导致，需要把hive/lib/hudi-utilities-bundle_2.11-0.7.0.jar 去掉，不然会默认采用hudi这个jar解析元数据的定义。

2023-07-21 12:03:03 153

原创 excel通过odbc访问excel

【代码】excel通过odbc访问excel。

2023-07-20 11:45:28 387

原创 sparkstream重启+删除任务日志

sparkstream定时清除日志和重启

2022-06-21 16:27:06 236 1

原创 DataX二次开发

项目背景：项目目的：详细设计：

2022-05-31 19:13:59 460

原创 Flink日志分析实战笔记

Flink日志分析实战笔记1.安装VM虚拟机2.安装centos7环境3.net网络配置TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=noIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesIPV6_FAILURE_FATAL=noIPV6_ADDR_GEN_MODE=stable-privacyNAM

2022-03-31 10:08:39 753

原创 excel计算一年第几周

=TEXT(B2,“yyyy”)&TEXT(WEEKNUM(TEXT(B2,“yyyy-mm-dd”),2),“00”)

2022-03-30 15:10:07 271

原创 idea配置datax源码python环境

打开project sturcure导入一个外部源添加python环境，找到python安装路径，点击ok选择Source，添加想要添加的模块5. 点击dependencies，配置python环境

2022-03-29 13:18:34 836

原创记录一次生产环境丢数问题

描述：突然某天凌晨收到企业微信，电话，短信，轰炸式的报警，某个关联销售数据计算转化的应用层数据某个小时分片数据缺数（0条）过程：基于以上问题，先去看了调度器的任务，没出问题，再去上一层DW表有数，看看维度表是否被人删了（一般不可能），然而有数并没啥问题，，，有点怀疑人生，又看了一轮，流式任务正常，kafka正常，flume正常，dw层正常，还奇怪啊，订单数据也正常但是spark任务跑的很稳定并无报销，奇怪啊，遇到什么灵异事件了啊，查看了yarn日志没报错，会不会是磁盘坏了，验证没问题啊，，，，基本是能想到

2022-03-04 19:08:54 1163

原创 hive客户端报错Exception in thread “main“ java.lang.RuntimeException: org.apache.hadoop.hdfs.server.nameno

Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /tmp/hive/nitb-bak/e562f896-6129-424b-b8b2-fdd4298228a5. Name node is in safe mode.Resources are low on NN. Please add

2022-02-21 13:57:40 2985 2

原创煮一壶清茶，悟一种人生

煮一壶清茶，悟一种人生奔牛 [兴县本地通](javascript:void(0)???? 今天曾几何时自己带着些许窘迫、些许无奈，但又满怀抱负之心来到北京，在北京留下一个个足迹。谈不上报效国家，但最起码给自己制定了发展目标。现在回想一下这几年，虽然没达到一百分，但还是有所收获。记得当时设想，等我老了，我可以跟我儿子说，爸年轻时骑个单车每天背个电脑穿梭在中关村，奔波在一堆码农队伍之中，你现在用的这个系统里面，就有爸当年写的一行代码……但是往往设想很美好，现实还是比较残酷。还记得刚来北京第一次，因为租住

2021-09-12 21:14:58 454

原创 bash: sz: command not found

yum install lrzsz

2021-04-11 23:48:40 2633

原创 ls: 无法访问/opt/module/spark-2.4.7-bin/lib/spark-assembly-*.jar: 没有那个文件或目录

ls: 无法访问/opt/module/spark-2.4.7-bin/lib/spark-assembly-*.jar: 没有那个文件或目录vim hive将/lib/spark-assembly-*.jar`替换成/jars/spark-*.jar`，就不会出现这样的问题 sparkAssemblyPath=`ls ${SPARK_HOME}/jars/spark-*.jar`

2021-03-11 15:33:46 388

原创 spark-env.sh配置

vim /conf/spark-env.sh#!/usr/bin/env bashexport JAVA_HOME=/opt/module/jdk1.8.0_221export SCALA_HOME=/opt/module/scala-2.13.5export HADOOP_HOME=/opt/module/hadoop-3.1.4export HADOOP_CONF_DIR=/opt/module/hadoop-3.1.4/etc/hadoopexport SPARK_MASTER_IP=n

2021-03-11 11:57:09 2861

原创 kafka集群安装

kafka集群安装一、下载wget https://downloads.apache.org/kafka/2.7.0/kafka_2.13-2.7.0.tgz二、解压tar -zxvf kafka_2.13-2.7.0.tgz -C /opt/module/三、配置vim ${KAFKA_HOME}/config/server.properties#broker的全局唯一编号，不能重复broker.id=01 #用来监听链接的端口，producer或consumer将在此端口建立连

2021-03-10 15:27:54 139

原创 zookeeper集群安装

zookeeper集群安装一、解压tar -zxvf apache-zookeeper-3.6.1-bin.tar.gz -C ../module/二、环境变量vi /etc/profile.d/zookeeper.sh export ZOOKEEPER_HOME=/export/servers/zookeeper-3.4.5-cdh5.14.0 export PATH=$PATH:$ZOOKEEPER_HOME/binsource /etc/profile三、配置相关cd

2021-03-10 11:22:45 84

原创 centos7开机自动启动设置

centos7开机自动启动设置一、脚本编辑vim hadoop_startup.sh#!/bin/sh#chkconfig: 2345 90 10#description:auto_runsleep 300hdfs --daemon start secondarynamenodehdfs --daemon start datanodeyarn-daemon.sh start nodemanager二、启动设置cp hadoop_startup.sh /etc/rc.d/init.

2021-03-10 11:07:55 331

原创 Linux免密配置

Linux免密配置一、生成私钥公钥ssh-keygen二、拷贝公钥到目标机ssh-copy-id slave2scp -r/rf 包名 ip:路径。例如scp -r /etc/hosts 192.168.15.155:/etc/

2021-03-05 20:57:59 142

原创 linux权限修改

linux权限修改一、chown修改目录或文件的用户名和用户组# chown 用户名:组名文件路径chown root:root /datachown -R root:root /data二、chmod修改目录或文件的访问权限chmod -R 777 /home/linux三、groups# 查看当前用户所属组groups# 查看某个用户所属组groups work...

2021-03-04 21:17:19 127 2

原创 Azkaban安装和部署

Azkaban安装和部署一、下载下载地址:http://azkaban.github.io/downloads.html网盘地址:https://pan.baidu.com/s/1E4ijWCJrbHRp6BFPUDpA-A 提取码：9rwg二、解压tar -zxvf azkaban-web-server-2.5.0.tar.gztar -zxvf azkaban-executor-server-2.5.0.tar.gztar -zxvf azkaban-sql-script-2.5.0.ta

2021-03-01 19:02:33 170

原创 Flink安装和部署

Flink安装和部署[本地模式] 一、下载wget https://mirrors.bfsu.edu.cn/apache/flink/flink-1.12.1/flink-1.12.1-bin-scala_2.11.tgz二、解压tar -zxvf flink-1.12.1-bin-scala_2.11.tgz -C ../software/三、配置bash脚本1.vim ~/.bash_profileexport FLINK_HOME=/usr/local/fli.

2021-03-01 18:14:51 94

原创 EasticSearch安装部署

EasticSearch安装部署1.下载curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.6.2.tar.gz2.配置配置elasticsearch.yml文件# vim ./config/elasticsearch.ymlcluster.name: my-applicationpath.data: /opt/software/elasticsearch-6.6.2/tmp/data

2021-03-01 17:40:37 145

原创 scala中=＞符号

scala中=>符号1.函数类型用于连接参数类型和返回值类型,充当的连接符号def f1(x: Int, y: Int): Int = x + yvar f2: (Int, Int) => Int = f12.匿名函数"=>"是连接符号，符号左边是参数，右边是函数体var f3 = (x: Int, y: Int) => x + y3.case语句"=>"充当的是语法格式var x = 1var y = x match {case 1 => x

2021-02-25 12:55:46 413

原创 http-sever安装部署

http-sever安装部署一、安装nodejs环境1.需要nodejs环境，官网下载nodejs2.配置3.测试二、npm安装http-server三、运行安装http-server需要nodejs环境一、安装nodejs环境1.需要nodejs环境，官网下载nodejshttps://nodejs.org/dist/v12.19.0/node-v12.19.0-linux-x64.tar.xz2.配置 1>解压 sudo tar -xJvf node-$VERSION-$DIST

2020-10-13 11:13:00 697 7

原创 hive中操作hdfs命令

版本：Hadoop 2.7.4– 查看dfs帮助信息[root@hadp-master sbin]# dfsUsage: dfs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OWNER][:[GROUP]] PA

2020-10-10 13:50:33 3944

原创 hadoop hdfs命令

版本：Hadoop 2.7.4– 查看hadoop fs帮助信息[root@hadp-master sbin]# hadoop fsUsage: hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [O

2020-10-10 13:48:39 342

原创 hive存储格式大白话解析

一、两种存储格式1.行存储：以行为单位进行存储的格式。逻辑上可以假设为一座高楼大厦每一层为一行。那么这栋楼会特别高，但是比较窄。2.列存储：以行为单位进行存储的格式，逻辑上可以假设为一座高楼大厦每一层为一列，那么这栋楼会比较低，但是比较宽。二、优缺点1.行存储：**TEXTFILE SEQUENCEFILE**行存储的写入是一次性完成，消耗的时间比列存储少，并且能够保证数据的完整性；缺点是数据读取过程中会产生冗余数据，如果只有少量数据，此影响可以忽略；数量大可能会影响到数据的处理效率。比如：我

2020-09-30 16:28:11 128

原创 is running beyond virtual memory limits.【虚拟内存超出运行】

虚拟内存超出运行报错信息：Container [pid=30866,containerID=container_1600927953860_0003_02_000001] is running beyond virtual memory limits. Current usage: 117.3 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.yarn Container

2020-09-28 15:16:30 2580 1

SHELL剔除另一个的文件内容

空空如也