自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bigdata

大数据开发笔记

  • 博客(55)
  • 资源 (2)
  • 收藏
  • 关注

原创 清空文件内容的几种linux命令

清空文件内容的几种linux命令

2022-09-22 16:40:03 968 1

原创 SQL优化总结 - MySQL(2022最新版)

SQL优化总结 - MySQL(2022最新版)

2022-03-23 09:45:27 1280

原创 2022大数据面试笔记(更新中)

1.常用linux命令top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况ps-ef |grep redis查看进程状态 ps aux|grep redisdf -h查看磁盘的使用情况find / -name a.txt查找a.txt文件位置netstat显示网络状态tar -zxvf a.gzip解压文件2.脚本模板启停脚本#!/bin/bashcase $1 inecho "启动集群""start")ssh hadoop10..

2022-03-01 20:50:14 2438

原创 IDEA添加maven依赖方法

1.打开网站https://mvnrepository.com/,查找已知的依赖比如 fastjson。2.选择maven依赖的来源和版本比如,fastjson1.2.75。3.复制网页中的maven依赖,添加到idea中的xml文件中。<!-- https://mvnrepository.com/artifact/com.alibaba/fastjson --><dependency> <groupId>com.alibaba</gro

2022-02-19 11:42:48 4945

原创 datagrip中列选模式

列选模式按住键盘Alt键,同时按下鼠标左键拖动,能选择多列,Ctrl+shift+>>快捷键选择相应字段,最后就拷贝黏贴等操作多光标模式在编辑sql的时候,可能需要同时输入或同时删除一些字符,按下alt+shift,同时鼠标在不同的位置点击,会出现多个光标快速复制表字段名...

2022-01-30 19:59:04 2301

原创 json格式化技巧

1.用sublime text3将带有注释的json,去掉注释,方便json格式化。

2022-01-29 14:23:29 948

原创 Linux系统查看和修改MySQL数据库字符集命令

show variables like '%char%';show global variables like '%char%';SET character_set_client = utf8;SET character_set_server=utf8;SET character_set_results = utf8;SET character_set_connection = utf8;SET character_set_database=utf8;SET GLOBAL characte.

2022-01-22 23:57:04 740

原创 IDEA中创建常用代码模板

sc是SparkContext// 1. 创建配置对象 val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local[*]") // 2. 创建sc对象 val sc = new SparkContext(conf) // 3. 使用sc进行编程 // 4. 关闭sc sc.stop()cfpcollect().foreach(pr

2022-01-05 21:29:56 455

原创 IDEA报错Cannot download sources解决方法

点击Download sources时会提示报错,如下所示:  解决方案:  在Terminal输入“mvn dependency:resolve -Dclassifier=sources”,然后再下载源码就可以了。

2021-12-28 16:28:25 3662 2

原创 大数据开发笔记

大数据开发组件 HDFS[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.shhttp://hadoop102:9870/explorer.html#/Yarn[atguigu@hadoop102 hadoop-3.1.3]$ sbin/stop-yarn.sh[atguigu@hadoop103 hadoo...

2021-12-14 21:26:12 634 1

原创 Mysql学习笔记2022

MySQL常见问题解答

2022-06-15 21:14:30 168

原创 2022oracle数据库安装及使用

2022oracle数据库安装及使用

2022-06-11 22:04:05 320

原创 Hadoop“WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform”

export HADOOP_COMMON_LIB_NATIVE_DIR=/opt/ha/hadoop-3.1.3/lib/nativeexport HADOOP_OPTS="-Djava.library.path=/opt/ha/hadoop-3.1.3/lib"running with master 'yarn' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.export HADOOP_CONF_.

2022-02-17 22:48:58 767

转载 Hive中的函数简单使用

Hive中的lag和lead函数简单使用_s小菜鸟的博客-CSDN博客_lead函数

2022-02-06 20:54:56 64

转载 Hive列转行 (Lateral View + explode)详解

需求:《疑犯》 悬疑,动作,科幻,爱情《lie to me》 悬疑,警匪,动作,心理,剧情《战狼》 战争,动作,灾难转成如下格式:《疑犯》 悬疑《疑犯》 动作《疑犯》 科幻《疑犯》 爱情《lie to me》 悬疑《lie to me》 警匪《lie to me》 动作《lie to me》 心理《lie to me》 剧情《战狼》 战争《战狼》 动作《战狼》 灾难思路解析:explode函数:处理map结构的字段,将数组转换成多行step1:建表movie

2022-02-03 20:09:22 450

转载 CTE和子查询

CTE 是一个临时的结果集,相比于subquery子查询来说,CTE可读性更好,能实现递归查询,而且不浪费储存空间,不需要维护。缺点是只能在当前的query使用。接下来看一个简单例子来了解CTE(目的是得到2019年邮件的发送数量和退订数量):1 得到emaildelivered这个表格中的数据,存放在 delivered 这个CTE中2 得到emailunsubscribe 这个表格中的数据,存放在unsubs这个CTE中3 引用CTE,将CTE作为临时结果集(可以理解为类似表)输出需要的

2022-01-30 21:07:06 573

转载 服务端高并发分布式架构演进之路

作者:huashiou链接:https://segmentfault.com/a/11900000186261631、概述本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。2、基本概念在介绍架构之前,为了避免部分读者对架构设计中的一些概念不了解,下面对几个最基础的概念进行介绍。1)什么是分布式?系统中的多个模块在不同服务器上部署,即可称为分.

2022-01-07 22:00:00 120

原创 git报错,远程克隆和更新不下来解决方法

报错:error: RPC failed; curl 18 transfer closed with outstanding read data remainingfatal: The remote end hung up unexpectedlyfatal: early EOFfatal: unpack-objects failed解决方法:更改buffer大小Gitconfig --global http.postBuffer 524288000需要注意的是http.postBu.

2022-01-06 17:26:53 757

转载 解决maven仓库出现.lastUpdated文件导致jar下载失败

.lastUpdated文件出现的原因jar包自身的问题(groupId发生改变或artifactId改变,所需要的版本不存在等),这是最重要的一点,很多人找了半天问题,最后才发现自己找的jar本来就不存在。 网络问题,无法下载对应的jar。 maven中setting配置的中央仓库镜像出现问题,没有生效或镜像已失效。解决办法删除.lastUpdated文件,切换网络(可选择手机热点)重新下载。 直接访问 阿里云云效 Maven进行文件搜索,根据groupId和artifactId查

2022-01-06 15:36:55 2333

原创 Spark 学习路线

参考文章:Spark 学习资源 - 知乎

2022-01-05 23:45:46 821

原创 Flink学习路线

参考文章:Flink学习路线 - 知乎

2022-01-05 23:23:09 697

原创 IDEA中spark_streaming的pom.xml文件解读

2.12是scala版本,3.0.0是spark版本 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.0.0</version.

2022-01-05 21:18:38 275

原创 IDEA更改日志打印级别

将log4j.properties文件添加到resources里面,就能更改打印日志的级别为errorlog4j.rootLogger=error, stdout,Rlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d{yyyy

2022-01-05 20:39:40 1865

原创 IDEA配置github

Git连接GitHub仓库详解 - 段明 - 博客园

2021-12-30 23:42:14 211

原创 大数据开发之Spark笔记

在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD、从外部存储创建RDD、从其他RDD创建。

2021-12-30 22:15:00 485

原创 IDEA中scala生成变量后自动勾选显示类型

IDEA声明变量后,默认不显示推断类型:点击Settings设置自动勾选点击Settings设置自动勾选点击红框中的settings,进入设置,点击Tpye annotations下次声明变量时,推断的类型自动生成。idea中的设置方法...

2021-12-30 19:32:23 435

原创 大数据开发之WordCount编写

2021-12-30 08:44:55 417

原创 技术问题清单

maven 项目查看jar源码

2021-12-28 23:11:29 157

原创 如何在idea中查看jar包源码

参考文章:1.如何在idea中查看jar包源码2.Idea打包jar 及jar包反编译为代码的多种方法_开发猫-CSDN博客_怎么将jar包转换为代码3.https://blog.csdn.net/liangllhahaha/article/details/1030332664.Eclipse/Intellij IDEA查看jar包的源码和注释 - wenlj的个人空间 - OSCHINA - 中文开源技术交流社区5.IDEA—使用插件反编译jar包 - Andya_net - 博客园

2021-12-28 00:10:43 6385

原创 推荐几个好用的IDEA插件,Java开发者撸码利器。

Search In Repository平时我们如果要依赖一个第三方jar包,但是不知道它的maven/gradle的坐标。我们该怎么做?搓点的做法基本上就是baidu了,稍微高级点的就是到中央仓库去查下,最新版本的坐标是什么。然后复制下来,贴到pom里去。这款插件,就无需你来回跳转,直接把中央仓库的查找集成到了Idea里面。你只需要打开这款插件,输入jar包的名字或者gav关键字,就能查到到这个jar包所有的版本,然后可以直接复制gav坐标。方便又快捷,干净又卫生!参考文章:装了这几个

2021-12-27 23:58:13 421 1

原创 HA模式下安装spark-yarn

0)停止Standalone模式下的spark集群[atguigu@hadoop102 spark-standalone]$ sbin/stop-all.sh[atguigu@hadoop102 spark-standalone]$ zk.sh stop[atguigu@hadoop103spark-standalone]$ sbin/stop-master.sh1)为了防止和Standalone模式冲突,再单独解压一份spark[atguigu@hadoop102 software].

2021-12-27 14:00:24 95

原创 hadoop的8032 failed on connection exception连接不上

增加yarn-site.xml <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>

2021-12-27 13:48:53 3008

原创 2021 IDEA的操作技巧

1.快速生成main方法并打印用psvm命令能快速生成main方法。(也可以直接输入main+回车) 用sout命令能快速生成打印方法System.out.println。两个命令相结合的效果如下: 2.给new出来的对象快速赋值在new出来的对象后面加上.var,就能实现快速赋值3.快速for循环1.基本变量比如:int,long,byte等,在需要进行for循环遍历的变量后加上.for,就能快速实现for循环功能2.集合在需要进行forEach循环遍历的集合后加上.

2021-12-25 23:20:36 566

原创 IDEA 运行Scala程序出现无法加载主类

如果scala环境变量没有问题,并且idea scala插件已安装那么你可以试试这个方法选择项目根目录点击右键—>Mark Directory As —>Sources Root

2021-12-24 22:49:48 1128 1

原创 大数据开发之Scala笔记

变量名var 变量名 [: 变量类型]= 初始值 var i:Int = 10val常量名 [: 常量类型]= 初始值 val j:Int = 20注意:能用常量的地方不用变量字符串输出1)基本语法(1)字符串,通过+号连接(2)重复字符串拼接(3)printf用法:字符串,通过%传值。(4)字符串模板(插值字符串):通过$获取变量值Java:==比较两个变量本身的值,即两个对象在内存中的首地址;equals比较字符串中所包含的内容是否相同。S...

2021-12-18 11:20:54 1451 2

原创 大数据开发之阅读源码

查看源码 ctrl + 左键单击 查看源码快捷键 alt + 方向左键 放回上一级快捷键 alt + 方向左键返回上一级CTRL +n 查找相关的类或者对象阅读大数据组件源码的进化之路 - 王大咩的图书馆 - 博客园...

2021-12-17 18:26:19 811

原创 大数据面试笔记

2021-12-17 18:04:00 924

原创 大数据开发之面试题

字节跳动大数据开发面试题-附答案_yuan_more的博客-CSDN博客_字节跳动大数据面试题

2021-12-16 23:58:27 241

原创 大数据开发之常用软件

IntelliJ IDEA 2021.3 为开发者打造最高效智能的开发工具DataGrip 2021.2.2非常实用专业的数据库管理编程软件Navicat 15 for MySQL针对MySQL数据库而开发的第三方mysql管理工具Xshell7是一款最好用的Linux远程连接工具Xftp7是一种灵活且轻量级的SFFT/FTP客户端Sublime Text 3一款跨平台代码编辑器DBeaver是知名的通用数据库管理客户端VMware Workstation Pro是一个“虚...

2021-12-16 23:27:27 1631

原创 大数据开发之开发环境

Linux选择Centenos7Download Linux | Linux.orgJdk选择 jdk1.8Java Downloads | OracleHadoop选择Hadoop3.1.3Apache Hadoopzookeeper选择apache-zookeeper-3.5.7-bin.tar.gzApache ZooKeeperHive选择apache-hive-3.1.2-bin.tar.gzDownloadsFlume选择apache-flume-1...

2021-12-16 22:19:29 1178 3

idea环境设置.rar

idea环境设置.rar

2021-10-17

sqlyog_x64.zip

sqlyog_x64.zip

2021-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除