自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 Spark的安装(Standalone模式,高可用模式,基于Yarn模式)

@[TOC] spark安装 作者: ℡XSs???? 一、spark的Standalone模式安装1、将spark-2.2.0-bin-hadoop2.7.tgz 上传到/usr/local/spark/下,然后解压-C 是用大写C解压到指定目录2、进入到conf中修改名字改为 .sh结尾的3、编辑spark-env.sh...

2020-02-16 11:25:20 1580

原创 Flume+Kafka+SparkStream+Hbase+mysql+Hive和Hbase之间映射

前言:我是结合自己所学,然后在网上搜资料最后写成的,中间遇到得多问题,不过最后都解决了,我把其中的细节提前说明一下:1、从SparkStream往Hbase上传输数据的时候,Hbase里面的表和行键,我都是是手动建2、从SparkStream往mysql上传输数据的时候,我也是提前先在mysql中建好相应的表并且设置好字段这篇文章,如果有问题或者你们有更简单的办法,请留言,互相交流!!...

2020-02-04 21:37:34 757

原创 套裝二《知識點匯總》

一、flume中的事务ISR副本同步机制(副本同步队列)

2020-04-13 21:19:31 317

原创 创建hive表,指定存储和压缩格式

一、指定存储格式是ORC,压缩格式是orc默认的ZLIB压缩建表语句create table log_orc_none(track_time string,url string,session_id string,referer string,ip string,end_user_id string,city_id string)row format delimited fi...

2020-04-12 22:02:43 9004 1

原创 Sqoop采集数据的时候出现数据倾斜解决方法(--split-by --num-mappers)

注意:–split-by 后面要是int类型,并且是连续递增的,那么sqpli-by 会平分的很均匀,要是不是自增的那么有的maptask还是很忙,而有的maptask则不是很忙–num-mappers 后面设置的maptask数目大于1的话,那么–split-by 后面必须跟字段,因为–num-mappers 后面要是1的话,那么–split-mappers 后面跟不跟字段都没有意义,因...

2020-04-12 11:55:34 1780 3

原创 VM虚拟机扩容

文章目录一、配置二、原因三、开始扩容3.1、扩充虚拟机硬盘大小3.2、扩充虚拟机的分区3.3、真正分配资源3.4、查看结果看是否扩充成功(之前是98%现在是62%)一、配置CentOs-7vm15二、原因df -hl查看虚拟机内存的时候,空间不足,导致好多操作不行Linux查看文件大小的简单指令三、开始扩容3.1、扩充虚拟机硬盘大小3.2、扩充虚拟机的分区# 1、查看当...

2020-04-10 20:40:01 509 3

原创 JAVA-多线程线程池 简单介绍

一、为什么要用线程池1、通过复用线程池中的线程,来减少线程创建和销毁的性能开销2、对线程进行一些维护和管理,比如定时开始,周期执行,开发数控制等等二、线程参数意义当任务数 超过 核心线程数时,会将超过的任务放到队列中,只会创建三个线程重复使用corePoolSize 表示核心线程数三、线程中的方法join方法加入join() 方法之后,主线程启动子线程之后,会等待子线程执行完毕...

2020-04-10 16:26:21 199

原创 套裝一《知識點匯總》

一、为什么不用hadoop,要用Maxcompute?简单介绍二、zookeeper中znod的类型2.1、类型临时节点(EPHEMERAL):临时创建的,会话结束节点自动被删除,也可以手动删除,临时节点不能拥有子节点临时顺序节点(EPHEMERAL_SEQUENTIAL):具有临时节点特征,但是它会有序列号,分布式锁中会用到该类型节点持久节点(PERSISTENT):创建后永久...

2020-04-07 23:11:26 270 1

原创 Spark中flatMap 和 map的区别

private val value1: RDD[Array[String]] = value.map(_.split(","))# flatMap 简而言之flatMap起到的作用就是压缩的,吧以 逗号切割之后的,又重新弄到一块private val value2: RDD[String] = value.flatMap(_.split(","))...

2020-04-03 15:06:46 344

原创 byte数组转换成String

byte[] body = event.getBody(); String s = new String(body, Charset.forName("UTF-8"));

2020-03-30 15:26:13 12179

原创 編譯源代碼生成zip壓縮包

今天從GitHub上下載了kafkaManager的源代碼,進行編譯并且成功了,不過這是我第一次試,如果下次用今天的方法還編譯成功的話,我會把開頭這幾句話刪掉!!步驟1、從GitHub上下載了源代碼2、用sbt编译2.1、用yum先把sbt安装上curl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.repomv bint...

2020-03-29 22:11:24 489

原创 Sqoop入门指南

测试数据库连接bin/sqoop list-databases --connect jdbc:mysql://hdp20-04:3306/app --username root --password rootsqoop create-hive-table --connect jdbc:mysql://hdp20-04:3306/app --table uv_info --usernam...

2020-03-29 19:03:37 230

原创 namenode一直是安全模式退不出去

首先首先查看一下是否打开安全模式hdfs dfsadmin -safemode get然后根据查看的情况(ON 表示安全模式打开),进行安全模式关闭hdfs dfsadmin -safemode leave具体步骤如下其次 如果关闭安全模式之后还是不能用查看内存情况df -hl这是内存清除之后的,内存清除之前是 100% 所以才会 一直是安全模式确定是因为内存原...

2020-03-28 11:48:42 3680 3

原创 Linux查看文件大小的简单指令

查看虚拟机内存状态df -hl查看Linux目录大小du -sh /*查看当前目录下的总大小du -sh查看当前目录下的文件大小du -sh /home/*du -h -x --max-depth=1ls 简单指令查看隐藏文件(文件前缀带 点的)ls -al 当前目录下的文件按照大小(k/M/G)降序排序ls -Shl以 k/M/G 的...

2020-03-28 11:48:00 36243 1

原创 NetworkManager服务 的影响

文章目录一、hadoop集群运行中 namenode 突然不见了第一种报错表现 :第二种报错表现:解决方法1、关闭hadoop集群2、关闭防火墙3、正确配置core-site.xml4、关闭NetworkManager服务5、正确配置/etc/hosts6、重启hadoop集群二、service network start 重启网络报错,ping 不同百度报错表现解决方法关闭Networ...

2020-03-25 16:11:48 2755

原创 大数据的数据仓库是用来当停车位当嘛?

文章目录一、数据仓库 简介1.1、用途1.2、数据仓库跟mysql和hive的區別1.2.1、相同点:1.2.2、不同点:1.2.3、实际区别(是OLTP(联机事务)与OLAP(联机分析处理)的区别。)1.3、四大特點1.3.1、数据仓库的数据是面向主题的1.3.2、数据仓库的数据是集成的1.3.3、数据仓库的数据是不可更新的1.3.4、数据仓库的数据是随时间不断变化的1.4、数据仓库的表结构的设...

2020-03-23 16:47:33 507

原创 Hadoop集群 之《伪分布集群搭建》

文章目录版本:1、先配置JAVA_HOME和HADOOP_HOME在/etc/profile的配置2、hadoop的 七大配置文件2,1、后缀是 env.sh 的2.2、hdfs-site.xml2.3、core-site.xml2.4、cp ./mapred-site.xml.template ./mapred-site.xml2.5、yarn-site.xml3、搭建过程中更能会报...

2020-03-23 14:23:14 279

原创 Hadoop集群 之《完全分布集群搭建》

文章目录版本1、以三台虚拟机为例2、三台虚拟机的 ip地址, 修改ip地址的路径: /etc/sysconfig/network-scripts3、vim /etc/hosts,在三个连接(node132,node133,node134)里面设置要关联的三个连接ip和连接主机名,**只有这个设置之后才能在三个之间互相跳转**4、在第三步编辑hosts基础上,再在每个里面设置s...

2020-03-23 14:22:35 365 2

原创 ParseException line 2:11 cannot recognize input near ',' 'timeStamp' ',' in lateral view (state=420

報錯截圖問題分析原因是因爲別名是關鍵詞(就我圈住的那個)

2020-03-20 19:30:45 1502

原创 简单解析json

# json{"id":1,"age":18}# hive建表语句create table json(name string);# 加载数据进 json 表load data local inpath "/root/data/hive/a.txt" into table json;# 数据展示+--------------------+| json.name |...

2020-03-20 14:56:17 118

原创 Dstream的三个特殊原语

Dstream 上的原语跟RDD相似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些特殊的 原语updateStateByKey()//从kafka中获取数据(格式是 a hello joy)进行词频统计,并且前一次统计的结果跟下一次的结果进行累加,一直叠加//用 updateStateByKey 实现累加de...

2020-03-15 15:18:48 164

原创 数组内部排序(交换式排序)

冒泡排序(Bubble Sorting) int[] a = {1,4,2,5,10,3}; // 中间变量 int tmp=0; //冒泡排序 //1、比较的次数 一共有6个数,所以只需比较5次即可 for(int i=0;i<a.length-1;i++){ /...

2020-03-15 12:08:44 365

原创 数组内部排序(选择式排序)

我发送到发送到

2020-03-15 11:47:24 318

原创 数组 空指针错误 对象数组在定义后,赋值时需要再次为每个对象分配空间(new 对象)

Dog[] d=new Dog[4];//获取你输入的信息 InputStreamReader ins = new InputStreamReader(System.in); BufferedReader bi = new BufferedReader(ins); for(int i=0;i<d.length;i++){//****...

2020-03-14 18:52:57 386

原创 hive 中的正则表达式(筛选车牌号)

* 和+ 的区别* 是0次或多次+ 是一次或多次匹配 车牌号开头是汉字,中间是任意字符,结尾是汉字 或者 是任意字符select * from jt where hphm rlike '^[\\\u4e00-\\\u9fa5]\\w+[\\\u4e00-\\\u9fa5]|[\\\u4e00-\\\u9fa5]\\w+$';**如果是一下这种情况,车牌号是 沪BA306警 这种的就会...

2020-03-12 21:24:11 1357

原创 org.apache.hive.service.cli.HiveSQLException: Error while processing statement:

详细错误 Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.FunctionTask简单解决方法hive重启...

2020-03-12 19:39:18 10400

原创 编写udf函数,进行业务处理

元数据s number京 2冀 4吉 2川 2桂 4沪 601津 1浙 50湘 1琼 1皖 57粤 5苏 130豫 9贵 1赣 10辽 1鄂 3闽 9鲁 ...

2020-03-12 19:33:11 328

原创 String转换成Long(报错:java.lang.String cannot be cast to java.lang.Long )

报错原因:String不能转换成long类型解决方法:Long.ValueOf(“String”)返回Long包装类型Long.parseLong(“String”)返回long基本数据类型实例 : redis1.setValue(Long.parseLong(entry.getValue().toString()));...

2020-03-10 21:14:54 19768 1

原创 Kafka的两种连接方式

Kakfa的版本0.8.0 Receiver模式 (接收者模式) Driect模式 (直连模式)0.10.0 Driect模式(直连模式)spark 2.3之后(包括2.3) 已经把 0.8.0 版本低 Kadka淘汰了連接模式第一種、 Receiver模式 (接收者模式) spark 1.2的时候引进了 WAL(数据多的时候一部分存到 分布式...

2020-03-08 21:29:07 10742

原创 Error while getting events from Kafka

Channel的type类型是Kafka结果报错错误详情: Error while getting events from Kafka解决方法:最后加一行 a1.channels.c1.parseAsFlumeEvent=false

2020-03-03 21:42:01 564

原创 hadoop集群配置LZO压缩,(在集群上运行jar包生成loz文件)

文章目录一、安装步骤二、压缩本地文件(光压缩本地的话,就只需要配置1,2,3步就行)三、在集群上运行jar包生成 lzo文件(需要配置1,2,3,4,5)一、安装步骤1、停止集群 stop-all.sh2、将hadoop-lzo-0.4.20.jar(链接:https://pan.baidu.com/s/1leST2jTRHbfsfuQQHznqBw 提取码:alvu) 放到三台虚拟...

2020-03-02 20:57:03 767 2

原创 虚拟机磁盘空间不足的话,通过查看Liunx磁盘大小,然后删除不必要的信息释放空间

进入指定目录,然后执行这个 指令 du -h -x --max-depth=1如上图,我先进入 /root 目录,运行完指令之后发现 /data 目录占用磁盘空间大,所以我又进入 /data 目录,这样一级一级查找下去,然后删除无用信息。...

2020-03-02 18:44:20 490

原创 点击流业务知识点 (个人总结)

原始数据 字段名是 referer1、 切割表中的 url 路径(带引号的字符串),解析出 PROTOCOL,HOST,PATH,QUERY 等字段create table t_ods_tmp_referurl asselect a.*,b.* from ods_weblog_origin as a lateral view parse_url_tuple(reg...

2020-03-01 12:58:17 182

原创 MapReducer运行原理图

1、有多少个切片就会默认启动多少个maptask ,每个maptask会处理一个切片(split默认是 128M )2、环形缓冲区默认大小是 100M,溢写比是 80% mapred-site.xml文件中的io.sort.mb的配置项配置...

2020-02-29 20:01:40 259

原创 如何保证Redis数据不丢失

单机单节点模式使用AOF和RDB结合的方式RDB做镜像全量持久化,AOF做增量持久化。因为RDB会耗费较长时间,不够实时,在停机的时候会导致大量丢失数据,所以需要AOF来配合使用。在redis实例重启时,会使用RDB持久化文件重新构建内存,再使用AOF重放近期的操作指令来实现完整恢复重启之前的状态。这里很好理解,把RDB理解为一整个表全量的数据,AOF理解为每次操作的日志就好了,服务器重启...

2020-02-25 11:52:17 4283

原创 保证Flume数据不丢失

1、断点续传注意 : flume1.7之后有,1.7之前就需要自己写jar包上传上去使用#source的配置# source类型a1.sources.r1.type = TAILDIR# 元数据位置a1.sources.r1.positionFile = /home/hadoop/data/bd/taildir_position.json# 监控的目录a1.sources.r1.f...

2020-02-24 21:27:12 2614

原创 QPS(每秒查询率)

公式:( 总PV数 * 80% ) / ( 每天秒数 * 20% ) = 峰值时间每秒请求数(QPS) 。机器:峰值时间每秒QPS / 单台机器的QPS = 需要的机器 。案例分析:每天300w PV 的在单台机器上,这台机器需要多少QPS?( 3000000 * 0.8 ) / (86400 * 0.2 ) = 139 (QPS)。一般需要达到139QPS,因为是峰值。问:如果一台机...

2020-02-23 19:30:08 2244

原创 Hdfs小文件处理方法

一、flume收集完数据之后往hdfs上传输,设置好参数a1.sinks.s1.type=hdfsa1.sinks.s1.hdfs.path=hdfs://node132:9000/flume#多久生成一个新的文件(秒)a1.sinks.s1.hdfs.rollInterval=30#文件多大之后生成新的文件(字节)a1.sinks.s1.hdfs.rollSize=1024#文件个...

2020-02-22 21:12:23 820

原创 Memcached与Redis的区别和选择

Memcached与Redis的区别和选择的分析由于Redis只使用单核,而Memcached可以使用多核,所以在比较上,平均每一个核上Redis在存储小数据时比Memcached性能更高。而在100k以上的数据中,Memcached性能要高于Redis,虽然Redis最近也在存储大数据的性能上进行优化,但是比起Memcached,还是稍有逊色。说了这么多,结论是,无论你使用哪一个,每秒处理请求...

2020-02-20 19:53:48 444

原创 二分查找(二分查找之前,内容都是从小到大排好序的)

Scala 版的// lines是字典表array(起始ip,终止ip,ip所在省份) ip是要查找的东西 def binarySearch(lines: Array[(String, String, String)], ip: Long) : Int = { var low = 0 var high = lines.length - 1 whil...

2020-02-19 11:24:05 709

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除