struggle@徐磊-CSDN博客

原创 Spark的安装（Standalone模式，高可用模式，基于Yarn模式）

@[TOC] spark安装作者： ℡XSs???? 一、spark的Standalone模式安装1、将spark-2.2.0-bin-hadoop2.7.tgz 上传到/usr/local/spark/下，然后解压-C 是用大写C解压到指定目录2、进入到conf中修改名字改为 .sh结尾的3、编辑spark-env.sh...

2020-02-16 11:25:20 1580

原创 Flume+Kafka+SparkStream+Hbase+mysql+Hive和Hbase之间映射

前言：我是结合自己所学，然后在网上搜资料最后写成的，中间遇到得多问题，不过最后都解决了，我把其中的细节提前说明一下：1、从SparkStream往Hbase上传输数据的时候，Hbase里面的表和行键，我都是是手动建2、从SparkStream往mysql上传输数据的时候，我也是提前先在mysql中建好相应的表并且设置好字段这篇文章，如果有问题或者你们有更简单的办法，请留言，互相交流！！...

2020-02-04 21:37:34 757

原创套裝二《知識點匯總》

一、flume中的事务ISR副本同步机制（副本同步队列）

2020-04-13 21:19:31 317

原创创建hive表，指定存储和压缩格式

一、指定存储格式是ORC，压缩格式是orc默认的ZLIB压缩建表语句create table log_orc_none(track_time string,url string,session_id string,referer string,ip string,end_user_id string,city_id string)row format delimited fi...

2020-04-12 22:02:43 9004 1

原创 Sqoop采集数据的时候出现数据倾斜解决方法（--split-by --num-mappers）

注意：–split-by 后面要是int类型，并且是连续递增的，那么sqpli-by 会平分的很均匀，要是不是自增的那么有的maptask还是很忙，而有的maptask则不是很忙–num-mappers 后面设置的maptask数目大于1的话，那么–split-by 后面必须跟字段，因为–num-mappers 后面要是1的话，那么–split-mappers 后面跟不跟字段都没有意义，因...

2020-04-12 11:55:34 1780 3

原创 VM虚拟机扩容

文章目录一、配置二、原因三、开始扩容3.1、扩充虚拟机硬盘大小3.2、扩充虚拟机的分区3.3、真正分配资源3.4、查看结果看是否扩充成功（之前是98%现在是62%）一、配置CentOs-7vm15二、原因df -hl查看虚拟机内存的时候，空间不足，导致好多操作不行Linux查看文件大小的简单指令三、开始扩容3.1、扩充虚拟机硬盘大小3.2、扩充虚拟机的分区# 1、查看当...

2020-04-10 20:40:01 509 3

原创 JAVA-多线程线程池简单介绍

一、为什么要用线程池1、通过复用线程池中的线程，来减少线程创建和销毁的性能开销2、对线程进行一些维护和管理，比如定时开始，周期执行，开发数控制等等二、线程参数意义当任务数超过核心线程数时，会将超过的任务放到队列中，只会创建三个线程重复使用corePoolSize 表示核心线程数三、线程中的方法join方法加入join() 方法之后，主线程启动子线程之后，会等待子线程执行完毕...

2020-04-10 16:26:21 199

原创套裝一《知識點匯總》

一、为什么不用hadoop，要用Maxcompute？简单介绍二、zookeeper中znod的类型2.1、类型临时节点（EPHEMERAL）：临时创建的，会话结束节点自动被删除，也可以手动删除，临时节点不能拥有子节点临时顺序节点（EPHEMERAL_SEQUENTIAL）：具有临时节点特征，但是它会有序列号，分布式锁中会用到该类型节点持久节点（PERSISTENT）：创建后永久...

2020-04-07 23:11:26 270 1

原创 Spark中flatMap 和 map的区别

private val value1: RDD[Array[String]] = value.map(_.split(","))# flatMap 简而言之flatMap起到的作用就是压缩的，吧以逗号切割之后的，又重新弄到一块private val value2: RDD[String] = value.flatMap(_.split(","))...

2020-04-03 15:06:46 344

原创 byte数组转换成String

byte[] body = event.getBody(); String s = new String(body, Charset.forName("UTF-8"));

2020-03-30 15:26:13 12179

原创編譯源代碼生成zip壓縮包

今天從GitHub上下載了kafkaManager的源代碼，進行編譯并且成功了，不過這是我第一次試，如果下次用今天的方法還編譯成功的話，我會把開頭這幾句話刪掉！！步驟1、從GitHub上下載了源代碼2、用sbt编译2.1、用yum先把sbt安装上curl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.repomv bint...

2020-03-29 22:11:24 489

原创 Sqoop入门指南

测试数据库连接bin/sqoop list-databases --connect jdbc:mysql://hdp20-04:3306/app --username root --password rootsqoop create-hive-table --connect jdbc:mysql://hdp20-04:3306/app --table uv_info --usernam...

2020-03-29 19:03:37 230

原创 namenode一直是安全模式退不出去

首先首先查看一下是否打开安全模式hdfs dfsadmin -safemode get然后根据查看的情况（ON 表示安全模式打开），进行安全模式关闭hdfs dfsadmin -safemode leave具体步骤如下其次如果关闭安全模式之后还是不能用查看内存情况df -hl这是内存清除之后的，内存清除之前是 100% 所以才会一直是安全模式确定是因为内存原...

2020-03-28 11:48:42 3680 3

原创 Linux查看文件大小的简单指令

查看虚拟机内存状态df -hl查看Linux目录大小du -sh /*查看当前目录下的总大小du -sh查看当前目录下的文件大小du -sh /home/*du -h -x --max-depth=1ls 简单指令查看隐藏文件（文件前缀带点的）ls -al 当前目录下的文件按照大小(k/M/G)降序排序ls -Shl以 k/M/G 的...

2020-03-28 11:48:00 36243 1

原创 NetworkManager服务的影响

文章目录一、hadoop集群运行中 namenode 突然不见了第一种报错表现：第二种报错表现：解决方法1、关闭hadoop集群2、关闭防火墙3、正确配置core-site.xml4、关闭NetworkManager服务5、正确配置/etc/hosts6、重启hadoop集群二、service network start 重启网络报错，ping 不同百度报错表现解决方法关闭Networ...

2020-03-25 16:11:48 2755

文章目录一、数据仓库简介1.1、用途1.2、数据仓库跟mysql和hive的區別1.2.1、相同点：1.2.2、不同点：1.2.3、实际区别（是OLTP（联机事务）与OLAP（联机分析处理）的区别。）1.3、四大特點1.3.1、数据仓库的数据是面向主题的1.3.2、数据仓库的数据是集成的1.3.3、数据仓库的数据是不可更新的1.3.4、数据仓库的数据是随时间不断变化的1.4、数据仓库的表结构的设...

2020-03-23 16:47:33 507

原创 Hadoop集群之《伪分布集群搭建》

文章目录版本：1、先配置JAVA_HOME和HADOOP_HOME在/etc/profile的配置2、hadoop的七大配置文件2,1、后缀是 env.sh 的2.2、hdfs-site.xml2.3、core-site.xml2.4、cp ./mapred-site.xml.template ./mapred-site.xml2.5、yarn-site.xml3、搭建过程中更能会报...

2020-03-23 14:23:14 279

原创 Hadoop集群之《完全分布集群搭建》

文章目录版本1、以三台虚拟机为例2、三台虚拟机的 ip地址，修改ip地址的路径： /etc/sysconfig/network-scripts3、vim /etc/hosts，在三个连接（node132,node133,node134）里面设置要关联的三个连接ip和连接主机名，**只有这个设置之后才能在三个之间互相跳转**4、在第三步编辑hosts基础上，再在每个里面设置s...

2020-03-23 14:22:35 365 2

原创 ParseException line 2:11 cannot recognize input near ',' 'timeStamp' ',' in lateral view (state=420

報錯截圖問題分析原因是因爲別名是關鍵詞（就我圈住的那個）

2020-03-20 19:30:45 1502

原创简单解析json

# json{"id":1,"age":18}# hive建表语句create table json(name string);# 加载数据进 json 表load data local inpath "/root/data/hive/a.txt" into table json;# 数据展示+--------------------+| json.name |...

2020-03-20 14:56:17 118

原创 Dstream的三个特殊原语

Dstream 上的原语跟RDD相似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些特殊的原语updateStateByKey（）//从kafka中获取数据（格式是 a hello joy）进行词频统计，并且前一次统计的结果跟下一次的结果进行累加，一直叠加//用 updateStateByKey 实现累加de...

2020-03-15 15:18:48 164

原创数组内部排序（交换式排序）

冒泡排序（Bubble Sorting） int[] a = {1,4,2,5,10,3}; // 中间变量 int tmp=0; //冒泡排序 //1、比较的次数一共有6个数，所以只需比较5次即可 for(int i=0;i<a.length-1;i++){ /...

2020-03-15 12:08:44 365

原创数组内部排序（选择式排序）

我发送到发送到

2020-03-15 11:47:24 318

原创数组空指针错误对象数组在定义后，赋值时需要再次为每个对象分配空间（new 对象）

Dog[] d=new Dog[4];//获取你输入的信息 InputStreamReader ins = new InputStreamReader(System.in); BufferedReader bi = new BufferedReader(ins); for(int i=0;i<d.length;i++){//****...

2020-03-14 18:52:57 386

原创 hive 中的正则表达式（筛选车牌号）

* 和+ 的区别* 是0次或多次+ 是一次或多次匹配车牌号开头是汉字，中间是任意字符，结尾是汉字或者是任意字符select * from jt where hphm rlike '^[\\\u4e00-\\\u9fa5]\\w+[\\\u4e00-\\\u9fa5]|[\\\u4e00-\\\u9fa5]\\w+$';**如果是一下这种情况，车牌号是沪BA306警这种的就会...

2020-03-12 21:24:11 1357

原创 org.apache.hive.service.cli.HiveSQLException: Error while processing statement:

详细错误 Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.FunctionTask简单解决方法hive重启...

2020-03-12 19:39:18 10400

原创编写udf函数，进行业务处理

元数据s number京 2冀 4吉 2川 2桂 4沪 601津 1浙 50湘 1琼 1皖 57粤 5苏 130豫 9贵 1赣 10辽 1鄂 3闽 9鲁 ...

2020-03-12 19:33:11 328

原创 String转换成Long（报错：java.lang.String cannot be cast to java.lang.Long ）

报错原因：String不能转换成long类型解决方法：Long.ValueOf(“String”)返回Long包装类型Long.parseLong(“String”)返回long基本数据类型实例： redis1.setValue(Long.parseLong(entry.getValue().toString()));...

2020-03-10 21:14:54 19768 1

原创 Kafka的两种连接方式

Kakfa的版本0.8.0 Receiver模式（接收者模式） Driect模式 (直连模式)0.10.0 Driect模式(直连模式)spark 2.3之后（包括2.3）已经把 0.8.0 版本低 Kadka淘汰了連接模式第一種、 Receiver模式（接收者模式） spark 1.2的时候引进了 WAL（数据多的时候一部分存到分布式...

2020-03-08 21:29:07 10742

原创 Error while getting events from Kafka

Channel的type类型是Kafka结果报错错误详情： Error while getting events from Kafka解决方法：最后加一行 a1.channels.c1.parseAsFlumeEvent=false

2020-03-03 21:42:01 564

原创 hadoop集群配置LZO压缩，（在集群上运行jar包生成loz文件）

文章目录一、安装步骤二、压缩本地文件（光压缩本地的话，就只需要配置1,2,3步就行）三、在集群上运行jar包生成 lzo文件(需要配置1,2,3,4,5)一、安装步骤1、停止集群 stop-all.sh2、将hadoop-lzo-0.4.20.jar（链接：https://pan.baidu.com/s/1leST2jTRHbfsfuQQHznqBw 提取码：alvu）放到三台虚拟...

2020-03-02 20:57:03 767 2

原创虚拟机磁盘空间不足的话，通过查看Liunx磁盘大小，然后删除不必要的信息释放空间

进入指定目录，然后执行这个指令 du -h -x --max-depth=1如上图，我先进入 /root 目录，运行完指令之后发现 /data 目录占用磁盘空间大，所以我又进入 /data 目录，这样一级一级查找下去，然后删除无用信息。...

2020-03-02 18:44:20 490

原创点击流业务知识点（个人总结）

原始数据字段名是 referer1、切割表中的 url 路径（带引号的字符串），解析出 PROTOCOL，HOST，PATH，QUERY 等字段create table t_ods_tmp_referurl asselect a.*,b.* from ods_weblog_origin as a lateral view parse_url_tuple(reg...

2020-03-01 12:58:17 182

原创 MapReducer运行原理图

1、有多少个切片就会默认启动多少个maptask ，每个maptask会处理一个切片（split默认是 128M ）2、环形缓冲区默认大小是 100M，溢写比是 80% mapred-site.xml文件中的io.sort.mb的配置项配置...

2020-02-29 20:01:40 259

原创如何保证Redis数据不丢失

单机单节点模式使用AOF和RDB结合的方式RDB做镜像全量持久化，AOF做增量持久化。因为RDB会耗费较长时间，不够实时，在停机的时候会导致大量丢失数据，所以需要AOF来配合使用。在redis实例重启时，会使用RDB持久化文件重新构建内存，再使用AOF重放近期的操作指令来实现完整恢复重启之前的状态。这里很好理解，把RDB理解为一整个表全量的数据，AOF理解为每次操作的日志就好了，服务器重启...

2020-02-25 11:52:17 4283

原创保证Flume数据不丢失

1、断点续传注意： flume1.7之后有，1.7之前就需要自己写jar包上传上去使用#source的配置# source类型a1.sources.r1.type = TAILDIR# 元数据位置a1.sources.r1.positionFile = /home/hadoop/data/bd/taildir_position.json# 监控的目录a1.sources.r1.f...

2020-02-24 21:27:12 2614

原创 QPS（每秒查询率）

公式：( 总PV数 * 80% ) / ( 每天秒数 * 20% ) = 峰值时间每秒请求数(QPS) 。机器：峰值时间每秒QPS / 单台机器的QPS = 需要的机器。案例分析：每天300w PV 的在单台机器上，这台机器需要多少QPS？( 3000000 * 0.8 ) / (86400 * 0.2 ) = 139 (QPS)。一般需要达到139QPS，因为是峰值。问：如果一台机...

2020-02-23 19:30:08 2244

原创 Hdfs小文件处理方法

一、flume收集完数据之后往hdfs上传输，设置好参数a1.sinks.s1.type=hdfsa1.sinks.s1.hdfs.path=hdfs://node132:9000/flume#多久生成一个新的文件（秒）a1.sinks.s1.hdfs.rollInterval=30#文件多大之后生成新的文件（字节）a1.sinks.s1.hdfs.rollSize=1024#文件个...

2020-02-22 21:12:23 820

原创 Memcached与Redis的区别和选择

Memcached与Redis的区别和选择的分析由于Redis只使用单核，而Memcached可以使用多核，所以在比较上，平均每一个核上Redis在存储小数据时比Memcached性能更高。而在100k以上的数据中，Memcached性能要高于Redis，虽然Redis最近也在存储大数据的性能上进行优化，但是比起Memcached，还是稍有逊色。说了这么多，结论是，无论你使用哪一个，每秒处理请求...

2020-02-20 19:53:48 444

原创二分查找(二分查找之前，内容都是从小到大排好序的)

Scala 版的// lines是字典表array（起始ip，终止ip，ip所在省份） ip是要查找的东西 def binarySearch(lines: Array[(String, String, String)], ip: Long) : Int = { var low = 0 var high = lines.length - 1 whil...

2020-02-19 11:24:05 709

空空如也

空空如也