魏忠贵-CSDN博客

原创二十六：Spark-submit提交一个WC任务源码解析：

一：准备工作：1.1 准备一个被统计文件：[root@hadoop001 ~]# hadoop fs -ls /logs/inputFound 1 items-rw-r–r-- 3 root supergroup 97 2019-03-14 22:48 /logs/input/text.txt[root@hadoop001 ~]# hadoop fs -cat /l...

2019-03-27 16:53:14 363

原创二十五：Caused by: java.net.UnknownHostException: nameservice1(CDH 5.14 部署spark2第一次运行报错)

一：问题描述：CDH 5.14部署好spark2后，写了个WC统计程序，并写了如下执行语句：$SPARK_HOME/bin/spark2-submit \--master local[2] \--class com.weizonggui.core03.SparkContextApp \--name WCApp \/home/hadoop/G5-Spark-1.0.jar \hdfs...

2019-03-21 10:01:23 2551

原创二十四：RDD源码分析

一：初始Spark:进入官网 http://spark.apache.orgApache Spark™ is a unified analytics engine for large-scale data processingApache Spark是一个标准的大型数据处理分析引擎，具有如下4个特性：1.1：运行速度快：相对于hadoop：编程模型不一样：mapreduce是基于进程计算...

2019-03-08 21:37:22 238

原创二十三：influxdb v1.7（Centos7.2）安装使用

一：influxdata安装：官网地址为：https://www.influxdata.com下载地址：https://portal.influxdata.com/downloads/1.1 安装：官网为：https://docs.influxdata.com/influxdb/v1.7/introduction/installation/**配置yum文件：**cat &lt;&lt...

2019-03-03 23:33:55 1119

原创二十二：Flume+kafka+spark日志采集故障分析

一：问题现象计划Flume+kafka+spark进行消费，在本地测试么有数据过来，然后打开kafka消费端查看，kafka正常，从生产端是可以写入数据的，但是在flume采集文件后消费端没有数据，flume启动也是正常的： flume 启动成功[root@hadoop002 bin]# nohup flume-ng agent -c conf -f /opt/software/fl...

2019-03-03 19:29:54 745

原创二十一：CDH5.14离线安装Apache Spark 2

一：当有需要CDH安装Apache Spark 2时：老规矩，从官网开始：https://www.cloudera.com/documentation.htmlhttps://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html注意几个重要的提示：二：按步骤进行安装：2.1:查看自己需要...

2019-02-24 08:46:35 412

原创十九：Centos7.4离线安装CDH5.14-阿里云

在前面准备环境已经到位后，下面就可以正式安装了：一：安装http和启动http服务：yum install -y httpdsystemctl status httpd.servicesystemctl list-unit-files |grep httpdystemctl start httpd.service #启动systemctl stop httpd.service #停止...

2019-02-23 23:57:02 380

一：当安装好CDH的hadoop后，准备安装kafka,可是CDH上添加服务是这样的，没法直接添加，需要添加相应包才可以：Apache Kafka is publish-subscribe messaging rethought as a distributed commit log. Before adding this service, ensure that either the Kafk...

2019-02-23 21:33:42 3411 2

原创十八：Centos7.4离线安装CDH5.14环境准备-阿里云

一：核心软件包下载：CDH安装需要两类软件包：依据自己的系统匹配对应的CDH版本：两类文件包:1.repo-as-tarball cm管理(server agent 闭源)http://archive.cloudera.com/cm5/repo-as-tarball/5.14.0/http://archive.cloudera.com/cm5/repo-as-tarball/5.14.0...

2019-02-09 18:37:14 289

原创十七：CDH介绍及官网信息

一：背景：1.1在部署Apache Hadoop 及周边软件时，随时不是这个启动不了，就是这里哪里有问题：主要表现在：• 版本管理混乱　　• 部署过程繁琐、升级过程复杂　　• 兼容性差　　• 安全性低1.2 、社区版本与第三方发行版本的比较1.Apache社区版本优点：完全开源免费。社区活跃文档、资料详实缺点：----复杂的版本管理。版本管理比较混乱的，各种版本层出不穷，...

2019-02-09 11:19:20 4019

原创四：压缩相关

*在Hadoop下使用Snappy,实操整个开启过程，并查看各压缩模式是否正常，同时验证总结各压缩模式的压缩比是怎么样的；目录1 非源码编译下压缩模式情况：2 添加压缩方式：3 各种压缩模式对比：4压缩模式对比5如何选择压缩模式：1.非源码编译下hadoop下压缩模式：cd /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/binhadoop ch...

2019-02-07 20:55:52 159

原创十六： brokerList must contain at least one Kafka broke 案例及其它几个坑-阿里云

一：启动flume 告警如下：nohup bin/flume-ng agent \-c /home/hadoop/app/apache-flume-1.6.0-cdh5.7.0-bin/conf -f /home/hadoop/app/apache-flume-1.6.0-cdh5.7.0-bin/conf/exec_memory_kafka.properties \-n a1 -Dflu...

2019-02-07 20:21:35 1356

原创十五：kafka核心实验和全局有序

一：模拟实验：1.1：如何查看生成者和消费者启动命令：1.2 console启动消费者和消费者命令：消费者是zkbin/kafka-console-consumer.sh \--zookeeper 172.17.4.16:2181,172.17.4.17:2181,172.17.217.124:2181/kafka \--topic kunming \--from-beginnin...

2019-02-05 13:05:57 733

原创十四：kafka的topic创建和解析

一：检查kafka是否成功：创建topic，如能成功创建topic则表示集群安装完成，也可以用jps命令查看kafka进程是否存在bin/kafka-topics.sh \--create \--zookeeper 172.17.4.16:2181,172.17.4.17:2181,172.17.217.124:2181/kafka \--replication-factor 3 \...

2019-02-03 21:10:26 1399

原创十三：kafka分布式部署

一：kafka概述：就一个消息中间件，当前官网叫做：分布式流平台a distributed streaming platform：A streaming platform has three key capabilities:1.Publish and subscribe to streams of records, similar to a message queue or enterpr...

2019-01-30 12:54:17 639

原创十二：Flumue操作Channel-Memory/File Channel¶

一：常用channel概述：1.1 memory弊端：在使用Memory作为channel时，需注意source过来的数据和SINK写出的速度，防止数据处理不过来导致内存挂掉，需要优化两个具体的参数。同时用memory作为channel时，当flume挂了，内存的数据就丢了！capacity的容量是和JVM公用的留意参数调整：export JAVA_OPTS="-Xms100m -Xm...

2019-01-28 21:29:54 255

原创十一：Flume常用Source配置-taildir-source

一：Flume概述：Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data ...

2019-01-27 23:20:31 1834 1

原创十：WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set,解决案例

在spark on yarn 上提交任务是，报错如下：这是Spark的一个优化点：WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.INFO yarn.Client: Uploading re...

2018-12-25 21:35:52 7065 1

原创九：Operation category READ/WRITE is not supported in state standby解决案例

1：问题现象：在IDEA写好程序并打包传到hadoop001上去执行的时候，统计不成功，报如下异常：各文件目录如下：log.sh :/home/hadoop/shellG5-Spark-1.0.jar :/home/hadoop/lib2：处理过程2.1依据提示找到相应问题解答：在启用ha的集群中，DFS客户端无法预先知道在操作的时刻哪个NameNode处于活动状态。因此...

2018-12-18 17:44:26 16580

原创八：Scala单词统计及模拟log生成

一：单词统计：统计本地文件里单词的数量：第一：要去读到这个文件，并转换成sacal里的数据结构，便于处理；第二：要对单词进行分割，压平，放到第三：对单词进行映射，并分组；第四：在组内求和；第五：转换成List,便于排序。最终结果就两条代码搞定，但是对于第一次写，没有其他参考，一个人想破脑袋也无法完成，因为所学到的东西当前还不系统，都没那么深入，只能边实践边摸索，边总结；用多了，自然就...

2018-12-16 11:16:08 395

原创七:Array/List实操比较-Map需要留意地方

目录：1、数组实操2、List实操:3、Array和List区别：4、Map实操：5、其他列表1、数组实操1.1、定长数组//定义scala&gt; val a =new Array[Boolean](5)a: Array[Boolean] = Array(false, false, false, false, false)scala&gt; val a =new A...

2018-12-08 19:54:19 93

原创六：Scala学习-面向对象及继承伴生：

目录：*1：Scala面向对象*2：构造器：*3：继承：1、Scala面向对象：类里面定义的val,new新对象的时候也是不能更改的，用占位符的时候，需要在前面加上具体的数据类型，否则推导不出来：private[this]后类里面的属性是私有化的，在类外面不能被调用：object SimepleObjectApp { def main(args: Array[String]):...

2018-12-08 11:09:17 145

原创五：Scala学习之-函数定义及数据类型

内容：1:：val和var区别：2： Scala必学数据类型：3：运算符优先级：4：函数的定义：5：几个重要表达式：1:val和var区别：数据类型第一字母必须大写，val是值类型，内容不允许变更，var 是可变类型，内容可更新；变量类型可自动推导，定义时候可省。scala> ~~val money:int = 10000~~ <con...

2018-12-06 22:40:49 482

原创三：hadoop HA YEAR架构总结及各组件功能（原理总结）

内容：在前面搭建和熟悉各组件启动流程下，今天总结下hadoop的HA YEAR架构，同时看看各组件的功能，理清启动顺序，并进行相关组件对比。*目录结构：前期搭建规划hadoop HA 架构及功能hadoop YEAR架构及功能启动/关闭流程总结两架构对比及其它1、前期搭建规划2、hadoop HA 架构及功能HDFS HA: 是为了解决单点故障问题，通过JN集群共享状态...

2018-11-29 11:09:14 1333

原创二：zeekeeper+hadoop HA配置及启动停止

内容：在前面准备工作（多机共享+文件已经上传+JDK已安装）情况下，我们将关注zeekeeper配置启动，hadoop配置启动，并观察各项具体配置和启动流程和相应的进程顺序，同时关闭相关HA,查看其关闭流程。目录结构：zookeeper配置hadoop配置zookeeper启动hadoop配置整体启动流程整体关闭流程1:解压文件和配置环境tar -xzvf hadoo...

2018-11-28 16:30:02 603 2

原创一：Centos多机共享及其它准备（为了Hadoop HA部署）

为了在阿里云服务器上部署Hadoop HA,在部署之前，需要了解前期的HA架构和阿里云服务器，在熟悉了这些前提下，开始一步进行实操。在实操中熟悉各类架构后，在对各类架构的作用，启动和关闭顺序做*更进一步说明：目录结构：1：阿里云主机购买2：远程XSHELL登陆3：hadoop用户创建及文件上传4：hosts文件和多台ssh互相信任5：java运行程序...

2018-11-27 17:40:47 202 2

5-投诉案例.ppt

通过各种案例，分析处理各类投诉,其中包括iphone 5s被叫异常投诉，终端无法连接4G等问题处理： 1、先排查站点CSFB数据配置问题，CSFB数据配置正常，配置频点8个。首先怀疑回落2G时频点存在不同LAC（MSCPOOL）导致寻呼不到引起未接通。将2G频点配置缩减为同LAC（MSCPOOL）共站址频点，问题未解决。 2、用户iPhone5s版本为7.04，运营商版本为移动15.7，型号为A1518。怀疑用户终端版本问题，现场帮助客户升级终端版本至7.06，现场反馈测试基本正常。过两天用户又反馈使用异常，被叫有时接通有时异常，问题复杂化。 3、通过TMT软件使用数据卡现场测试CSFB主被叫情况，发现现场4G网络不断自行回落GSM，再由GSM重选至TD再重选至LTE反复循环。分析发现测量回落参数设置错误，原因可能是前期修改2A事件参数误操作导致，修改参数后到现场测试被叫正常回落至GSM。 4、响应步骤1、LTE网络下发寻呼；2.执行回落命令并携带GSM频点信息，GSM网络响应寻呼；3、振铃（代表接通）。从异常的情况来看，未接通未必发生在LTE网络。

2015-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weizhonggui的博客