BigData攻城狮-CSDN博客

原创【VMware】vmware15 安装win10教程【史上最详细图文教程】

VMware15安装教程【传送门】一：创建新的虚拟机 --》自定义 --》下一步二：直接选择下一步三：选择稍后安装操作系统 --》下一步四：选择Microsoft Windows(W) --》选择版本 --》下一步五：自定义虚拟机名称和虚拟机保存位置 --》下一步六：选择BIOS -- 》下一步七：根据宿主机的配置自定义处理器数量...

2020-03-04 11:38:28 63434 39

原创 windows10不支持Miracast无线投屏（不能进行无线投影）

电脑不支持投屏到电视，设备不支持Miracast，可以来看看这篇文章哦。

2022-11-26 14:57:04 18314 3

原创教你一招排查启动Tomcat 服务启动闪退、不报错

前言：今天在Tomcat部署Web服务的时候，启动Tomcat闪退，还不报错，就很纳闷。首先排查第一步：百度。。。先百度一下，基本问题可能是你JDK环境变量配置错了，或者你的Tomcat环境变量配置错了进入到你 Tomcat解压目录下bin里面以文本方式打开startup.bat 文件追加一下内容，让你的Tomcat启动时不闪退保存退出，双击 startup.bat启动Tomcat 看到如下效果不报错，但是闪退了。。。。。看上图信息应该不是环境问...

2020-07-07 15:48:40 2043 2

原创授人以鱼不如授人以渔，今天手把手教你怎么从微软官方下载Windos10正版镜像

前言前段时间自己使用VMware搭建了一个Windos10系统，并把过程发布到CSDN博客【传送门】，至于搭建一个Windos系统要做什么，你懂的哦~，你在虚拟机上的操作导致死机后不会影响你物理机哦 ~~~ 所以赶紧动起来吧！！【传送门】咳咳，言归正传，我发到CSDN后有小伙伴跟着我的操作走，在最后安装系统的时候出现各种各样的错误，而原因也基本就是系统镜像不是正版的原因，所以，今天我来教你怎么自己获取正版的Windos10镜像，跟着来吧！一、首先找到微软官方网站下载：http...

2020-07-03 18:08:27 11438 11

原创 SVN客户端 TortoiseSVN安装教程（图文步骤教程）

前言原本好好的Git用的挺好的，结果到了公司需要用SVN。。。心碎了一地SVN版本：TortoiseSVN-1.10.1.28295-x64-svn-1.10.2官网：tortoisesvn.net/downloads.html安装步骤：一：双击执行安装程序点击Next下一步二：直接下一步三：更改存放路径（也可以选择默认）四：点击 Install 开始安装安装完成点击完成后在桌面右键看到如下效果即可对于我来说我还是喜欢中文（...

2020-07-01 18:25:52 1803

原创 ETL - Kettle基础入门（实战篇）

前言：记录一些Kettle的常用操作。

2020-06-28 18:56:56 1335

原创如果你不会使用Kettle进行无中生有，那你还是好好跟着这篇文章操作一遍！！

你在。无中生有、暗度成仓，你在凭空想象、凭空捏造。。。业务场景：现在有一个需求，需要计算出我们数据中每个季度的、每个月的、每周一到周日的、节假日、休息日、工作日的数据指标。此时节假日、休息日、工作日并不能使用SQL直接计算出来，所以我们可以先搞出一张存储着这个日期是否为节假日、休息日、工作日的这样一张日期类型表。然后在在与业务数据表进行一个Join不就有结果了吗。

2020-06-06 13:30:10 545

原创大数据开发平台：数仓组件Apache Kylin详细安装暨使用教程

前言：Kylin依赖于Hive和Hbase，所以必须保证Hive和Hbase能够正常使用。Hbase版本推荐安装1.1版本否则可能会不兼容Hive安装教程【传送门】Hbase安装教程【传送门】简介：　Apache Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。是国人之光，由中国人自主研发的大数据组件，2014年10月进行开源，同年11

2020-05-17 19:00:48 1523 1

原创大数据开发平台：Spark环境搭建：看这一篇博客就够了！！

如果你看了这篇博客没有装好Spark，你来找我！！！！首先Spark是一个基于内存的用于大规模数据处理的统一分析引擎。其次它支持使用Scala、Python、R、SQL等语言快速编写应用程序，使用非常方便。最后Spark可以运行在Hadoop、Apache Mesos，Kubernetes等环境、也可以进行独立或者在云上运行，它可以访问各种资源。

2020-05-16 19:03:05 1820 2

原创又发现了一个IDEA的强大功能，太香了！！！！

目录前言：使用IDEA连接Linux：前言：在学习大数据过程中需要使用VMware创建Linux虚拟机运行大数据环境。需要使用IDEA整合Hive做Hive的可视化，而Linux虚拟机则需要使用CRT或者XShell连接才能操作Linux，就导致需要开启很多软件。近期发现IDEA也可以也可以连接Linux，直接使用IDEA操作Linux和做Hive的可视化，一举多得。【V...

2020-05-07 14:45:07 1555 7

原创 IDEA：连接本地MySQL能用，连接Linux内MySQL报错[08001]无法创建与数据库服务器的连接。尝试重新连接3次。

[08001] Could not create connection to database server. Attempted reconnect 3 times. Giving up.报错：无法创建与数据库服务器的连接。尝试重新连接3次。放弃！！

2020-05-06 19:54:34 1571 6

原创 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

被自己的迷之自信啪啪打脸！！java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientjava.sql.SQLException: Can't create/write to file '/tmp/#sql_75d_0.MYI' (Errcode: 13)

2020-04-28 17:38:06 972

原创 Hbase“必备”的Shell命令

目录1、进入HBase客户端命令操作界面2、查看帮助命令3、查看当前数据库中有哪些表4、创建一张表5、添加数据操作6、查询数据操作7、更新数据操作8、删除数据以及删除表操作9、统计一张表有多少行数据1、进入HBase客户端命令操作界面$ bin/hbase shell2、查看帮助命令hbase(main):001:0> help...

2020-04-26 14:57:52 268

原创入门篇：从零到一搭建大数据开发平台（七）Hbase入门-集群式环境安装

目录依赖环境：简介：开始安装集群：更多Shell请查看下一篇博客【传送门】依赖环境：VMware15.5【传送门】Hadoop HDFS【传送门】ZooKeeper【传送门】Hbase 强依赖HDFS和ZK，必须保证HDFS集群和ZK集群是可用的Hbase 强依赖HDFS和ZK，必须保证HDFS集群和ZK集群是可用的Hbase 强依赖HDFS和Z...

2020-04-26 14:54:25 495 1

原创 Kafka与Spark：整合练习题

前言：需求：查询出微博会员等级为5的用户，并把这些数据写入到mysql数据库中的vip_rank表中查询出评论赞的个数在10个以上的数据，并写入到mysql数据库中的like_status表中分别计算出2018/10/20 ，2018/10/21，2018/10/22，2018/10/23这四天每一天的评论数是多少，并写入到mysql数据库中的count_conmment表中使用Java对数据预处理，把有效数据落入到Kafka，使用SparkStreaming实时消费K

2020-04-26 10:35:04 540

原创 SparkSQL 自定义函数：UDF与理解UDAF相关方法

目录前言：一：SparkSQL自定义函数的种类二：UDF实现三：UDAF实现四：查看运行结果：前言：类似于Hive 当中的自定义函数，SparkSql中同样也可以使用自定义函数来实现新功能。一：SparkSQL自定义函数的种类SparkSql自定义函数与Hive中的自定义函数一样分为三类：1、UDF(User-Defined-Function) ...

2020-04-19 22:13:07 283

原创 Spark Core: Parameter index out of range (1 > number of parameters, which is 0)

一个特别小但犯了会崩溃的错误：

2020-04-12 15:47:08 209

原创面试在即，整理了一些关于Hadoop Yarn的面试题

目录问：什么是Yarn？问：Yarn有什么特点？问：为什么要使用Yarn。问：说一说Yarn的基本架构吧。问：Yarn内部是由什么组成的？问：请简单说明一下Yarn的运行流程是怎样的。问：Yarn在运行过程中负责给应用分配资源的是什么。问：Yarn有几种调度方式，分别是什么？问：什么是Yarn？答：是一种新的 Hadoop 资源管理器，它是一个通用资源管...

2020-03-29 12:33:07 1320 1

原创关于Kafka这些面试题你必须要知道

1、请先描述一下Kafka的总体架构Kafka生态系统四大角色，生产者(Producer)、kafka集群(Broker)、消费者(Consumer)、zookeeper 每个消费者都必须属于一个消费组，一个组内的消费者可以多个。一个Topic可以有1到多个多个分区（Partition）一个分区可以有1到多个segment。每个segment可以有由一个log和...

2020-03-24 13:53:28 346

原创入门篇：从零到一搭建大数据开发平台（六）Zookeeper分布式集群安装部署教程【含一键启动关闭脚本】

环境：VMware15.5Pro【安装传送门】CentOS6.9【安装传送门】JKD1.8【安装传送门】zookeeper-3.4.5-cdh5.14.0安装步骤：一、上传安装包cd /export/soft/rz...

2020-03-22 16:53:49 420

原创使用SecureCRT从Windows系统上传文件到CentOS系统

前言在日常开发中，我们经常需要把Windows上的文件或安装包上传到 linux系统，为了方便第一次学习虚拟机的小伙伴更快速的找到从Windows上传文件到linux，特出此教程。使用的上传文件的软件是SecureCRT，既可以上传文件也是Windows远程连接linux的软件。SecureCRT【获取安装包资源扫描下方二维码】SecureCRT安装：解压即可使用Se...

2020-03-22 15:27:25 1206

原创 Hadoop：安装部署Hive

环境准备：VMware15.5CentOS6.9HadoopCDH5.14.0Hive-1.1.0-cdh5.14.0安装Hive Derby版（不推荐）上传hive-1.1.0-cdh5.14.0.tar.gz 到/export/soft 解压到指定目录 /expoer/servers直接启动，在hive解压目录下使用命令：bin/hive +回车进入hiveShell窗口缺...

2020-03-21 22:33:41 970 1

原创入门篇：从零到一搭建大数据开发平台（五）Hive安装部署教程(derby单机版不推荐强烈推荐集群式)

环境：VMware15.5Pro【安装传送门】CentOS6.9【安装传送门】JKD1.8【安装传送门】Hadoop2.6-CDH5.15【安装传送门】一、derby单机版（了解即可不推荐学习）1、上传安装包和mysql连接包到指定目录2、解压安装包tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../serve...

2020-03-21 00:09:41 475

原创 Kafka入门-集群式环境搭建

环境：VMware15.5Pro【安装教程传送门】CentOS6.9【安装教程传送门】zookeeper-3.4.5-cdh5.14.0【安装教程传送门】JDK1.8【安装教程传送门】开始安装kafka一：初始环境准备安装jdk，安装zookeeper并保证三台节点zk服务正常启动二：下载安装包并解压cd /export/softwareswge...

2020-03-19 16:54:00 176

原创 kafka集群系统“必备”的常用shell命令

1、创建一个topic topic名称是：test 分区个数是：3 每个分区的副本数是：2bin/kafka-topics.sh --create --zookeeper node01:2181,node02:2181,node03:2181 --replication-factor 2 --partitions 3 --topic tes...

2020-03-19 16:53:07 332

原创入门篇：从零到一搭建大数据开发平台（四）搭建Hadoop HDFS完全分布式集群（学生版）

环境：宿主机：windows10虚拟机：VMware15.5系统：CentOS 6.9JDK1.8Hadoop-2.6.0-cdh5.14.0废话不多少开始安装安装步骤：一：上传压缩包并解压二：上传完毕开始解压到指定目录 servers操作命令： tar -zxvf hadoop-2.6.0-cdh5.14.0-编译后的版本.tar.gz -C ...

2020-02-24 11:43:26 823

原创入门篇：从零到一搭建大数据开发平台（三）使用SecureCRT连接工具连接服务器配置服务器，为搭建Hadoop做准备

环境：Linux CentOS6.9 点击查看下载安装教程一：使用SecureCRT连接服务器点击文件选择快速连接输入连接服务器的ip 用户名点击连接输入服务器登陆密码点击确定连接成功二：配置服务器主机名 vim /etc/sysconfig/network 重启后主机名生效（重启命令 reboot）三：配置主机名与IP对应关系...

2020-02-20 18:00:00 2349

原创 Linux CentOS 在不删除Linux自带JDK的情况下安装JDK1.8（图文教程：重点是环境变量的配置）

安装 JAVA JDK1.81.创建两个文件夹 mkdir -p /export/softmkdir /export/servers2. 上传jdk安装包到 /export/soft 命令：rz 选择JDK安装包（你当前在哪个目录就会上传到那个目录所以最好先进入到/export/soft目录下）使用本地yum源安装插件 lrzsz安装命令 yum -y i...

2020-02-20 17:41:15 2153 4

原创 Linux CentOS6.9 制作本地yum源并进行开机自动挂载

一：设置设备状态为已连接状态二：挂载镜像创建一个文件夹,mkdir -p /mnt/cdrom把镜像挂载到刚创建的文件夹下：mount /dev/sr0 /mnt/cdrom 取消挂载的命令是：umount /dev/sr0 /mnt/cdrommount: block device /dev/sr0 is write-protected, mounting ...

2020-02-20 16:17:42 698 1

原创因为电脑重装系统了，写一个Windows安装Mysql的教程。方便自己更方便他人

环境：Windows10Mysql Server 5.5安装步骤：一：右键安装mysql-5.5.49-win32.msi二：选择 Next三：选择同意条款点击下一步四：选择自定义安装五：点击 “Browse” 修改安装路径六：填上安装目录，我的是“E:\devlop\MySQL\MySQL Server 5.0”，也建议不要放在与操作...

2020-02-16 22:58:08 351

原创 IDEA开启形参(方法参数)提示参数（不定时更新IDEA小技巧）

2020-02-13 15:31:28 2531 4

原创入门篇：从零到一搭建大数据开发平台（一）安装VMware虚拟机（图文教程）

环境：Windows10VMware15.5pro下载路径：https://www.vmware.com/go/getworkstation-winCentOS6.9下载路径：http://isoredirect.centos.org/centos/8/isos/x86_64/CentOS-8.1.1911-x86_64-dvd1.iso安装VMware：一：以管理员方...

2020-02-13 15:16:26 4194

原创入门篇：从零到一搭建大数据开发平台（二）史上最详细的安装Linux系统(图文教程从配置主机到安装系统)

环境：Windows10VMware15.5【附安装教程】CentOS 6.9 安装包下载链接: https://pan.baidu.com/s/1YmGEr5GzkQUakvNrN9vUVQ提取码: c5ej安装CentOS一：打开Vmware选择创建新的虚拟机二：选择自定义然后下一步三：选择稍后安装操作系统，下一步四：选择操...

2020-02-12 20:37:07 2212 1

原创 IntelliJ IDEA的强大：使用IDEA实现Hive的可视化

使用IDEA当作HIVE的可视化工具，详细教程

2020-02-12 10:50:02 7043 7

原创 Hadoop：Flume实时日志采集组件集成搭建

环境：VMware15.5 hadoop-2.6.0-cdh5.14.0 jdk1.8 apache-flume-1.8.0Flume安装部署：Flume的安装非常简单上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.8.0.tar.gz 然后进入flume的解压目录，修改conf下的flume-env.sh，在里...

2020-02-09 18:41:51 253

原创 Hadoop理论概念学习（部分）

1、MapRedece从读取数据开始到将最终结果写入HDFS经过哪些步骤?第一步:inputformat进行数据读读取,将数据发送给split第二步:split 将数据进行切分,发送给RecordReader第三步:RR将数据按照行再次切分,将切分好的数据组装成key(行首偏移量),value(每行的数据) 发送给map第四步:map 进行自定义逻辑的书写,将数据传给Shuffle第五步...

2020-01-02 21:20:35 329

原创 HbaseJavaAPI具体实现带注释

环境JDK1.8 IntelliJIDEA maven3.6.1 hadoop-cdh5.14.0 zookeeper-3.4.5-cdh5.14.0 hbase-1.2.0-cdh5.14.0准备POM文件 <repositories> <repository> <id>cloudera</...

2019-12-18 22:20:00 310 1

原创 Hadoop:ApacheSqoop安装部署

环境：VMware15.5hadoop-2.6.0-cdh5.14.0sqoop-1.4.6.bin__hadoop-2.0.4-alphahive-1.1.0-cdh5.14.0jdk1.8安装上传sqoop到Linux解压到指定目录修改配置文件拷贝一份原始的配置文件复制成新的配置文件cp sqoop-env-template.sh sqoop-env.shVi s...

2019-12-08 19:30:20 224 1

原创 Hive：use BLOB or TEXT instead com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException 第一次安装Hive创建表

关于第一次安装好Hive后使用Hive创建表不成功的问题提供一套解决方案环境：　　　　Vmware 15.5　　　　Centos 6.9　　　　Hadoop-2.6.0-cdh5.14.0　　　　Hive-1.1.0-cdh5.14.0　　　　jdk1.8.0_144问题可能原因：　　　　MySQL字符集不对应问题。解决方案：　　　　更改MySQL Hive的字符集alter...

2019-11-20 09:31:38 1352 2

原创 Hadoop性能调优：深度调优核心思路

hadoop视磁盘IO 和网络带宽开销为瓶颈，再此前提下，所有有关减少磁盘IO开销和网络带宽开销的都视为集群调优可选项。可选项包括：软件层面（系统软件和集群软件），硬件层面，网络层面。能不使用磁盘IO和网络就不使用，在必须使用的情况下，能少用则少用...

2019-11-15 14:29:21 1180

Kylin安装测试需要的数据文件.rar

RNG S8 8强赛失败后官微发表道歉微博下一级评论.txt

idea 集成使用 hive 需要导入的jar包.rar

空空如也