自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 收藏
  • 关注

原创 平方矩阵 II--C++ 经典解析版-----编程/算法/数据结构

题目描述输入整数 N,输出一个 N 阶的二维数组。数组的形式参照样例。题目来源平方矩阵II输入格式输入包含多行,每行包含一个整数 N。当输入行为 N=0 时,表示输入结束,且该行无需作任何处理。输出格式对于每个输入整数 N,输出一个满足要求的 N 阶二维数组。每个数组占 N 行,每行包含 N 个用空格隔开的整数。每个数组输出完毕后,输出一个空行。数据范围0≤N≤100输入样例123450输出样例11 22 11 2 32 1 23 2 11 2

2021-11-06 00:09:47 2393

原创 CSP真题之灰度直方图202104-1JAVA版

题目:分析过程:一看到这个问题描述我就头疼,长篇大论、虚无缥缈的(对我这样数学比较差的)人来说,简直就是一种折磨。即使它处于csp考试的第一题,超小难度,但若是没有将抽象具体化的能力的话,再简单也是白搭。在做这个题目之前,我先解析下上一个题目:出现次数最多的数-2013-12-1.解题目的:将抽象问题转化为实际编程需求,需要具备这种能力,没有怎么办,多加锻炼。解题三部曲:1.看输入,输出。输入什么参数,需要输出什么结果。2.弄清楚输入和输出参数具体是什么...

2021-09-04 18:31:42 797

原创 CCF-CSP考试 出现次数最多的数 JAVA版

问题描述试题编号: 201312-1 试题名称: 出现次数最多的数 时间限制: 1.0s 内存限制: 256.0MB 问题描述: 问题描述   给定n个正整数,找出它们中出现次数最多的数。如果这样的数有多个,请输出其中最小的一个。 输入格式   输入的第一行只有一个正整数n(1 ≤ n ≤ 1000),表示数字的个数。   输入的第二行有n个整数s1, s2, …, sn(1 ≤ si≤ 10000, 1 ≤ i..

2021-09-03 16:22:17 274

原创 重新安装kafka集群

首先很感谢大家的垂爱,从当初收回学校运营的这个公众号到后面自己专注于大数据技术公众号,也快一年了,不知不觉粉丝的个数已经从当初的两三百到千级别了,其实一直没怎么精心去运营,只想着权当把微信公众号这个平台当做树洞,当做日记,来分享自己的一次次学习,一次次跳坑,一次次成长。一路走来,有人离开,有人陪伴,虽然我身体上是孤独的,但是精神上却一直是充实的,没有大号主的扶持、没有精心的运营、没有软文式的广告,只想默默跟大家一起学习,目前只有大成子也就是号主本人一直在运营,如果有志同道合的同鞋想一起学习,平常也愿意分享.

2021-07-04 18:03:22 614 3

原创 ETL工具Kettle连接MYSQL时报错Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found, make sure the ‘MySQL

使用ETL 工具Kettle连接mysql数据库时报未找到驱动错误解决思路:未找到mysql连接驱动,弄一个mysql的connector驱动给它即可我去了java项目maven所在的仓库将它放在kettle目录的lib下重启Kettle即可。...

2021-07-02 13:15:12 806

原创 大数据实战之数仓项目(二)后续架构构想及近期安排

大家好,今天手画了一幅后续架构构想【如下图】现在行业内数仓架构比较流行的即是kimball模型从第一步数据抽取(业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】)抽取采集到介质hdfs/hive中存储起来到第二步ETL层(Extract抽取、Transform转换、Load装载),在这一层会进行数据汇聚、集成、清洗、转换、过滤,最终落入到数仓的ods(数据贴源层)【operator data store】..

2021-06-25 23:51:28 200

原创 埋点/行为日志数据模拟生成

本篇目录:目的技术选构日志生成目的:模拟真实业务数据,贴近实战项目技术选构:flume+hive日志生成:数据库数据准备 准备一个mysql服务器(注意,是在你的虚拟机的机器上,不是本地mysql),并创建一个库:realtimedw 2. 将realtimedw.sql这个脚本,导入到你的realtimedw库...

2021-05-22 11:33:23 724 1

原创 大数据实战之离线数仓整体规划

前言大家好,从今天开始,我们将进入到离线数仓项目搭建系列,一来是想对自己所学和实践做一个系统性归纳和结合,二来也是为了给大家多分享一些心得。【在此过程中,有任何疑问或想法,均可在QQ群139809179中提出交流】背景2014年,马云爸爸提出,“人类正从 IT 时代走向 DT (Data Technology)时代“。JDC的报告显示:预计到 2020 年,全球数据总量将超过 40ZB(相当于 40万亿 GB )。“十三五”规划纲要也明确提...

2021-05-13 23:40:17 783 1

原创 4.30-暨4月下半月错误点、知识点总结

1、字段名可以加特殊符号吗?可以比如字段名是name;crate table tb(`name` string)2、mysql 错误对比插入数据报错:1)需要13个参数,但是query只提供了12个占位符有13个,但数据源只提供了12个字段2)Column count doesn't match value count at row 1列数目和所要插入的值的个数不匹配说白了就是人家有13个字段,但是你多insert into的时候,多给了值或者少给...

2021-04-30 18:16:51 117 1

原创 实战之从阿里云dataworks的maxcomputer中导出数据

背景大数据存储场景:一般有点实力的公司,会自有机房,将自己的内部数据存储在服务器集群当中,而一些前期没考虑机房的公司,会选择将数据存储在公有云上,国内现在比较厉害的有阿里云、华为云、亚马逊云等。今天有个需求,客户公司,他们的数据存储在阿里云上,使用的是MaxCompute(原ODPS)来计算和分析数据。MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务。考虑到直连客户数据库的敏感性和数据的安全性,我们选择直..

2021-04-29 18:27:07 4803 2

原创 ETL-数据同步-实际需求-积分数据同步优化方案

需求:求所有人近30天的总积分变化情况故最终结果表数据(mysql)结构:字段名称 业务含义phone 用户手机号码,唯一主键uid uidpt_1_points 过去第一天积分总数 以今日4.23为例,过去第一天即4.22的积分总数pt_2_points 过去第二天积分总数.....

2021-04-28 18:08:10 155

原创 mysql之更新、移除json格式的数据的属性

表schema格式:(uid为主键)uid,name,age,pro数据样式:'100','tom',18,'{"attr1:''湖北省-武汉市"}'mysql中对pro进行添加属性要求实现:对pro添加一个attr2的属性,如果不存在此属性,则添加;如果存在此属性,则更新。事先将pro为null的记录去除掉(无效、垃圾数据)实现语句:insert into student values('100','hgc','28',CONCAT('{"attr2":','"18-.

2021-04-26 12:35:55 908

原创 2021-4-14hive之错误总结

本篇是2021年4月上半月遇到的一些问题和解决方案,思考,注意点,以备以后自己忘记可以快速查询,定位类似错误并解决。1、hive低版本,可能不太支持有的地方嵌套子查询,比如case when中,例如:case when exp then (子查询) when exp then (子查询) else value end as alias还比如在where 条件中也不能出现子查询select name from...

2021-04-14 23:45:53 592

原创 自己学习测试 CRT连接不上虚拟机 重新配置ip地址

物理机更改VMnet8的ip地址 是ipv4的ip地址根据 虚拟机设置的 自动配置的有网段 192.168.158 重点是158 这个是分配的 后面跟每台机器的id不能重复windows 192.168.158.2linux01 192.168.158.3linux02 192.168.158.4linux03 192.168.158.5修改linux的ip地址vi /etc/sysconfig/network-scripts/ifcfg-ens33...

2021-03-09 20:10:50 1161

原创 面试集锦(七)20210227_大数据面试题

2021-02-27 20:21:08 139 1

原创 面试集锦(六)20210225_大数据面试题

今日内容一道sql题目训练 两道spark面试题sql题目训练延续上一篇数据店铺id,时间,电子类,服装类,食品类sid,dt,dz,fz,spa,2020-01,3000,4000,5000a,2020-02,4000,9800,5000a,2020-03,3000,3333,6555a,2020-04,3000,4444,5000a,2020-05,4444,4000,4546a,2020-06,3000,4000,2888a,2020-07,2333,1879,.

2021-02-25 20:50:19 151

原创 面试集锦(五)之手写sql面试题目_20210224_大数据面试题

今日内容sql修炼之葵花宝典 kafka面试题整理 离线数仓之整体规划sql修炼之葵花宝典数据如下:店铺id,时间,电子类,服装类,食品类sid,dt,dz,fz,spa,2020-01,3000,4000,5000a,2020-02,4000,9800,5000a,2020-03,3000,3333,6555a,2020-04,3000,4444,5000a,2020-05,4444,4000,4546a,2020-06,3000,4000,2888a,2020-.

2021-02-24 21:07:10 299

原创 面试集锦(四)之手写sql面试题目_20210222_大数据面试题

本篇内容5个sql题目 连续性sql题目思路5个sql题目T1、题目描述有一个员工表employees简况如下:有一个薪水表salaries简况如下:请你查找薪水排名第二多的员工编号emp_no、薪水salary、last_name以及first_name,不能使用order by完成,以上例子输出为:由题意:不得使用order by 那么我们可以先求出最大的,把这个最大的薪水的人给排除掉之后,再从里面求出最大的即为薪水排名第二多的with ...

2021-02-22 20:53:07 754 5

原创 面试集锦(三)之手写sql面试题目_20210207_大数据面试题

本篇内容是大数据面试sql部分题目,今日题目较为简单,就不一一题解。【题目来源:牛客网sql部分】查找各个部门当前领导当前薪水详情有一个全部员工的薪水表salaries简况如下:有一个各个部门的领导表dept_manager简况如下:请你查找各个部门领导薪水详情以及其对应部门编号dept_no,输出结果以salaries.emp_no升序排序,并且请注意输出结果里面dept_no列是最后一列,以上例子输入如下:答案:selects.*,d.dept...

2021-02-07 21:52:28 395

原创 null和任何值进行逻辑运算 其结果仍然是null

select null !=0 结果仍然是null除非 使用 null is null 返回1 null is not null 返回0在使用查询出来的结果 可能为null的情况要考虑进去比如select cal !=0cal的结果包含了null 但是有时候这个null我们是不能将其丢掉的而只使用cal!=0 null !=0 返回的结果仍然是null,并不会返回1 使用它作为条件 将会过滤掉这条数据完整where条件应是 w...

2021-02-07 21:40:13 1486

原创 >net start mysql 发生系统错误 5。 拒绝访问。

navicat 连接本地mysql数据库 出现下图所示错误打开本地dos命令行 mysql 发现也报错应该是本地mysql服务没启动启停mysql服务net start/stop mysq发现还报错误,拒绝访问 一般是权限不够,使用管理员身份运行cmd 并启动mysql服务再连接 好了(#^.^#)...

2021-02-07 16:01:57 281 1

原创 面试集锦(二)之手写sql面试题目及map端join_20210206_大数据面试题

本篇是大数据面试题部分,今日内容sql题目 map端joinsql题目查询第二高的薪水编写一个 SQL 查询,获取 Employee表中第二高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述Employee表,SQL查询应该返回200 作为第二高的薪水...

2021-02-06 17:49:54 258

原创 面试集锦(一)之手写sql面试题目及Linux&shell面试题_20210203_大数据面试题

本篇是大数据面试题部分,今日内容sql题目 本次sql题目来源:易学在线 答案提供:小编本人 Linux&shell面试题sql题目有数据如下dept_id,dt,fdl10000,2021-01-02,101010000,2021-01-06,104110000,2021-01-03,89010000,2021-01-08,102010000,2021-01-04,105010000,2021-01-05,101010000,2021-01-11,10...

2021-02-03 20:45:46 370

原创 hive之窗口函数和自定义函数

本篇主要讲解常用的几个窗口函数,以及如何自定义函数常用的普通函数,比如类型转换 cast(field as type) 将某列值(字符串)转换为某个类型 比如double或者 to_unix_timestamp(field) 将某列值(字符串)转换为timestamp 单位为s或者日期格式化函数date_format 这些 普通的函数,忘记的时候可以百度查一下api或者去spark sql文档中去找一找,参照一下demo就可以使用了而窗口函数在实际应用中也比较...

2021-01-20 23:01:49 596

原创 DBeaver之数据库管理工具连接apache hive

工具优点:使用DBeaver客户端工具连接优点:1)操作方便,形如Navicat一样的良好的可视化界面2)支持多种数据源如下图:不管是关系型数据库还是非关系型数据库都可以很好的连接3)领导喜欢在界面工具上查看hive里的数据下载并安装这里我提供了免费的客户端供大家下载,请移步至微信公众号Hadoop大数据开发 回复db领取下载 免安装 下载即用连接hive1)下载好之后,打开dbeaver.exe 点击左上角,小插头2)选中apa...

2021-01-18 22:07:15 525

原创 数仓项目之数据采集实战及ODS层数据初步导入

在实际生产开发当中,适当的设计agent的数量和模式,并很好的将数据采集过来,是我们分析数据的第一步,即先要有数据业务系统那边进行埋点,记录日志,到服务器本地磁盘当中考虑使用高可用模式,并使用级联模式,上游一个agent,下游两个agent,因为要对数据进行简单的清洗 、处理,所以需要一个自定义拦截器上游agent高可用模式1个source taildir类型1个channel file类型高可...

2021-01-13 18:09:00 1306

原创 数仓项目之数据采集实战及ODS层数据初步导入和flume日志采集过程中问题监控及解决方案

在实际生产开发当中,适当的设计agent的数量和模式,并很好的将数据采集过来,是我们分析数据的第一步,即先要有数据业务系统那边进行埋点,记录日志,到服务器本地磁盘当中考虑使用高可用模式,并使用级联模式,上游一个agent,下游两个agent,因为要对数据进行简单的清洗 、处理,所以需要一个自定义拦截器上游agent高可用模式1个source taildir类型1个channel file类型高可用:2个sink 获得的数据一样 但同时只有一个sink在运转 当主sin...

2021-01-13 18:05:22 838 1

原创 flume分布式数据采集工具概述及安装配置、使用

背景我们前面一直在写处理程序、sql去处理数据,大家都知道我们要处理和分析的数据是存在hdfs分布式文件存储系统当中的但这些数据并不是一开始就存储在hdfs当中的,有些数据在业务系统的机器上,有些数据在日志系统的机器上这就要求我们能够将数据从业务系统的机器上给收集过来,而且后面我们实践后续项目时也要求能够对数据进行采集(不然数据从哪来?)比如说我们需要分析用户的行为习惯,通过分析了解用户的喜好等,从而为公司的运营指导方向,对用户进行精准投放广告或者推荐,提高公司产品的转化率再或者通过.

2021-01-08 22:06:00 440

原创 sparkSQL整合hive

若是开发要用到之前的hive的元数据,而又不想在hive里面编程,可以选择整合spark,在spark中写hive sql整合步骤:1.安装MySQL并创建一个普通用户,并且授权 CREATE USER 'hive'@'%' IDENTIFIED BY '123456'; GRANT ALL PRIVILEGES ON hivedb.* TO 'hive'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIV...

2021-01-07 17:29:19 310

原创 SQL经典面试案例之SparkSQL和DSL风格编程实践

饱受RDD编程的折磨,如同前期编写MR程序时的煎熬,而今遇上spark sql和DSL编程,才知遇上了真爱,真宛如斯人若彩虹,遇上方知有。SQL常见面试场景中无非逐行运算、分组聚合运算、划窗口运算三种,熟练掌握了这三种,相信在各个大数据的SQL面试当中,都不会有太大的问题。连续活跃用户案例有数据如下:uid,dtguid01,2018-02-28guid01,2018-03-01guid01,2018-03-01guid01,2018-03-02guid01,2018-03.

2021-01-05 23:43:31 532

原创 spark快速入门(三)-------spark部署及运行模式

spark支持多种部署方案,包括spark自带的standalone资源调度模式(StandAlone);运行在hadoop的yarn资源调度框架中(SparkOnYARN);local本地模式;可以运行在Mesos资源调度框架上;还可以运行在k8s(Kubernetes)上。今天对前三个(standalone、sparkonyarn、local进行阐述)local模式1)运行在本地,利用本地资源进行计算2)一般进行测试时会使用本地模式3)使用方式I:使用idea 代码中设置mas.

2021-01-02 22:56:37 393

原创 spark快速入门(二)-------spark粗略流程简述及常见名词解释

学如逆水行舟,不进则退。spark流程简述(1)有算子触发Action,Driver端和hdfs的namenode进行通信,询问元数据信息。根据元数据信息 及相应切分规则切分任务切片,计划分区(task),并向Master申请相应的资源(2)Master收到Driver的交互信息,并根据自己所管理的Worker节点,决定在哪个Worker上启动Executor(手残上面图中executor写掉了个e)(3)在Worker启动了本次应用所需要的Executor之后,Executor..

2021-01-01 19:55:22 178

原创 spark快速入门(一)-------spark概述及安装配置

本篇内容 spark简介及概述 spark集群安装及配置 spark中常见术语解释 spark常见提交任务方式 常见算子代码实践及解析 spark简介及概述Spark是一种快速、通用、可扩展的大数据分析引擎。特点:1)快速高效之前学习的hadoop中的MapReduce作为第一代分布式大数据计算引擎,在设计的时候,受当时计算机硬件条件所限(内存、磁盘、cpu等),为了能够计算海量数据,需要将中间结果保存到HDFS中,那么就要频繁读写H

2020-12-24 21:15:52 257 3

原创 函数式编程之实践

本示例代码全部使用java编写,目的是为了实现类scala函数式编程,或map对集合中的每一个元素做映射,结果返回新的集合或数组,要求能链式调用,且使用泛型

2020-12-20 14:53:32 122 1

原创 java中局部代码块、静态代码块、构造代码块的区别及类的加载过程和加载时机

前言本篇主要讲述java中几种常见的代码块,及它们之间的区别,并阐述了类的加载时机及加载过程,中间用代码案例加以实践阐述。代码块在java中使用{}括起来的叫做代码块,根据其位置和声明的不同,可以分为局部代码块、静态代码块、构造代码块。局部代码块:局部位置,用于限定局部变量的生命周期。构造代码块:在类的成员位置,用{} 括起来,每实例化一次对象,执行一次里面的代码,且多个构造代码块,按照顺序执行构造代码块静态代码块:在类的成员位置,用static{} 只有在类加载的时候,才会执

2020-12-19 20:48:27 206 1

原创 使用akka框架和scala语言编写简单的RPC通信案例并打包到linux机器上模拟提交到集群上运行

前言1)akka框架是一个并发的、分布式的、可伸缩性的、高性能的RPC通信框架,大数据开发框架Spark、flink底层原理中或多或少都用到了2)scala语言真的很强大、好用、方便,结合了面向对象语言和函数式语言的特点akka的原理图大多数分布式框架或工具 都遵循着主从节点的架构设计,在这里我们暂不考虑高可用的模式(高可用可参考文章Zookeeper之HDFS-HA高可用模式)每个机器上的一个进程中只存在着1个通信角色对象 ActorSystem ,也就是说 Acto..

2020-12-18 22:58:48 220 5

原创 java maven仓库依赖出现问题解决办法

idea maven 项目 依赖 右边 时不时的出现红色波浪线下载失败 的现象,很是烦恼,原因是 有时候下载 包 可能由于网络或其他原因中断下载了一半,再重新下载就会出现问题解决办法如下1.重新打开idea 0.05% 能解决2.windows 下执行下列脚本 清除一下包,重新添加依赖,下载包set REPOSITORY_PATH=E:\my_repository\repositoryrem 正在搜索...for /f "delims=" %%i in ('dir /b ...

2020-12-18 15:45:20 315

原创 使用scala轻松完成wordcount统计案例

之前使用java疯狂写代码,计算单词的个数,之后又编写mr程序处理,统计单词个数,可代码还是多,今天就使用强大的scala语言来进行编程,统计单词的个数。有数据"scala,Spark,Hadoop,Hbase,hive", "Hive,Hbase,Scala", "Hive,spark"先用一个数组来储存//数据val data = Array("scala,Spark,Hadoop,Hbase,hive", "Hive,Hbase,Scala", "Hive,spark").

2020-12-14 21:10:31 811 1

原创 面试_SQL题目_答案_解析_每日一练_12-11

1.答案:selectclas,sum(score)fromtb_scorewhere clas='2班'group by clas;结果:+-------+------+| clas | _c1 |+-------+------+| 2班 | 176 |+-------+------+优化点:这里的2班这个条件我放在了where条件中,而不是放在分组之后的having条件中,这里是一个很重要的优化。2.答案:selectc.teacher...

2020-12-11 16:53:30 120

原创 CDH之安装步骤_CDH安装笔记_CDH安装小记_详细

CDH相当于一个大的容器,将各种组件很好的协调分配组合在一起,去掉了我们烦躁的配置和安装操作。今天把安装步骤记下来,以后用到的时候来看。1 (修改) 配置文件 vi /etc/selinux/config —> SELINUX=disabled2 安装JDK 配置环境变量rpm -ivhrpm -ivh oracle-j2sdk1.8-1.8.0+update181-1.x86_64.rpmvi /etc/profileexport JA...

2020-12-10 13:22:26 345

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除