自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据吧唧吧唧

dddddddddebug

  • 博客(39)
  • 收藏
  • 关注

原创 大数据系统建模方法论简谈

1.根据业务需求构建总线矩阵构建总线矩阵的目的:总线矩阵也是BI核心之一,基本上只要详细了解企业业务战略线就能得出总线矩阵,它对应着企业每一个业务单元,提取业务单元中的一致性维度和事实量值组 组合成企业总线矩阵也就是多维分析模型;总线矩阵也是BI项目实施交付的必要成果之一,它与数据仓库的概念模型非常吻合。...

2023-11-13 14:44:15 148

原创 对方感到非常

豆腐干地方dxfdfdfZ。

2023-10-20 23:41:54 66

原创 git .ignore文件相关设置

#======================================================================================================================#========================================= gitignore的基础用法 =========================================#=================.

2021-09-20 11:29:18 236

原创 数仓hive锁(Hive Lock)

昨天数据仓库hive中一张中间表lock,导致所有依赖这个表的任务失败。影响挺大,借此总结一下以备后面查用。1.Hive 锁的类型hive 目前主要有两种锁,SHARED(共享锁 S)和 Exclusive(排他锁 X)。共享锁 S 和 排他锁 X 它们之间的兼容性关系如下:1)查询操作使用共享锁,共享锁是可以多重、并发使用的2)修改表操作使用独占锁,它会阻止其他的查询、修改操作3)可以对分区使用锁。以下情况会触发锁,以及它的类型和锁定范围如下: Hive Comma.

2021-07-07 12:40:42 1623 2

原创 Centos7下内网穿透客户端工具-frpc安装和启动

1.下载frphttps://github.com/fatedier/frp/releases/download/v0.35.1/frp_0.35.1_linux_amd64.tar.gz2.解压tar -zxvf frp_0.35.1_linux_amd64.tar.gz -C /usr/local/3.修改目录名cd /usr/local/mv frp_0.35.1_linux_amd64 frpc4.修改配置文件[common]server_addr = 120.

2021-04-14 11:31:00 1281

原创 hive表锁Unable to acquire IMPLICIT, EXCLUSIVE lock

hive报错日志:[INFO] 2021-04-07 13:35:32.351 - [taskAppId=TASK-5-103-481]:[127] - -> Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/jars/hive-common-1.1.0-cdh5.12.1.jar!/hive-log4j.properties Unabl

2021-04-07 13:59:54 1220

原创 大数据知识点总结-shell命令

shell脚本第一行写的是什么?第一行的内容指定了shell脚本解释器的路径,而且这个指定路径只能放在文件的第一行#!/bin/bash 以bash shell来解释#!/bin/csh 以csh shell来解释#!bin/sh 以下代码由sh shell来解释如何退出hive shell?exit;或者quit;shell脚本中判断上一个命令是否执行成功?shell中使用符号“$?”来显示上一条命令执行的返回值,如果为0则代表执行成功查看磁盘情况 df -h.

2021-03-21 11:39:55 139

原创 Flink Checkpoint 深入理解

Flink Checkpoint 深入理解 如何理解flink中state(状态)案例理解flink的状态(state)为什么需要state管理checkpoint中保存的是什么信息多并行度、多Operator情况下,CheckPoint过程什么是barrier对...

2021-03-16 12:07:08 255

原创 数据库的四种隔离级别

数据库的四种隔离级别1,读未提交(脏读),Read Uncommited。指的是一个事务读取到另外一个事务还没有提交的内容。这种情况是必须要避免的。因为其他事务未提交的数据,是随时有可能进行回滚的,所以,任何时候,都不应该允许程序读取到某个事务还未提交的数据。如果读取到了别的事务未提交的数据,这种情况称为脏读。要想解决脏读的问题,可以提高数据库的事务隔离级别,把事务隔离级别设置为读已提交。2,读已提交,Read Committed。这个隔离级别可以解决脏读的问题。在该隔离级别下,不允许2

2021-03-01 09:19:20 324

原创 用hql求每天同时最大在线人数

最近划水刷京东面试题,遇到一个看似简单的手写hql,大概题意如下:给定一个表event_log,字段有date,timestamp,event_name(只有login、logout两种),user_id。用hql求每天同时最大在线人数细细琢磨,此题不简单!难度在于求的是同时在线的人数,而不是每天在线人数。

2021-02-25 18:20:37 876 2

原创 Kafka常识总结

1. Kafka的用途、使用场景?用途:异步、解耦、削峰、提速、广播场景:消息,网站活动追踪,监测指标,日志聚合,流处理,事件采集,提交日志等2. Kafka中的ISR、AR?ISR的伸缩又指什么ISR:与leader保持同步的follower集合, 副本同步队列 AR:分区的所有副本ISR:是由leader维护,follower从leader同步数据有一些延迟(包括延迟时间和延迟条数两个维度, 0.10.x版本之后只支持延迟时间),任意一个超过阈值都会把follower剔除出ISR,

2021-01-19 14:29:08 140

原创 Python实现socket通信:服务端和客户端代码

Python实现socket通信:服务端和客户端代码服务端代码客户端代码服务端代码#!/usr/bin/env python# -*- coding:utf-8 -*-import socketdef do_server(ip,port): ip_port=(ip,port) sk = socket.socket() #连接地址 sk.bind(ip_port) # 开始TCP监听,监听5个请求 sk.listen(5) while Tr

2021-01-13 15:08:38 730 5

原创 系统架构风格

所有架构风格汇总如下: 类别 架构风格名 常考关键字及实例 简介 数据流 批处理 传统编译器,每个阶段产生的结果作为下一阶段的输入,区别在于整体。 一个接一个,以整体为单位 管道-过滤器 一个接一个,前一个输出是后一个输入。 调用/返回 主/子程序

2020-09-03 06:30:55 589

原创 Python连接MySQL数据库插入数据的代码

1.首先,导包import pymysqlimport json2.操作代码 ################################################ # 打开数据库连接(ip/数据库用户名/登录密码/数据库名) db = pymysql.connect("127...

2020-03-13 22:13:25 1159

原创 Flink1.9.1,scala2.12连接kafka2.11_2.40实例

1.添加相关依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</artifactId> <version>1.9.1</version&...

2020-01-13 23:51:56 1823 2

原创 SparkStreaming读取配置了HDFS高可用某目录下的文件并写入到hive

//创建sparkSession val sparkConf = new SparkConf().setAppName("dwd_member_import").setMaster("local[*]") val sparkSession = SparkSession.builder().config(sparkConf).enableHiveSu...

2019-11-07 10:19:16 475

原创 Flink自定义aggregate聚合函数的步骤

第一步:将dataStream转换城windowedStream // 从kafka读取数据 val inputStream = env.addSource(new FlinkKafkaConsumer[String]("hotitems", new SimpleStringSchema(), properties)) .map(dat...

2019-10-27 21:54:58 8181 4

原创 Flink乱序数据处理过程解析

warter是用来定义延迟触发窗口操作的时间的,假设窗口时00:00~00:05,warter为1分钟,那么相当于将接收这个窗口中的数据的时间向后延长了1分钟,自然操作这些数据的时间也会延迟1分钟。在不添加EventTime,只有窗口操作的情况下,Flink实时性得到了最大的发挥,但是于此同时,操作结果也非常不准确,只要过来的数据有达到窗口的结束时间window_end_time的,将会马上触发窗口,那么在接收数据是乱序的情况下,将会导致此窗口的数据大部分的丢失。

2019-10-26 13:20:08 986 1

原创 Flink的各种数据源(source)

第一步:创建流处理环境: val env = StreamExecutionEnvironment.getExecutionEnvironment第二步:读取数据第一种.从已有集合读取数据 val stream1 = env.fromCollection(List( SensorReading("sensor_1", 1547718159, 4),...

2019-10-23 14:40:23 5063

原创 Flink根据流式数据处理WordCount详解任务并行度

import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala._object StreamWordCount { def main(args: Array[String]): Unit = { // 创建流处理的执行环境 ...

2019-10-23 11:16:57 886

原创 Flink配置参数解释

# jobManager 的IP地址jobmanager.rpc.address: hadoop102# JobManager 的端口号jobmanager.rpc.port: 6123# JobManager JVM堆大小jobmanager.heap.size: 1024m# taskmanager JVM堆大小taskmanager.heap.size: 1024m...

2019-10-23 10:07:58 817

原创 大数据StructureStreaming从json读取数据并分析示例代码

import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructType}/** * Author Vincer * Date 2019/09/26 10:10 */object StreamingDS { ...

2019-10-15 16:08:24 156

原创 flume如何保证数据的可靠性

1.事务Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel到sink的事件传递。一旦事务中所有的事件全部传递到channel且提交成功,那么source就将该文件标记为完成。同理,事务以类似的方式处理从channel到sink的传递过程,如果因为某种 原因使得事件无法记录,那么事务将会回滚。且所有的事件都会保持到channel中,等待重新传递。Flu...

2019-10-15 16:07:07 1628

原创 hadoop和spark的shuffle异同点

从 high-level 的角度来看,两者并没有大的差别。两者都是将 mapper(Spark 里是 ShuffleMapTask)的输出进行 partition,不同的 partition 送到不同的 reducer(Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask,也可能是 ResultTask)。Reducer 以内存作缓冲区,边 shuffl...

2019-10-15 15:34:01 657

原创 Spark的启动部分源码解析(org.apache.spark.deploy.master.Master,org.apache.spark.deploy.master.Worker)

Master入口函数: // 启动 Master 的入口函数 def main(argStrings: Array[String]) { Utils.initDaemon(log) val conf = new SparkConf // 构建用于参数解析的实例 --host hadoop102 --port 7077 -...

2019-09-28 19:10:27 505

原创 spark的start-master.sh(Master 启动脚本)分析

#!/usr/bin/env bash# Starts the master on the machine this script is executed on.#在执行此脚本的计算机上启动主机。#第一步:判断是否有SPARK_HOME的环境变量,如果没有,则将当前spark所在目录定为SPARK_HOMEif [ -z "${SPARK_HOME}" ]; then expor...

2019-09-28 18:21:42 1636

原创 Spark中为RDD设置检查点

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CheckPointDemo { def main(args: Array[String]): Unit = { // 要在SparkContext初始化之前设置, 都在无效 ...

2019-09-26 16:39:25 283

原创 Spark编程中函数的传递

Spark 进行编程的时候, 初始化工作是在 driver端完成的, 而实际的运行程序是在executor端进行的. 所以就涉及到了进程间的通讯,下面的实例演示函数的传递import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SerDemo { def mai...

2019-09-26 16:09:56 160

原创 大数据SparkSql创建临时表并查询数据

import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructType}/** * Author Vincer * Date 2019/09/26 10:10 * Language Scala */object ...

2019-09-26 10:57:06 4439

原创 大数据StructureStreaming从json读取数据并分析示例代码

import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructType}/** * Author Vincer * Date 2019/09/26 10:10 * Language Scala */object...

2019-09-26 10:35:44 411

原创 ubuntu服务器安装nodejs的完整过程

说明:本人为重装ubuntu,所以里面的文件都是清空的,从空白的服务器上面安装系统:ubuntu服务器:腾讯云主机连接软件:xshell1.打开xshell,正确连接你的腾讯云服务器2.输入:sudo apt-get install nodejs 以管理员方式安装nodejssudo apt-get install nodejs出现下面图片所示内容:输入:y,...

2019-04-13 01:58:31 3481

原创 JS生成id的算法

之前再网上找了很多有关生成id的算法,都缺少一定的实用性,目前有一个业务,需要生成id,于是本人自己整理一套混合时间戳和随机字符串的算法,既可以从id中提取出时间信息,又可以很好的避免重复,但是考虑到字符串小于9位会有小概率重复,建议大家使用时尽量传入大于9的值,代码如下:function get_id_string(length){ //length为id的长度 //timest...

2019-04-10 13:54:29 909

原创 java中实例化一个圆并计算圆的面积

package page;/* * 设计一个类,计算圆面积 */public class circle_Class { public static void main(String[] args) { // 实例化圆 circle c1 = new circle(); // 设置圆半径为1.7 c1.radius = 1.7; //计算元的面积 c1.area...

2019-04-04 20:11:55 11535

原创 java中类和实例化类对象

package page;/* * 创建一个类 * 实例化类中的对象 *///测试类public class testClass { // 实例化类,并调用类中的对象 public static void main(String[] args) { // 第一个实例化的类 persons person = new persons(); // 第一个实例化的类执行s...

2019-04-04 19:52:18 353

原创 java中对数组的简单操作:求最大、最小值、平均数、和等

package page;import javax.lang.model.element.VariableElement;public class arr_ind { public static void main(String[] args) { int[] arr = new int[] { 12, 34, 343, -4, 65, 3, 67, 02, 37 }; in...

2019-04-04 19:29:00 919

原创 HTML获取焦点和失去焦点

<input name="username" onfocus="function_1()" onBlur="function_2() " placeholder="请输入账户" /> 其中,获取焦点事件语句是: onfocus="function_1()" 失去焦点事件语句是: onBlur="function_2() "...

2019-03-27 10:52:36 6200 1

原创 比较好用的纯js控制鼠标移入显示标签,移出时候隐藏标签的方法

<button id="show_tiggle">移入显示内容,移出隐藏内容</button ><div id="tiggle" style="display:none;">默认隐藏,移入显示的div</div><script> (function(){ //获取到按钮和对应显示隐藏的标签 var b...

2019-03-20 17:38:31 2507

原创 Arcgis api for js加载底图

<!DOCTYPE html><html> <head> <meta charset="utf-8"> <title>GIS共享服务平台</title> <meta name="keywords" content="GIS共享服务平台"> <meta name="description"...

2019-03-19 17:27:45 1228

原创 常见js操作Cookie的实例

1.新建Cookie function setCookie(name, value, day) { var exdate = new Date() exdate.setDate(exdate.getDate() + day * 60 * 60) d...

2019-03-18 17:43:19 227

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除