Vincer_DB-CSDN博客

原创大数据系统建模方法论简谈

1.根据业务需求构建总线矩阵构建总线矩阵的目的：总线矩阵也是BI核心之一，基本上只要详细了解企业业务战略线就能得出总线矩阵，它对应着企业每一个业务单元，提取业务单元中的一致性维度和事实量值组组合成企业总线矩阵也就是多维分析模型；总线矩阵也是BI项目实施交付的必要成果之一，它与数据仓库的概念模型非常吻合。...

2023-11-13 14:44:15 148

#======================================================================================================================#========================================= gitignore的基础用法 =========================================#=================.

2021-09-20 11:29:18 236

原创数仓hive锁（Hive Lock）

昨天数据仓库hive中一张中间表lock，导致所有依赖这个表的任务失败。影响挺大，借此总结一下以备后面查用。1.Hive 锁的类型hive 目前主要有两种锁，SHARED（共享锁 S）和 Exclusive（排他锁 X）。共享锁 S 和排他锁 X 它们之间的兼容性关系如下：1）查询操作使用共享锁，共享锁是可以多重、并发使用的2）修改表操作使用独占锁，它会阻止其他的查询、修改操作3）可以对分区使用锁。以下情况会触发锁，以及它的类型和锁定范围如下： Hive Comma.

2021-07-07 12:40:42 1623 2

原创 Centos7下内网穿透客户端工具-frpc安装和启动

1.下载frphttps://github.com/fatedier/frp/releases/download/v0.35.1/frp_0.35.1_linux_amd64.tar.gz2.解压tar -zxvf frp_0.35.1_linux_amd64.tar.gz -C /usr/local/3.修改目录名cd /usr/local/mv frp_0.35.1_linux_amd64 frpc4.修改配置文件[common]server_addr = 120.

2021-04-14 11:31:00 1281

原创 hive表锁Unable to acquire IMPLICIT, EXCLUSIVE lock

hive报错日志：[INFO] 2021-04-07 13:35:32.351 - [taskAppId=TASK-5-103-481]:[127] - -> Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/jars/hive-common-1.1.0-cdh5.12.1.jar!/hive-log4j.properties Unabl

2021-04-07 13:59:54 1220

原创大数据知识点总结-shell命令

shell脚本第一行写的是什么？第一行的内容指定了shell脚本解释器的路径，而且这个指定路径只能放在文件的第一行#!/bin/bash 以bash shell来解释#!/bin/csh 以csh shell来解释#!bin/sh 以下代码由sh shell来解释如何退出hive shell？exit;或者quit;shell脚本中判断上一个命令是否执行成功？shell中使用符号“$?”来显示上一条命令执行的返回值，如果为0则代表执行成功查看磁盘情况 df -h.

2021-03-21 11:39:55 139

原创 Flink Checkpoint 深入理解

Flink Checkpoint 深入理解如何理解flink中state(状态)案例理解flink的状态(state)为什么需要state管理checkpoint中保存的是什么信息多并行度、多Operator情况下，CheckPoint过程什么是barrier对...

2021-03-16 12:07:08 255

原创数据库的四种隔离级别

数据库的四种隔离级别1，读未提交（脏读），Read Uncommited。指的是一个事务读取到另外一个事务还没有提交的内容。这种情况是必须要避免的。因为其他事务未提交的数据，是随时有可能进行回滚的，所以，任何时候，都不应该允许程序读取到某个事务还未提交的数据。如果读取到了别的事务未提交的数据，这种情况称为脏读。要想解决脏读的问题，可以提高数据库的事务隔离级别，把事务隔离级别设置为读已提交。2，读已提交，Read Committed。这个隔离级别可以解决脏读的问题。在该隔离级别下，不允许2

2021-03-01 09:19:20 324

原创用hql求每天同时最大在线人数

最近划水刷京东面试题，遇到一个看似简单的手写hql，大概题意如下：给定一个表event_log,字段有date,timestamp，event_name(只有login、logout两种)，user_id。用hql求每天同时最大在线人数细细琢磨，此题不简单！难度在于求的是同时在线的人数，而不是每天在线人数。

2021-02-25 18:20:37 876 2

原创 Kafka常识总结

1. Kafka的用途、使用场景？用途:异步、解耦、削峰、提速、广播场景:消息,网站活动追踪,监测指标,日志聚合,流处理,事件采集,提交日志等2. Kafka中的ISR、AR？ISR的伸缩又指什么ISR:与leader保持同步的follower集合，副本同步队列 AR:分区的所有副本ISR:是由leader维护，follower从leader同步数据有一些延迟（包括延迟时间和延迟条数两个维度, 0.10.x版本之后只支持延迟时间），任意一个超过阈值都会把follower剔除出ISR,

2021-01-19 14:29:08 140

原创 Python实现socket通信：服务端和客户端代码

Python实现socket通信：服务端和客户端代码服务端代码客户端代码服务端代码#!/usr/bin/env python# -*- coding:utf-8 -*-import socketdef do_server(ip,port): ip_port=(ip,port) sk = socket.socket() #连接地址 sk.bind(ip_port) # 开始TCP监听,监听5个请求 sk.listen(5) while Tr

2021-01-13 15:08:38 730 5

原创系统架构风格

所有架构风格汇总如下：类别架构风格名常考关键字及实例简介数据流批处理传统编译器，每个阶段产生的结果作为下一阶段的输入，区别在于整体。一个接一个，以整体为单位管道-过滤器一个接一个，前一个输出是后一个输入。调用/返回主/子程序

2020-09-03 06:30:55 589

原创 Python连接MySQL数据库插入数据的代码

1.首先，导包import pymysqlimport json2.操作代码 ################################################ # 打开数据库连接（ip/数据库用户名/登录密码/数据库名） db = pymysql.connect("127...

2020-03-13 22:13:25 1159

原创 Flink1.9.1,scala2.12连接kafka2.11_2.40实例

1.添加相关依赖 <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12</artifactId> <version>1.9.1</version&...

2020-01-13 23:51:56 1823 2

原创 SparkStreaming读取配置了HDFS高可用某目录下的文件并写入到hive

//创建sparkSession val sparkConf = new SparkConf().setAppName("dwd_member_import").setMaster("local[*]") val sparkSession = SparkSession.builder().config(sparkConf).enableHiveSu...

2019-11-07 10:19:16 475

原创 Flink自定义aggregate聚合函数的步骤

第一步：将dataStream转换城windowedStream // 从kafka读取数据 val inputStream = env.addSource(new FlinkKafkaConsumer[String]("hotitems", new SimpleStringSchema(), properties)) .map(dat...

2019-10-27 21:54:58 8181 4

原创 Flink乱序数据处理过程解析

warter是用来定义延迟触发窗口操作的时间的，假设窗口时00：00~00：05，warter为1分钟，那么相当于将接收这个窗口中的数据的时间向后延长了1分钟，自然操作这些数据的时间也会延迟1分钟。在不添加EventTime，只有窗口操作的情况下，Flink实时性得到了最大的发挥，但是于此同时，操作结果也非常不准确，只要过来的数据有达到窗口的结束时间window_end_time的，将会马上触发窗口，那么在接收数据是乱序的情况下，将会导致此窗口的数据大部分的丢失。

2019-10-26 13:20:08 986 1

原创 Flink的各种数据源（source）

第一步：创建流处理环境： val env = StreamExecutionEnvironment.getExecutionEnvironment第二步：读取数据第一种.从已有集合读取数据 val stream1 = env.fromCollection(List( SensorReading("sensor_1", 1547718159, 4),...

2019-10-23 14:40:23 5063

原创 Flink根据流式数据处理WordCount详解任务并行度

import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala._object StreamWordCount { def main(args: Array[String]): Unit = { // 创建流处理的执行环境 ...

2019-10-23 11:16:57 886

原创 Flink配置参数解释

# jobManager 的IP地址jobmanager.rpc.address: hadoop102# JobManager 的端口号jobmanager.rpc.port: 6123# JobManager JVM堆大小jobmanager.heap.size: 1024m# taskmanager JVM堆大小taskmanager.heap.size: 1024m...

2019-10-23 10:07:58 817

原创大数据StructureStreaming从json读取数据并分析示例代码

import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructType}/** * Author Vincer * Date 2019/09/26 10:10 */object StreamingDS { ...

2019-10-15 16:08:24 156

原创 flume如何保证数据的可靠性

1.事务Flume使用两个独立的事务分别负责从soucrce到channel，以及从channel到sink的事件传递。一旦事务中所有的事件全部传递到channel且提交成功，那么source就将该文件标记为完成。同理，事务以类似的方式处理从channel到sink的传递过程，如果因为某种原因使得事件无法记录，那么事务将会回滚。且所有的事件都会保持到channel中，等待重新传递。Flu...

2019-10-15 16:07:07 1628

原创 hadoop和spark的shuffle异同点

从 high-level 的角度来看，两者并没有大的差别。两者都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTask）。Reducer 以内存作缓冲区，边 shuffl...

2019-10-15 15:34:01 657

原创 Spark的启动部分源码解析（org.apache.spark.deploy.master.Master，org.apache.spark.deploy.master.Worker）

Master入口函数： // 启动 Master 的入口函数 def main(argStrings: Array[String]) { Utils.initDaemon(log) val conf = new SparkConf // 构建用于参数解析的实例 --host hadoop102 --port 7077 -...

2019-09-28 19:10:27 505

原创 spark的start-master.sh（Master 启动脚本）分析

#!/usr/bin/env bash# Starts the master on the machine this script is executed on.#在执行此脚本的计算机上启动主机。#第一步：判断是否有SPARK_HOME的环境变量,如果没有，则将当前spark所在目录定为SPARK_HOMEif [ -z "${SPARK_HOME}" ]; then expor...

2019-09-28 18:21:42 1636

原创 Spark中为RDD设置检查点

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CheckPointDemo { def main(args: Array[String]): Unit = { // 要在SparkContext初始化之前设置, 都在无效 ...

2019-09-26 16:39:25 283

原创 Spark编程中函数的传递

Spark 进行编程的时候, 初始化工作是在 driver端完成的, 而实际的运行程序是在executor端进行的. 所以就涉及到了进程间的通讯，下面的实例演示函数的传递import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SerDemo { def mai...

2019-09-26 16:09:56 160

原创大数据SparkSql创建临时表并查询数据

import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructType}/** * Author Vincer * Date 2019/09/26 10:10 * Language Scala */object ...

2019-09-26 10:57:06 4439

原创大数据StructureStreaming从json读取数据并分析示例代码

import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructType}/** * Author Vincer * Date 2019/09/26 10:10 * Language Scala */object...

2019-09-26 10:35:44 411

原创 ubuntu服务器安装nodejs的完整过程

说明：本人为重装ubuntu，所以里面的文件都是清空的，从空白的服务器上面安装系统：ubuntu服务器：腾讯云主机连接软件：xshell1.打开xshell，正确连接你的腾讯云服务器2.输入：sudo apt-get install nodejs 以管理员方式安装nodejssudo apt-get install nodejs出现下面图片所示内容：输入：y,...

2019-04-13 01:58:31 3481

原创 JS生成id的算法

之前再网上找了很多有关生成id的算法，都缺少一定的实用性，目前有一个业务，需要生成id，于是本人自己整理一套混合时间戳和随机字符串的算法，既可以从id中提取出时间信息，又可以很好的避免重复，但是考虑到字符串小于9位会有小概率重复，建议大家使用时尽量传入大于9的值，代码如下：function get_id_string(length){ //length为id的长度 //timest...

2019-04-10 13:54:29 909

原创 java中实例化一个圆并计算圆的面积

package page;/* * 设计一个类，计算圆面积 */public class circle_Class { public static void main(String[] args) { // 实例化圆 circle c1 = new circle(); // 设置圆半径为1.7 c1.radius = 1.7; //计算元的面积 c1.area...

2019-04-04 20:11:55 11535

原创 java中类和实例化类对象

package page;/* * 创建一个类 * 实例化类中的对象 *///测试类public class testClass { // 实例化类，并调用类中的对象 public static void main(String[] args) { // 第一个实例化的类 persons person = new persons(); // 第一个实例化的类执行s...

2019-04-04 19:52:18 353

原创 java中对数组的简单操作：求最大、最小值、平均数、和等

package page;import javax.lang.model.element.VariableElement;public class arr_ind { public static void main(String[] args) { int[] arr = new int[] { 12, 34, 343, -4, 65, 3, 67, 02, 37 }; in...

2019-04-04 19:29:00 919

原创 HTML获取焦点和失去焦点

<input name="username" onfocus="function_1()" onBlur="function_2() " placeholder="请输入账户" /> 其中，获取焦点事件语句是： onfocus="function_1()" 失去焦点事件语句是： onBlur="function_2() "...

2019-03-27 10:52:36 6200 1

原创比较好用的纯js控制鼠标移入显示标签，移出时候隐藏标签的方法

<button id="show_tiggle">移入显示内容，移出隐藏内容</button ><div id="tiggle" style="display:none;">默认隐藏，移入显示的div</div><script> (function(){ //获取到按钮和对应显示隐藏的标签 var b...

2019-03-20 17:38:31 2507

原创 Arcgis api for js加载底图

<!DOCTYPE html><html> <head> <meta charset="utf-8"> <title>GIS共享服务平台</title> <meta name="keywords" content="GIS共享服务平台"> <meta name="description"...

2019-03-19 17:27:45 1228

原创常见js操作Cookie的实例

1.新建Cookie function setCookie(name, value, day) { var exdate = new Date() exdate.setDate(exdate.getDate() + day * 60 * 60) d...

2019-03-18 17:43:19 227

空空如也

空空如也