大数据同盟会-CSDN博客

原创 notepad ++ 将制表符（tab）替换为空格

notepad ++ 将制表符（tab）替换为空格

2022-11-09 14:33:52 4230 1

原创 Hive中索引的使用

Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量

2022-07-14 14:33:00 2311 3

原创 Kudu之SQL操作(KUDU&Impala基本操作)

通过impala对kudu进行sql操作

2022-07-07 08:55:44 1887

一、基本语法1、建表语句目前只有MergeTree、Merge和Distributed这三类表引擎支持 alter 操作。create table test_ddl1( id UInt16 , name String)engine = MergeTree() order by id ;--MergeTree一定要指定主键和排序字段，order by 代表两个含义查看建表语句show create table test_ddl12、修改表结构alter table

2022-05-29 18:52:00 2280

原创大数据之clickhouse安装部署

一、clickhouse简介优点：缺点：

2022-05-15 21:48:12 5905

原创谁欠谁的幸福

你把婚约给了吉吉把陪伴给了子诺把孝顺给了父母却将牵挂给了我你终于和别人步入了婚姻殿堂，成为了别人的新娘也许你知道，也许你不知道也许你装作不知道他曾为你倾其所有，逃课挂科退学也许你记得，也许你不记得他曾在欧美学院心跳网吧陪伴你一夜只为见你一面也许你留着，也许你没留着他曾转遍燕山大学周边的饰品店为你挑选的一对耳坠也许你忘记，也许你没忘记他曾在欧美学院8号楼下站立了一个晚上而你却从未下楼一步也许你应该，也许你不应该撕掉了他前往任丘的车票让任丘，成为了他人生的禁地这一切永远定

2022-05-02 15:57:57 2742 3

原创大数据之Drools安装使用

一、Drools安装1、导入相关依赖<dependency> <groupId>org.drools</groupId> <artifactId>drools-compiler</artifactId> <version>7.23.0.Final</version></dependency><dependency> <groupId>org.proj

2022-04-07 21:36:15 3758

原创大数据之实时数仓建设（四）

Table & SQL API 是⼀种关系型 API，用户可以像操作 mysql 数据库表一样的操作数据，而不需要写java 代码完成 Flink Function，更不需要手工的优化 java 代码调优。BatchTableEnvironment (离线批处理Table API)ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();BatchTableEnvironment tEnv = Batch

2022-04-05 23:01:23 4748

原创大数据之Canal安装与配置

canal是用java开发的基于数据库增量日志解析，提供增量数据订阅&消费的中间件。目前，canal主要支持了MySQL的binlog解析，解析完成后才利用canal client 用来处理获得的相关数据。canal可以记录mysql的binlog的偏移量，对mysql侵入性比较小，支持灵活配置，可以配置输出的存储系统。一、Canal工作原理首先了解一下mysql主备复制原理：（1）master主库将改变记录，发送到二进制文件（binary log）中（2）slave从库向mysql M

2022-03-31 15:54:35 5796

原创大数据之实时数仓建设（三）

业务数据库的实时分析：业务数据库就是MySQL（集群），假设直接在业务数据库中写SQL进行查询，如果复杂的查询（多维度聚合、join、并且数据流比较大）业务数据库的性能就会下降。甚至不能完成正常的业务功能（不能完成普通的业务数据的查询、插入、修改或是性能下降）...

2022-03-31 15:11:31 4489

原创大数据之实时数仓建设（二）

如果数据量大，维度多，用keyBy并不方便，建议写到外部实时数仓里，Clickhouse擅长实时查询，flink擅长实时处理。一、多维度复杂统计（使用Clickhouse）使用是clickhouse的ReplacingMergeTree，可以将同一个分区中，ID相同的数据进行merge，可以保留最新的数据，可以使用这个特点实现Flink + Clickhouse（勉强）实现数据一致性。存在的问题：写入到clickhouse中的数据不能立即merge，需要手动optimize或后台自动合并。解决方案：

2022-03-26 17:29:15 5033

原创大数据之OpenResty安装使用

一、OpenResty介绍OpenResty 是一个基于 Nginx与 Lua 的高性能 Web 平台，其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。OpenResty通过汇聚各种设计精良的 Nginx模块，从而将 Nginx有效地变成一个强大的通用 Web 应用平台。，快速构造出足以胜任 10K 乃至 1000K 以上单机并发连接的高性能 Web 应用系统。简单的说：OpenResty = N

2022-03-20 22:32:07 6776

原创大数据之实时数仓建设（一）

一、数据采集服务

2022-03-20 16:50:11 5384

原创大数据之flink数据一致性

一、flink分析结果写入redis1、下载link-hadoop整合包，放入所有节点2、KafkaToRedisWordCountpackage cn._51doit.flink.day08;import cn._51doit.flink.day02.RedisSinkDemo;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.serializatio

2022-03-19 21:31:08 3865

原创大数据之flink状态（下）

一、State的存活时间任何的keyed state都有存活时间，如果配置了TTL;，且状态值已过期，会尽大可能清除对应的值。1、设置ValueState存活时间package cn._51doit.flink.day08;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.RichMapFunction;import org.apac

2022-03-13 22:54:27 3827

原创大数据之flink定时器

一、

2022-03-12 21:51:50 6159

原创大数据之flink状态（上）

一、概念理解1、State状态Flink实时计算程序为了保证计算过程中，出现异常可以容错，就要将中间的计算结果数据存储起来，这些中间数据就叫做State。2、StateBackEnd用来保存State的存储后端就叫做StateBackEnd，默认是保存在JobManager的内存中，也可以保存的本地文件系统或HDFS这样的分布式文件系统3、CheckPointingFlink实时计算为了容错，可以将中间数据定期保存到起来，这种定期触发保存中间结果的机制叫CheckPointing二、重启策略

2022-03-02 22:56:20 1728

原创 hive删除分区部分数据

insert overwrite table t_finance_tax_bill partition (importdate='20220218')select bill_id , apply_emp_id , bill_type_name , apply_emp_name , reimbursement_name , bill_apply_date

2022-02-25 17:06:28 18211 2

原创大数据之flink共享资源槽

一、开启新链package cn._51doit.flink.day05;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.tu

2022-02-22 23:16:32 3348

原创大数据之flink中join用法

1、将两个流中的数据进行join处理package cn._51doit.flink.day05;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.tuple.Tuple3;import org.apache.flink.api.java.tuple.Tup

2022-02-14 19:48:05 4100

原创大数据之flink物理分区

一、分区1、rebalance轮询分区package cn._51doit.flink.day03;import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.api.common.functions.RuntimeContext;import org.apache.flink.configuration.Configuration;import org.apache.flink.s

2022-02-11 23:25:56 3233

原创大数据之flink时间窗口函数

一、分区1、rebalance分区

2022-02-06 23:18:04 6721

原创大数据之flink常用算子

一、source分类单并行的Source直接实现了SourceFunction接口1、socketTextStream("localhost", 8888)2、fromCollection(Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))3、fromElements(1,2,3,4,5,6,7,8,9,10,11,12) 多并行的Source实现ParallelSourceFunction接口4、generateSequence(1, 100)

2021-12-13 21:45:54 7491

原创大数据之flink入门安装

flink是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态计算，可部署在各种集群环境中，对各种大小的数据规模进行快速计算。

2021-12-07 19:48:01 7062

原创大数据之Impala安装使用

Kylin和Impala区别：既然在线分析已经使用了kylin，为啥还用impala呢？因为kylin不够灵活，只能分析简单的星型/雪花模型，impala可以通过窗口函数，进行复杂的行为数据分析；反之，当数据量大的时候，impala比较慢，所以只用kylin进行预计算。一、...

2021-12-04 21:51:09 7607

原创 main ERROR Unable to invoke factory method in class class org.apache.hadoop.hive.ql.log.HushableRand

报错信息：产生原因mr将数据量小的表识别成了大表，数据量大的识别成小表，导致将数据量大的表加入到内存，导致程序异常.解决办法set hive.execution.engine=mr;set hive.mapjoin.smalltable.filesize=55000000;set hive.auto.convert.join = false; #取消小表加载至内存中...

2021-12-02 17:30:58 3279 1

原创大数据之kylin介绍安装

Kylin：是一个开源的、分布式的分析型数据仓库系统，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，它能在亚秒内查询巨大的表。

2021-11-27 22:37:12 1144

原创 Hive 修复分区 msck repair table

Hive 修复分区 msck repair tableHive 修复分区 msck repair tableHive 修复分区 msck repair tableHive 修复分区 msck repair table

2021-11-22 16:36:10 8251

原创机器学习之逻辑回归算法

逻辑回归：是一个分类算法，它可以输出一个分类结果，同时输出分为此类的概率。1 根据业务理解，个人经验，框选大量的候选特征因素；2 再用统计学在样本中求因素跟结论之间的相关度大小，来进行筛选。流失概率风险预测特征相关度package cn.doitedu.ml.lossimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.linalgimport org.apache.spark.ml.linalg.Vectors

2021-11-21 16:13:48 3083

原创机器学习之线性回归算法

线性回归：通过用户流失概率预测：

2021-11-14 21:56:37 2073

原创 hive优化

1、使用分区表和分桶表2、使用count(1)，不使用count(*)3、指定明确字段，不使用select * from emp4、使用特殊的存储格式列式存储： orc parquet5、小表 join 大表，避免笛卡尔积6、开启map端聚合，默认是打开的7、避免 count (distinct 字段)8、适当调整maptask和reducetask个数9、测试数据时，使用本地模式set mapreduce.framework.name=yarn(默认)set mapr

2021-11-07 20:44:12 2245

原创机器学习之贝叶斯算法

机器学习算法，就是基于大量经验数据对某个问题进行预测的算法；1、机器学习分类从训练特点，可以分为监督学习、无监督学习、半监督学习；从解决问题，可以分为分类算法，聚类算法，回归分析算法，推荐算法；2、数学基础向量：就是一串数字，代表现实中某个事物的一系列特征和特征值相似度：用欧几里得距离来衡量相似度：用余弦相似度衡量：概率入门：联合概率 P(A^B) ：多件事情都发生的可能性！条件概率 P(A | B) = P(A^B)/ P(B) : B条件下A发生的概率贝叶斯公式 P(B

2021-09-07 20:40:14 2824

原创大数据之数据仓库建设（四）

一、用户画像：就是为所有用户，生成各类“标签”，比如消费等级（A,B,C），活跃等级(A,B,C)，流失风险等级（A,B,C），品类偏好 TOP3，活跃事实（月登陆次数，月访问时长）更多java、大数据学习面试资料，请扫码关注我的公众号：...

2021-08-29 22:13:00 3402

原创大数据之Atlas元数据管理

背景：公司做数据仓库时，管理自己多张表时，需要使用元数据管理系统进行管理。更多java、大数据学习面试资料，请扫码关注我的公众号：

2021-08-22 19:07:16 6463

原创 sqoop 常用参数解析

一、mysql导入数据到HDFSbin/sqoop import \--connect jdbc:mysql://doitedu01:3306/realtimedw \--username root \--password ABC123abc.123 \--table dim_pginfo \--target-dir /sqoopdata/dim_pginfo \ --fields-terminated-by '\001' \ 每个列值之间的分隔符 --delete-

2021-08-15 13:17:45 3776

原创大数据之数据仓库建设（三）

数据仓库理论一和二，主要讲流量域；数据仓库理论三和四，主要讲业务域，即业务库里的数据。

2021-08-11 22:46:16 2896

原创 Hive最常用的函数大全

1、把固定日期转换成时间戳select unix_timestamp('2020-05-29','yyyy-MM-dd') --返回结果 1590681600select unix_timestamp('20200529','yyyyMMdd') --返回结果 1590681600select unix_timestamp('2020-05-29T13:12:23Z', "yyyy-MM-dd'T'HH:mm:ss'Z'") --返回结果 1590729143select unix_time

2021-08-10 10:58:27 2838

原创 Impala sql实现同比计算（lag函数）

一、同比与上年度同月数据对比称"同比"，与上月数据对比称"环比"同比的话，如果每个月都齐全，都有数据lag(num,12)就可以了，空值的话，使用lag()函数的第三个参数。 select t2.index_name,t2.new_index_code,t2.now_value,t2.update_time, lag (t2.now_value, 12, 0) over (ORDER BY t2.update_time) AS last_num

2021-08-06 14:49:43 4684

空空如也

空空如也