自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

永青技术博客

即将35岁,快要被裁员了,还不快学习去......

  • 博客(97)
  • 资源 (2)
  • 收藏
  • 关注

原创 CDH yarn Fair 队列最大资源使用限制,任务无法提交

2023-06-29 15:48:20,877 INFO org.apache.flink.yarn.YarnClusterDescriptor [] - Deployment took more than 60 seconds. Please check if the requested resources are available in the YARN cluster2023-06-29 15:48:21,129 INFO org.apache.flink.yarn.YarnClusterD

2023-06-30 14:45:34 504

原创 基于3.0.0-cdh6.3.2版本编译Flink1.14.4

java.lang.Runtimelxception:java,lang.IllegalArgumentException:UnrecoonizedHadoopmajorversionnumber:3.0.0-cdh6.2.1

2023-05-25 21:13:11 1159

原创 海豚dolphinscheduler-shell 执行hivesql任务 Permission denied 异常

关键异常:/tmp/dolphinscheduler/hive.log (Permission denied) java.io.FileNotFoundException: /tmp/dolphinscheduler/hive.log (Permission denied)异常明细:

2023-04-20 14:17:18 1198

转载 数据湖技术架构

数据湖

2023-01-29 16:47:05 2100

原创 企业级集群搭建方案建议(基于CDH )

集群规模取决于用户数据及应用需求,最终规划值为以下各种计算方式得出的最小集群规模的最大值・容量需求– 估算相对容易且准确– 大多数案例可以通过容量来决定集群规模・计算需求– 准确的估算计算资源只能通过小规模测试并合理估算・其他资源限制– 如用户 MapReduce 应用可能对内存等资源有特殊要求,且单节点可配置资源相对有限,则集群最小规模需满足用户此类资源要求・建议使用万兆网络或更高速度网络– 如要充分利用磁盘并行操作带宽,至少需要万兆网络。

2022-09-07 15:38:08 1103

原创 CPU配置|cpuinfo参数

物理CPU个数8每个物理CPU的核数4逻辑CPU的个数逻辑cpu个数=物理CPU个数×每颗核数32。

2022-07-25 10:19:57 2333 3

原创 flink&kafka-connector消费 protobuf格式数据

一、背景需求客流仿真系统是用C#写的,生成客流明细数据实时写入kafka。但是,,,同时写的也很慢,性能达不到要求。讨论之后,因为仿真数据是在redis集群上分布生成的,现直接以收集到的对象数据封装为protobuf,经实时数据总线(接口)转入kafak,flink实时消费数据,,,那么问题是,我要解析 protobuf数据格式、拆分为明细数据、md5、去重、关联基础数据,压力在我这边了,没办法先测试一把吧!二、protobuf模板对象生成1、使用protobuf将模板生成java文件首先下载一个windo

2022-07-04 15:20:59 1281

原创 c#使用Confluent.Kafka实现生产者发送消息至kafka(远程连接kafka发送消息失败的解决)

C# Confluent.Kafka实现生产者发送消息至kafka失败

2022-06-22 11:11:53 1027

翻译 一个大数据架构师应该掌握的技能

硬能力一:平台建设 1.行业平台 1)大平台 谷歌云 亚马逊云 阿里云 腾讯云 网易云 华为云 2)小平台 国云 国双 青云 勤思 3)专业工具平台 海致BDP 永洪 易观 4)APP分析平台 mix panel growing IO 神策 诸葛 IO 2.技术选型 1)CDH 2)HDP+HDF

2022-05-25 23:22:34 1622 5

原创 CDH6.1.x手动安装Phoenix5.0

1、背景CDH6.2已经支持phoenix Parcel, 可以下载对应包后在CM界面化方式安装。CDH6.1 貌似没有集成phoenix。手动安装吧2、安装过程[root@cdh03 ~]# apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz[root@cdh03 ~]# tar -zxf apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz[root@cdh03 ~]# mv apache-phoenix-5.0.0-HB

2022-05-22 14:36:34 397

原创 clickhouse.except.ClickHouseUnknownException异常

1、异常描述2、异常日志------------------------------------------------------------ The program finished with the following exception: org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: org.apache.flink.client.pro

2022-03-26 00:09:38 6940

原创 flink批量写入clickhouse,频繁请求导致内存异常(非ck内置设置问题)

一、问题背景在综合决策平台客流预测实时计算过程中,flink30s步长窗口,需要实时大批量数据实时写入clikhouse,频繁请求导致内存异常。User class threw exception: ru.yandex.clickhouse.except.ClickHouseException: ClickHouse exception, code: 241, host: xxx.xxx.xxx.xxx, port: 8123; Code: 241, e.displayText() = DB::Ex

2022-03-23 11:01:51 5568

原创 Linux 根目录爆满 解决

一、使用df -h命令查看,发现/根目录的剩余空间为0。总共系统盘容量才20G。文件系统 容量 已用 可用 已用% 挂载点/dev/mapper/centos-root 20G 20G 20k 100% /devtmpfs 7.7G 07.7G 0% /devtmpfs 7.7G 168K7.7G 1% /dev/shm...

2021-08-18 17:32:16 15370

原创 数据块丢失,Namenode无法退出安全模式的处理方案

1、背景 同时不小心删除了cdh的server 和namenode节点,具体怎么怎么恢复参考 文章。我操作完了之后,发现数据块有丢失如图。执行退出安全模式命令:hadoop dfsadmin -safemode leave 不管用,在cdh 管理平台操作,退出安全模式,也不管用。妈的。。。。2.解决方案执行 :hadoop dfsadmin -safemode forceExit查看哪些丢失了 :hdfs fsck -list-corruptfileblo...

2021-05-16 22:11:06 508

原创 CDH6.2.0 CM(Server)、NameNode被误删,元数据恢复

一、背景 同时手贱,不小心 执行 rm -rf /* ,5秒钟内关闭。但是系统基本坏掉 ,cdh直接down机。 ls 、cd、which 、,,,,各种命令用不了。阿里云服务器没有快照。终端连接不上。可以ping同。。。。不说了。没办法只能初始化,重点是怎么把hdfs的数据恢复。妈的。蛋疼。。。。二、操作1、初始化节点2、按cdh安装server节点的方式配置所以的操作3、在当前节点安装server、agent4、配置httpdyum -y install ...

2021-05-16 16:42:04 944

原创 Flink on Yarn 问题排查(rest.port与rest.bind-port 端口问题)

一、问题背景最近在做行车数据实时分析,为了后续批流一体化的开发,前期先做技术铺垫。目前使用Flink作为批流一体切入方案。以下是基于yarn模式提交 flinksql job时出现端口冲突的问题二、问题复述1、我目前使用的是flink-1.12.0版本。配置文件如下flink-conf.yamlmaster和worker配置vi masterbj-pan.com-04:11057vi workerbj-pan.com-02bj-pan.com-03...

2021-04-04 00:03:10 5546 3

原创 基于flinksql-1.12.1版本从kafka写入数据到mysql问题

1.背景描述基于flinksql-1.12.1 实现:kafka-—>etl---->Mysqlcreate table if not exists kafka_ods_trainlog( `trainid` BIGINT, `servenumber` BIGINT, `ordernumber` BIGINT, `stationid` BIGINT, `stopareaid` BIGINT, `isstopped` boolean,.

2021-03-22 21:14:56 889

原创 Flink1.12版本小总结

1.官网下载Apache Flink 1.12.1下载https://flink.apache.org/zh/downloads.htmlhttps://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.1/flink-1.12.1-src.tgzgit clone -b release-1.12.1 https://github.com/apache/flink.git --depth=1 flink-1.12.12.Flink1

2021-01-30 17:06:56 2002

原创 基于CDH-6.2.0编译flink-1.12.1(Hadoop-3.0.0&Hive-2.1.1)

1、编译准备环境:jdk-1.8 maven-3.9 2、flink-1.12.1下载https://flink.apache.org/zh/downloads.html3、flink-shaded-12放flink-1.12.1的根目录,进入flink-shaded-12,修改pomx.ml添加 cloudera 的maven库:<!--添加CDH的仓库--><repositories> <re...

2021-01-30 13:58:52 1260 12

原创 cdh一些参考

CentOS7安装CDH 第一章:CentOS7系统安装CentOS7安装CDH 第二章:CentOS7各个软件安装和启动CentOS7安装CDH 第三章:CDH中的问题和解决方法CentOS7安装CDH 第四章:CDH的版本选择和安装方式CentOS7安装CDH 第五章:CDH的安装和部署-CDH5.7.0CentOS7安装CDH 第六章:CDH的管理-CDH5.12CentOS7安装CDH 第七章:CDH集群Hadoop的HA配置CentOS7安装CDH 第八章:CDH中对服

2021-01-24 14:35:49 198

原创 cdh6.2 yarn参数优化小记录(记录中)

一、闲扯 最近离线行车日志数仓,项目即将基于Lambda架构形式,实时基于flink框架,离线批处理基于 HiveOnSpark。中期基于这个机构。最后版本定位FlinkSQL 批流一体化。测试环境基于阿里云搭建的CDH。目前准备跑一下测试的flin实时作业和spark作业。内存有限,所以做了相关调整。略记录一下二、正题1、yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够.

2021-01-24 11:57:03 1249 2

原创 Elasticsearch官方已支持SQL查询,用起来贼方便!

https://www.jianshu.com/p/cf091da8fa77

2020-12-04 09:46:57 214

原创 IntelliJ IDEA 调试技巧

IntelliJ IDEA 调试技巧一、条件断点循环中经常用到这个技巧,比如:遍历1个大List的过程中,想让断点停在某个特定值。参考上图,在断点的位置,右击断点旁边的小红点,会出来一个界面,在Condition这里填入断点条件即可,这样调试时,就会自动停在i=10的位置注 意文末有:3625页互联网大厂面试题二、回到"上一步"该技巧最适合特别复杂的方法套方法的场景,好不容易跑起来,一不小心手一抖,断点过去了,想回过头看看刚才的变量值,如果不知道该技巧,只能再跑一遍.

2020-07-06 19:33:06 169

原创 基于CentOS7.6编译Redis6.0.4 ,gcc版本过低出现:make: *** [all] Error 2问题

一、CentOS7.6 环境编译Redis6.0.4编译命令:异常二、问题描述原因是Linux系统gcc版本过低,yum安装的gcc是4.8.5的。需要升级gcc,如下yum -y install centos-release-sclyum -y install devtoolset-9-gcc devtoolset-9-gcc-c++ devtoolset-9-binutilsscl enable devtoolset-9 bashecho "source /opt/rh

2020-06-09 21:22:03 7357 2

原创 CDH6.2.0-集群扩容(添加新节点)

向CDH6.2.0集群中添加新的主机节点一、新节点基本环境准备1、首先得在新的机器上关闭防火墙、修改selinux、NTP时钟与主机同步(阿里云忽略此步骤)2、在新的机器上环境中安装JDK、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和python.3、上传cloudera-manager文件到/opt目录[root@xx-xx cloudera-repos]# lscloudera-manager-agent-6.2.0-968826.el7.x86_64.rpm

2020-06-08 22:11:38 4034

原创 Spark作业基于Yarn模式提交File file:/tmp/spark- /__spark_libs__.zip does not exist

基于Yarn模式下spark作业执行遇到的问题1.spark作业提交模式脚本#!/bin/sh/home/hadoop/spark-2.1-hadoop2.6/bin/spark-submit \ --class cn.xx.bigdata.test.xxAppAcessLog \ --master yarn \ --deploy-mode cluster\ --executor-memory 1g \ --total-executor-cores 2 \ /home/h

2020-05-24 17:30:46 2782

原创 基于Contos7.X+CDH6.2.0大数据平台搭建(下)

目录一、CDH6.2.0 启动二、CDH6.2.0 初始化三、CDH6.2.0集群安装一、CDH6.2.0 启动主节点启动CM服务:[root@cdh01 ~]# systemctl start cloudera-scm-server所有从节点启动agent服务:[root@cdh01 ~]# systemctl start cloudera-scm-a...

2020-04-20 09:32:38 413

原创 HIVE 开窗函数

在开窗函数出现之前,存在着很多用 SQL 语句很难解决的问题,很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题,在2003年ISO SQL标准加入了开窗函数,开窗函数的使用使得这些经典的难题可以被轻松的解决 ;SQL标准允许将所有聚合函数用做开窗函数,只需要在聚合函数后加over()即可案例演示 1.hive环境下建表与加载数据vi t1.txtu0...

2020-04-18 14:40:04 2981

原创 机器学习分类算法 SVM-支持向量

1. 支持向量1.1 线性可分首先我们先来了解下什么是线性可分 样本中距离超平面最近的一些点,这些点叫做支持向量。复习下函数和向量假如有个方程 y=x/2-1可以变化为 -x+2y+2=0 f(x,y)=-x+2y+2,其中红色的就是他的法向量写成向量的形式: ...

2020-04-10 00:07:44 1628

原创 推荐系统-协同过滤推荐

一、协同过滤推荐概述协同过滤(Collaborative Filtering)作为推荐算法中最经典的类型,包括在线的协同和离线的过滤两部分。所谓在线协同,就是通过在线数据找到用户可能喜欢的物品,而离线过滤,则是过滤掉一些不值得推荐的数据,比比如推荐值评分低的数据,或者虽然推荐值高但是用户已经购买的数据。二、协同过滤推荐分类 协同过滤的模型一般为m个物品,m个用户的数据...

2020-04-08 00:21:38 1821

转载 今日头条的推荐算法原理分析(转)

今日头条发布了后台的算法原理,不过用词比较考究、说的比较深奥,让人感觉云里雾里不知何处,本篇尽量用通俗语言进行解析,希望对大家有所帮助。1、【原文】今日头条算法推荐系统,主要输入三个维度的变量。一是内容特征,图文、视频、UGC小视频、问答、微头条等,每种内容有很多自己的特征,需要分别提取;二是用户特征,包括兴趣标签、职业、年龄、性别、机型等,以及很多模型刻画出的用户隐藏兴趣。三是环境特征,不同...

2020-04-07 18:31:19 1438

原创 相似度计算方法(三) 余弦相似度

一. 向量基本知识点1 向量乘积公式 2 向量模计算公式二. 余弦相似度计算数学原理在工作中一直使用余弦相似度算法计算两段文本的相似度和两个用户的相似度。一直弄不明白多维的余弦相似度公式是怎么推导来的。今天终于花费时间把公式推导出来,其实很简单,都是高中学过的知识,只是很多年没用了,都还给老师了。本文还通过一个例子演示如果使用余弦相似度计算两段文本的相似度...

2020-04-06 23:31:10 74381 4

原创 相似度计算方法(二) 欧几里德距离相似度

1. 欧几里德距离的相似度计算 欧几里德距离计算相似度是所有相似度计算里面最简单、最易理解的方法。它以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到坐标系上,并计算他们彼此之间的直线距离。图中用户A和用户B分别对项目X、Y进行了评分。用户A对项目X的评分为2,对项目Y的评分为4,表示到坐标系中为坐标点A(1.8, 4);同样用户B对项目X、Y的评分表示为坐...

2020-04-06 22:20:33 11528

原创 相似度计算方法(一) 皮尔森相关系数

皮尔森(pearson)相关系数1.相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:(1)、当相关系数为0时,X和Y两变量无关系。(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。(3)、当X的值增大(减小),Y值减小(增大),两个变量为负...

2020-04-06 21:36:20 12865 2

原创 机器学习分类算法 逻辑回归分类算法与梯度上升算法

逻辑回归算法原理https://www.jianshu.com/p/eab7c1aee6ea

2020-04-05 16:48:23 154

原创 机器学习分类算法 朴素贝叶斯

本文讨论的是朴素贝叶斯分类器( Naive Bayes classifiers)背后的理论以及其的实现。朴素贝叶斯分类器是分类算法集合中基于贝叶斯理论的一种算法。它不是单一存在的,而是一个算法家族,在这个算法家族中它们都有共同的规则。例如每个被分类的特征对与其他的特征对都是相互独立的。开始之前,先看一下数据集。这是一个虚构的数据集,这个数据集描述的是天气是否适合打高尔夫球。已知天气情况...

2020-04-04 12:52:05 969

原创 机器学习算法应用场景实例

本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。目录1 分类算法应用场景实例1.1 O2O优惠券使用预测1.2 市民出行选乘公交预测1.3待测微生物种类判别1.4 基于运营商数据的个人征信评估1....

2020-04-03 17:56:45 4333

原创 数据迁移工具Kettle-sqoop import兼容性问题

1、Kettle-sqoop import时mysql驱动包版本问题2020/03/30 00:09:33 - Sqoop import - 2020/03/30 00:09:33 - Preparing to use a MySQL streaming resultset.2020/03/30 00:09:33 - Sqoop import - 2020/03/30 00:09:...

2020-03-30 00:15:05 1454 3

原创 Apache Kylin在电信运营商的应用案例

我们为什么选择Kylin首先,我们的数据规模决定要选择高效的处理技术。北京移动的用户规模超过两千万,每天入库的原始数据超过三百亿条。经过处理后入库的数据是3TB,而集群规模是400TB存储;每天执行的任务超过800个,其中大概有600-700个是属于临时产生的任务,所以我们的集群很繁忙。如果不选择高效的数据处理技术,将无法满足分析需求。Kylin可以在夜间非忙时进行一些预计算,这样可以满足...

2020-03-27 19:07:05 476

原创 数据仓库之模型设计

数据仓库(模型设计)一、数据仓库与数据库的区别1、数据仓库是集成的,数据库为单一的业务提供服务。2、BI结构:数据整合层、数据服务层、应用分析层、信息展现层3、数据层库结构 ODS(临时存储层),一般都是贴源设计、业务数据库是什么,ODS层就是什么PDW/DW(数据仓库层),将年月日,拆分成年、月、日字段,一...

2020-03-22 21:01:22 9097

Eclipse显示initializing java tooling 1% 解决方案

Eclipse显示initializing java tooling 1% 解决方案

2015-03-28

Anroid中View事件发布顺序研究

Anroid中View事件发布顺序研究7

2014-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除