海阔天空&沫语-CSDN博客

本文基本涵盖以下内容：一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一) 七、Hive/Hadoop高频面试点集合(二) 基于Hadoop的数据仓库Hive基础知识Hive是基于Hadoop的数据仓库工具，可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理，提供了类似于SQL语言的

2022-04-25 18:28:47 659

转载 sqoop导入mysql数据到Hive的各种方案

sqoop 导入到处 mysql-hive 的案例

2022-12-13 22:38:21 4774 3

转载 Install PSSH

pssh 的安装和使用方法，一款跨集群拷贝工具

2022-12-06 00:42:10 445

原创架构师的效率工具

架构师的效率工具

2022-11-18 22:57:39 725

转载解决Hive动态分区小文件过多问题

为了支撑相应的业务需求，本次生产环境通过Hive SQL来完成动态插入分区表数据的脚本开发。但是，动态分区的插入往往会伴随产生大量的小文件的发生。而小文件产生过多的影响主要分为以下两种情况

2022-10-16 00:24:06 1988

转载盘点互联网造的一些词汇

盘点互联网造的一些词汇

2022-09-24 16:00:21 352

原创 Pycharm编辑器设置提示函数参数

pycharm 编辑器的快捷键，代码补全快捷键

2022-07-31 10:53:51 2215

原创常见大数据组件启动命令集合

大数据的常见命令

2022-06-13 21:16:44 823

原创 zeppelin连接 phoenix 注意事项

zepplelin 连接 phoenix 时，Phoenix 报错：Error: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled (state=43M10,code=726)..

2022-06-07 22:26:15 225

原创 Flink1.13集成Hadoop3.x的解决方法

问题描述Flink1.13.6 如何集成Hadoop-3.3.0通常Flink集群配置好后，还不能直接访问HDFS，因为缺少相关jar包，会弹出无法解析hdfs类型的schema的错误：org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme 'hdfs'. The scheme is not directly supp

2022-05-22 22:44:15 1779

转载 Linux面试题总结（49道题含答案解析）

文章目录1、绝对路径用什么符号表示？当前目录、上层目录用什么表示？主目录用什么表示? 切换目录用什么命令？2、怎么查看当前进程？怎么执行退出？怎么查看当前路径？3、怎么清屏？怎么退出当前命令？怎么执行睡眠？怎么查看当前用户 id？查看指定帮助用什么命令？？4、Ls命令执行什么功能？可以带哪些参数，有什么区别？5、查看文件有哪些命令？6、列举几个常用的Linux命令。7、你平时是怎么查看日志的？8、建立软链接(快捷方式)，以及硬链接的命令9、目录创建用什么命令？创建文件用什么命令？复制文件

2022-05-18 07:17:46 1143

原创在 CDH 中调优 Apache Hive on Spark

Spark 上的 Hive 在提供相同功能的同时提供比 MapReduce 上的 Hive 更好的性能。在 Spark 上运行 Hive 不需要更改用户查询。具体来说，完全支持用户定义函数 (UDF)，并且大多数与性能相关的配置都使用相同的语义。本主题介绍如何在 Spark 上配置和调整 Hive 以获得最佳性能。本主题假设您的集群由 Cloudera Manager 管理，并且您使用 YARN 作为 Spark 集群管理器。以下部分中描述的示例假设一个 40 主机 YARN 集群，每台主...

2022-05-05 12:25:47 1364

原创 Flink 全局快照, 恢复, 二段提交

Flink global snapshot, restore, two-phase commit快照原理chandy Lamport算法的一种变体被称为异步屏障快照容错机制-障碍的实现原理主要是通过不断生成快照来实现。快照主要包含两部分数据，一部分是数据流，另一部分是状态数据。相应的快照机制有两个组成部分: Barrier和State。因为数据在DAG中流动，所以需要满足它以获取快照。在此时间之前的所有数据都被处理，在此时间之后的数据都不被处理.Barrier 原理一个Stream

2022-05-01 14:43:21 1302

原创 cloudera时钟同步

cloudera 安装部署，时钟因为宕机、集群重启出现的时钟偏差问题，从而导致有些依赖时钟一致的组件不可用，此时需要校对时钟信息。下面给一个时钟同步的方式，供大家参考：1. 安装 NTPyum install -y ntp2. 配置参数配置/etc/ntp.conf主节点：这里的 192.168.88.2 是集群的网关，主从机器都要保持一致。server 就是同步的服务器地址，优先同步阿里云时间从节点：从节点保证和主节点保持一致。3. 启用 nt.

2022-04-28 12:53:19 1426

转载 hive数据仓库-bucket分桶

hive中table可以拆分成partition， table和partition可以通过CLUSTERED BY 进一步分bucket，bucket中的数据可以通过SORT BY排序。bucket主要作用：数据sampling 提升某些查询操作效率，例如mapside join 需要特别注意的是：clustered by和sorted by不会影响数据的导入，这意味着，用户必须自己负责数据如何如何导入，包括数据的分桶和排序。 set hive.enforce.bucketing = true 可

2022-04-25 22:22:17 356

翻译 flink基础与flink培训——出租车乘车项目

本培训对Apache Flink进行了自以为是的介绍，包括足够让您开始编写可伸缩的流ETL、分析和事件驱动的应用程序，同时忽略了许多(最终重要的)细节。重点是为Flink的状态和时间管理api提供直观的介绍，希望您掌握了这些基础知识后，能够更好地从文档中了解需要了解的其他内容。具体来说，你会学到:- 如何建立一个环境来开发Flink程序- 如何实现流数据处理管道- Flink如何以及为什...

2019-12-31 17:50:08 1212

原创 Kafka常用API命令汇总

Kafka常用API命令汇总0、启动kafka集群kafka-server-start.sh -d config/server.properties1、列出集群里的所有主题。$ kafka-topics.sh --zookeeper node01:2181,node02:2181,node03:2181 --list2、创建一个叫作my-topic的主题,主题包含8分区,每个分区拥有...

2019-12-31 17:10:49 468

原创上传源码到github 扫盲贴

上传源码到github扫盲贴安装github bash登陆github并创建新的项目打开Git Bash扫盲贴如果第一次使用向github上传源码。这里是一个比较好的演示例子, 可以仔细阅读这篇文章，了解一下github上传源码的基本操作过程。安装github bashgit client download url登陆github并创建新的项目点击右上角创建一个新的项目，填写项...

2019-07-06 21:21:11 189

翻译 flink kmeans聚类算法实现

kmeans聚类算法 flink版本具体实现原理K-Means 是迭代的聚类算法，初始设置K个聚类中心在每一次迭代过程中，算法计算每个数据点到每个聚类中心的欧式距离每个点被分配到它最近的聚类中心随后每个聚类中心被移动到所有被分配的点移动的聚类中心被分配到下一次迭代算法在固定次数的迭代之后终止(在本实现中，参数设置)或者聚类中心在迭代中不在移动本项目是工作在二维平面的数据...

2019-06-05 14:20:14 1955 1

转载 kafka如何保证数据不重不漏，无乱序

消息丢失和消息重复，从生产端和消费端来考虑如何保证消息有序消费端重复消费：建立去重表消费端丢失数据：关闭自动提交offset，处理完后再手动提交移位由于在使用kafka的高级API时，消费者会自动每隔一段时间将offset保存到zookeeper上，此时如果刚好将偏移量提交到zookeeper上后，但这条数据还没消费完，机器发生宕机，此时数据就丢失了。解决方法：关闭自动提交，改成...

2019-05-31 06:41:31 1970

翻译机器学习及flinkML算法学习

机器学习及flinkML算法机器学习概念机器学习算法根据训练数据(training data)使得表示算法行为的数学目标最大化，并以此来进行预测或者做出决定。机器学习分为分类、回归、聚类等，每种都有不一样的目标。应用场景和处理流程所有的算法都需要定义每个数据点的特征(feature)集->输入；正确的定义特征才是机器学习中最有挑战的部分。大多数算法都是专为数据特征(就是一...

2019-05-29 14:00:54 16352 5

原创修改notebook安装目录和浏览器及python操作mysql增删改查操作

修改jupyterLab浏览器和notebook保存地址找到jupyter_notebook_config.py 配置文件import webbrowserwebbrowser.register("chrome", None, webbrowser.GenericBrowser(u"C:\\Users\\admin\\AppData\\Local\\Google\\Chrome\\App...

2019-05-27 15:30:33 203

原创业务中台和数据中台

业务中台实现了后端业务资源到前台易用能力的转化。业务共享单元用户中心商品中心交易订单中心评价中心店铺中心搜索中心数据服务中心营销中心数据中台从后台及业务中台将数据流入，完成海量数据的存储、计算、产品化包装过程，构成企业的核心数据能力。比如海量数据进行采集、计算、存储、加工的一系列技术集合，包括数据模型、算法服务、数据产品、数据管理等等，和企业的业务有较强的关联...

2019-05-27 14:58:57 19211 1

原创运行 Hive

运行 Hive运行 Hive 之前必须保证 HDFS 已经启动，可以使用 start-dfs.sh 来启动，如果之前安装 Hadoop 是已启动，次步骤可略过。从 Hive 2.1 版本开始, 在启动 Hive 之前需运行 schematool 命令来执行初始化操作:schematool -dbType mysql -initSchema启动 Hive,输入命令 Hive>&...

2019-05-27 10:58:54 426

原创回顾springcloud

配置注册中心配置pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLo...

2019-05-26 21:28:37 82

原创 markdown模板笔记

markdown模板笔记微信公众号格式化工具我的公众号Markdown基础语法引用分割线图片超链接列表无序列表用 - + * 任何一种都可以有序列表列表嵌套代码示例表格示例在命令行打开 VSC微信公众号格式化工具使用微信公众号编辑器有一个十分头疼的问题——粘贴出来的代码，格式错乱，而且特别丑。这块编辑器能够解决这个问题。在这里粘贴您的Markdown文档，点击“预览”按钮转换为HTML格...

2019-05-25 22:00:17 1926

原创 flink集群部署和常见问题解惑

安装hadoop集群1、解压缩hadooptar zxvf hadoop-2.7.7.tar.gz -C /usr/2、在 nd-00 ~ nd-02 配置环境变量vim /etc/profileexport HADOOP_HOME=/usr/hadoop-2.7.7export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport PATH=...

2019-05-23 20:07:39 1484

翻译 apache flink是什么

flink是一套分布式数据处理框架，解决有界和无界的数据流状态计算，flink被设计运行在常见的集群环境，高速处理和大规模计算。介绍一下flink架构处理无边界和有边界的数据 1.无边界数据流有数据开始，没有数据结束，数据会源源不断的产生，无界数据流必须持续的处理，不可能等到所有数据都到达了再处理，因为没有结束的数据。 2.有界数据流...

2019-05-23 20:02:28 188

转载静态代理和动态代理

学习 Spring 的过程中，不可避免要掌握代理模式。这篇文章总结一下代理模式。顾名思义，代理，就是你委托别人帮你办事，所以代理模式也有人称作委托模式的。比如领导要做什么事，可以委托他的秘书去帮忙做，这时就可以把秘书看做领导的代理。下面将以这个例子来讲解。代理模式又分为静态代理和动态代理。一、静态代理静态代理的使用静态代理，代理类和被代理的类实现了同样的接口，代理类同时持有被代理类的...

2019-05-15 13:26:21 72

转载 flink如何动态支持依赖jar包提交

通常我们在编写一个flink的作业的时候，肯定会有依赖的jar包。flink官方希望你将所有的依赖和业务逻辑打成一个fat jar，这样方便提交，因为flink认为你应该对自己的业务逻辑做好单元测试，而不应该把这部分测试工作频繁提交到集群去做。但事实是我们往往不愿意打一个fat jar，我们希望将业务逻辑独立出来，依赖动态提交。可惜的是，flink并不支持这种提交模式。 ...

2019-05-13 23:31:46 4085

原创 flink集群搭建

工作预研中记录的工作笔记供大家指导借鉴。flink集群的搭建和相关hadoop集群安装步骤和运行脚本。直接上代码。安装hadoop集群1、解压缩hadooptar zxvf hadoop-2.7.7.tar.gz -C /usr/2、在 nd-00 ~ nd-02 配置环境变量vim /etc/profileexport HADOOP_HOME=/usr/hadoop-2...

2019-05-12 23:01:54 224

原创用户选择一个value过滤数据

3种方法创建：1- Using variable name 在两个问题标记(？？) 创建过滤器和添加一个变量名在2个问题marks之间2-Using ‘Build prompt page’ 按钮创建提示页面3-创建一个手工的prompt page goto 网页浏览器

2015-07-29 15:11:13 306

原创 Understanding basic of Report creation

1、Cognos登录2、启动report studio3、选择包4、creation 表 / 交叉表和chart reports拖动一个组织结构和订单受理维度，试试手感。选择图标类型，绑定数据

2015-07-29 14:49:29 461

翻译欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-07-29 14:20:45 305

转载开源 Java 中文分词器 Ansj 作者孙健专访

Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。在线演示：http://ansj.sdapp.cn/demo/seg.jsp官网地址：http://www.ansj.org/Github地址：https://github.com/ansjsun/ansj_seg介绍一下Ansj

2015-04-25 21:17:30 517

转载文本特征提取方法研究

一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处

2015-04-25 21:16:23 536

转载 Dom4j解析xml文件

要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的

2015-04-06 23:56:37 413

转载 Spring framework source download methods

一、三种下载方法1、官方Spring tool suite版本，Spring framework官网提供的一套定制开发Spring应用程序及基于Eclipse的开发环境，它提供对Spring程序现成的实施，调试，运行和部署功能，包括集成Pivotal tc Server, Pivotal Cloud Foundry, Git, Maven, AspectJ及其他。下载地址为：http://sp

2015-02-06 10:30:23 544

空空如也

空空如也