西瓜和葡萄-CSDN博客

原创 Quartz默认数据库表分析

汇总：Quartz默认提供了11张表，本文将对这几张表做简要的分析。表信息目录汇总：表信息1.qrtz_blob_triggers2.qrtz_cron_triggers3.qrtz_simple_triggers4.qrtz_simprop_triggers5.qrtz_fired_triggers6.qrtz_triggers7.qrtz_job_details8.qrtz_calendars9.qrtz_paused_trigger_grps

2022-03-23 15:30:08 3321

原创 Linux常用快捷键

快速清空文件内容 : > access.log true > access.log cat /dev/null > access.log echo -n "" > access.log echo > access.log truncate -s 0 access.log 快速生成大文件 ddif=/dev/zeroof=file.imgbs=1Mcount=...

2021-04-07 14:48:17 103

原创 HDFS读写流程分析

一 HDFS读流程 client跟namenode通信查询元数据，namenode通过查询元数据，找到文件块所在的datanode服务器挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流 datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验，大小为64k）客户端以packet为单位接收，现在本地缓存，然后写入目标文件二 HDFS写流程客户端跟namenode通信请求上传文件，namenod

2020-11-26 23:04:45 134

原创 redis持久化

Redis 是一个开源（ BSD 许可）的，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。它支持的数据类型很丰富，如字符串、链表、集合、以及散列等，并且还支持多种排序功能。什么叫持久化？用一句话可以将持久化概括为：将数据（如内存中的对象）保存到可永久保存的存储设备中。持久化的主要应用是将内存中的对象存储在数据库中，或者存储在磁盘文件中、 XML 数据文件中等等。...

2019-12-25 11:15:21 193

原创创建springboot项目报错Error:connect timed out

解决方案：进入到IDEA的setting搜索 HTTP Proxy选择Auto-detect proxy settings点击最下面的Check connection弹出如下的输入框，输入地址https://start.spring.io点击ok，如果successful证明连接成功，重新生成一次，完美生成springboot项目...

2019-05-10 14:17:32 6325 2

原创 Hive SQL数据类型和存储格式

一、数据类型1、基本数据类型 hive支持关系型数据中大多数基本数据类型类型描述示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数，-32768~32767 1S int 4个字节的带符号整数 ...

2019-03-12 14:46:46 1860

原创 hive元数据信息对应的MySQL数据库表

目录概述一、存储hive版本的原数据表（VERSION）二、元数据表（DBS、DATABASE_PARAMS）三、视图相关的元数据表（TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联）四、hive文件存储信息相关的元数据表（SDS、SD_PARAMS、SERDES、SERDE_PARAMS）五、表字段相关的元数据表（COLUMNS_V2）...

2019-03-12 14:16:25 3208

原创 hive基础理论知识

目录hive简介什么是hivehive的优点hive的缺点hive和RDBMS（关系型数据库）的对比Hive的架构执行流程Hive的数据组织 hive简介什么是hive Hive由Fackbook实现并开源是基于Hadoop的数据仓库工具可以将结构化的数据映射成一张数据库表有HQL(hive的sql)查询底...

2019-03-11 14:17:25 422

原创选择排序

选择排序工作原理：首先，找到数组中最小的那个元素，将它和数组的第一个元素交换位置（如果第一个元素就是最小元素，那么它就和自己交换）。其次，在剩下的元素中找到最小的元素，将它与数组的第二个元素交换位置。如此往复，直到将整个数组排序结束。动态图片演示：代码：public static void main(String[] args) { int[] a = { 7, 8, 9, ...

2019-03-08 16:16:29 111

原创 org.apache.maven.archiver.MavenArchiver.getManifest(org.apache.maven.project.MavenProject, org.apach

新创建或者导入的maven项目中，pom文件第一行报错org.apache.maven.archiver.MavenArchiver.getManifest(org.apache.maven.project.MavenProject, org.apache.maven.archiver.MavenArchiveConfiguration)解决方法：1、help-->install n...

2019-03-06 10:52:52 321

原创 Java连接hbase获取数据

以下代码是同一个服务连接两个不同的hbase集群获取数据1、pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0...

2019-02-25 13:58:34 15195

原创 IDEA远程连接虚拟机

使用idea链接虚拟机，方便开发测试，本文主要将idea配置连接和idea开发测试idea配置连接1、打开链接配置（Tools-->Deployment-->Configuration）2、自定义虚拟机名称和连接方式（连接方式选择SFTP）3、配置虚拟机具体信息4、展示虚拟机页面5、打开虚拟机控制台idea开发测试1、在虚拟机目录创建文件并编写简单代...

2018-11-22 10:44:15 7232 7

原创安装ambari

环境准备关闭seLinux：sed -i '/SELINUX/s/enforcing/disabled/' /etc/selinux/config 关闭防火墙： service iptables stop chkconfig iptables off service iptables status 搭建本地yum源 (1)执行安装命令：yum instal...

2018-11-17 16:24:26 118

原创 ambari2.6.2源码编译

环境准备系统选择：centos6.5 64位关闭selinux：sed -i '/SELINUX/s/enforcing/disabled/' /etc/selinux/config 关闭防火墙： service iptables stop chkconfig iptables off service iptables status 安装jdk 先卸载原有的安装配...

2018-11-17 15:52:51 555

原创搭建大数据环境三（zookeeper安装）

1、下载安装包：wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz2、解压安装包3、修改配置文件进入解压目录：cd zookeeper-3.4.10 创建数据目录和日志目录 mkdir data mkdir log 修改conf配置 mv zoo_...

2018-10-24 17:49:12 185

原创环境搭建过程中的问题

问题一：查看hdfs目录，告警：WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable直接在log4j日志中去除告警信息。在//usr/local/hadoop-2.5.2/etc/hadoo...

2018-10-24 15:08:11 214

原创搭建大数据环境一（环境准备）

一、环境准备CentOS-6.5 E:\镜像\CentOS-6.5-x86_64-bin-DVD1.iso 搭建三台主机： H:192.168.152.129 H1:192.168.152.190 H2:192.168.152.191 防火墙设置清空系统防火墙：iptables -F 保存防火墙配置：service iptables save 永久关闭内核防火墙...

2018-10-24 10:11:45 967

原创搭建大数据环境二（hadoop2.0集群搭建）

Hadoop2.0下载安装包：wget http://archive.apache.org/dist/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz 解压安装包增加配置：cd hadoop-2.6.0/etc/hadoop vim hadoop-env.sh export JAVA_HOME=/root/jdk1.8.0_112...

2018-10-24 10:10:08 220

原创动态规划LCS

LCS是Longest Common Subsequence的缩写，即最长公共子序列。一个序列，如果是两个或多个已知序列的子序列，且是所有子序列中最长的，则为最长公共子序列。两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列: – 字符串12455与245576的最长公共子序列为2455 – ...

2018-07-31 18:13:51 712

原创 python引入redis

python默认是不支持python的，所以使用python开发redis时，需要引入redis包。这个包我已经上传资源，地址：https://download.csdn.net/download/chengbai121444/105634821、下载上传服务器进行解压2、进入解压后的文件夹，执行：python setup.py install3、进入python进行验证，impo...

2018-07-25 16:06:13 1221

原创 redis的简便安装

先下载安装包，我是用的是本地的包，在我的上传文件中有1、上传压缩包2、解压：tar -zxvg redis-2.8.3.tar.gz3、进入加压目录的src目录进行编译，直接执行make命令4、启动redis：./redis-server5、进入客户端：./redis-cli 后续会进一步更新redis的各种详细配置...

2018-07-25 11:23:32 100

原创 python开发TFIDF值

数据处理过程中很多情况需要对某个信息进行打分，判断这个信息字段的重要行，这里拿文章的单词进行距离，获取TFIDF值。TFIDF打分：某个词对文章重要性1、TF：一个词在文章中出现的次数2、IDF：反文档频率词频(TF )：某个词在文章中出现的次数：词频（TF ）=某个词在文章中出现的次数/文章的总词数词频（TF ）=某个词在文章中出现的次数/该文出现次数最多...

2018-07-12 17:37:17 1186

原创 python开发MapReduce

启动类run.shhadoop fs -rmr -skipTrash /test/outhadoop jar /usr/local/src/hadoop-2.6.0/share/hadoop/tools/lib/hadoop-streaming-2.6.0.jar \ -input "/test/1.data" \ -output "/test/out" \ -mapper "p...

2018-07-10 17:20:15 461