- 博客(35)
- 资源 (1)
- 收藏
- 关注
原创 grouping sets 联合 Grouping__ID 如何使用
grouping sets 联合 Grouping__ID 如何使用一、背景1.1 Grouping__ID的使用一、背景(此文的前提是你已经会使用grouping sets 而还不明白Grouping__ID如何使用的情况)在做离线项目开发时,经常会有这种场景:在求某几大类指标时,他们的逻辑其实完全一样,只是其指标所用的去重字段不一样,又或者纬度组合的场景不一样,那么我们一般首先想到的方法是把这几段union all起来。你没有错,union all完全可以解决此场景,但是假如union all的每段
2020-08-11 15:51:50 1311 2
原创 fastapi学习
HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于万维网(WWW:World Wide Web )服务器与本地浏览器之间传输超文本的传送协议。HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。
2024-01-27 19:56:28 879
原创 hive参数调优
注意 : mapreduce.job.reduces=-1 时生效。reduce个数=min(参数2,总输入数量/参数1)– 计算reduce个数公式。
2022-09-25 16:48:05 381 1
原创 pandas学习笔记
pandas是一个开源的python类库:用于数据分析、数据处理、数据可视化。高性能容易使用的数据结构容易使用的数据分析工具numpy:用于数学计算scikit-learn:用于机器学习。
2022-08-23 11:12:59 440
原创 spark踩坑记
排查过程中发现是因为使用了tez作为hive的执行引擎,然后执行insert select union all 时,对应的hdfs数据路径,不是直接存放数据文件,而是先有子目录HIVE_UNION_SUBDIR_x,子目录下再存放数据文件。1.由于spark存在一个机制,为了提高性能,会缓存parquet的元数据信息。当通过hive或其他方式更新了parquet表时,缓存的元数据信息未更新,导致SparkSQL查询不到新插入的数据。
2022-08-23 10:59:04 1191
原创 parted创建磁盘分区并创建LVM(Linux合并多块大于2T的磁盘并合并到一个分区)
一. 前言由于本人会负责一些公司运维工作,在服务器需要挂载大容量磁盘时了解到lvm和parted方式,发现网上关于合并大于2T的磁盘方法不是那么理想,一开始我也不知道,提了一些工单,阿里云工程师贴的答案有的很坑的,反正我被坑了!!!结合阿里云工程师给的方法和自己找的一些方法,“另辟蹊径”成功合并了多块磁盘到一个分区!以下是以大于2T的磁盘为例。二. 使用parted方式格式化磁盘并且创建LVM...
2019-01-02 18:28:00 8688 1
原创 phoenix建立二级索引索要修改的配置
如果不进行任何配置,直接在phoenix上建立二级索引 ,比如create index A_INDEX on "t_tablename"("from_account","to_account","quantity","status") include("from_account","to_account");那么会报错:Error: ERROR 1029 (42
2018-10-25 21:22:26 617
原创 数据同步利器-otter的搭建使用详细说明
环境准备环境准备:zookeeper-3.4.5jdk1.8otter v4.2.14(最新的v4.2.16还是alpha版本,官网不建议用v4.2.15版本)Mysql 5.6.22Otter manager搭建①. otter manager依赖于mysql进行配置信息的存储,所以需要预先安装mysql,并初始化otter manager的系统表结构a. 安装mysql[略...
2018-10-12 15:20:44 11808 5
原创 如何卸载linux自带的openjdk
刚开始我们使用linux系统的时候会有一个自带的openjdk,最好是把它卸载了,要不然后面可能会发生一些冲突问题。 卸载openjdk方式: rpm -qa|grep java rpm -e –nodeps xxxxxxxxxxxxxxxxxxx...
2018-09-02 19:13:13 923
原创 Linux上虚拟机时间同步的有效方式
保证每台机器时间同步: ntpdate ‐u 0.uk.pool.ntp.org ntpdate ‐u 1.uk.pool.ntp.org 以上命令由于网络原因可能有的人会不成功。不成功的话就改用国内的时间同步指令,如下: ntpdate cn.pool.ntp.org 亲测成功!
2017-12-28 20:29:44 1092 1
原创 Spring之Spring Task任务调度
Spring Task任务调度的 介绍:在企业级应用中,经常会制定一些“计划任务”,即在某个时间点做某件事情,核心是以时间为关注点,即在一个特定的时间点,系统执行指定的一个操作 。常见的任务调度框架有Quartz和SpringTask等,这里介绍的是SpringTask。那么我们就来使用springtask做一个入门小案例吧!(使用的是注解方式,xml配置方式有兴趣的朋友们可以查看一下其他资料
2017-11-23 15:53:34 397
原创 如何使用Spring Data Solr搜索引擎进行开发
大多数搜索引擎应用都必须具有某种搜索功能,问题是搜索功能往往是巨大的资源消耗并且它们由于沉重的数据库加载而拖垮你的应用的性能。这就是为什么转移负载到一个外部的搜索服务器是一个不错的主意,Apache Solr是一个流行的开源搜索服务器,它通过使用类似REST的HTTP API,这就确保你能从几乎任何编程语言来使用solr。Solr是一个开源搜索平台,用于构
2017-11-07 16:07:50 10888 5
原创 Spring Data Redis缓存技术的应用介绍
项目常见问题思考:通常对于访问量大的网站来说,每天每时每刻都有大量的人来访问,对数据库造成很大的访问压力,甚至是瘫痪。那如何解决呢?我们通常的做法有两种:一种是数据缓存、一种是网页静态化。这里讨论第一种解决方案。Redis: redis是一款开源的Key-Value数据库,运行在内存中,由ANSI C编写。企业开发通常采用Redis来实现缓存。同类的产品还有memcache 、memcached
2017-11-04 22:13:47 383
原创 SolrCloud 分布式集群安装部署(solr+ zookeeper +tomcat)
第一部分:初始化环境安装软件包版本号:服务器(虚拟机 )准备:虚拟机准备传送门分别在mini4、mini5、mini6上 建立3个文件夹:software目录:software目录是用来存放软件安装包 servers目录:servers目录用来用来安装软件 data目录:data目录用来存放软件运行的数据、日志 然后分别在mini4、mini5、mini6里键入:vi /etc/hosts 修
2017-10-21 16:17:18 690
原创 深入了解Java爬虫的运用技术
首先我们需要知道关于爬虫的一些基本概念,下面我来做一些简单的介绍。1.爬虫是什么?爬虫又叫网络爬虫,是一种运行在互联网上为了获取数据的自动化程序或脚本2.爬虫解决了什么问题爬虫解决了获取数据的问题3.爬虫爬取的数据有什么用和搜索引擎结合使用,对数据进行分析,提取有价值的信息,得到数据的商业价值4.爬虫的简单分类• 通用爬虫:百度 爬取互联网所有数据的爬虫叫做通用爬虫 • 垂直爬虫:为做数据
2017-10-19 21:02:57 3016 2
原创 Linux下mysql忘记密码解决方法
linux输入命令: service mysql stop mysqld_safe –user=root –skip-grant-tables # 跳过权限检查然后另开一个窗口: mysql -uroot mysql # 使用root用户登陆mysql数据库 update user set password=password(“new_pass”) where
2017-10-19 17:55:08 296
原创 Zookeeper集群安装之虚拟机准备
搭建我们的zookeeper集群最少需要三台虚拟机乃至更多,那么如果我们一台一台的去装虚拟机,那速度可想而知,所以我们就需要对虚拟机进行clone更改配置就可以了,前提条件是有一台已经配置好的虚拟机!那么我们开始吧! 先来看看我们的虚拟机: 这里我需要再clone一台mini3出来 ,选中mini2 >>右键管理 >> 选中克隆。如图:然后出现如下界面:然后点击 下一步,出现如图所示:再点下一步
2017-10-19 17:11:22 839
原创 Spring、SpringMVC、Mybatis三大框架整合步骤
开发工具:eclipse 各框架负责的部分:简单一句话概括就是Spring负责处理我们的业务逻辑层,Mybatis专注操作数据库及SpringMVC负责处理我们的视图层,为此减少我们代码开发的耦合度 ,后期管理维护也更加方便。 需求:在页面展示我们的商品信息 起步:①首先创建我们的Maven工程 ②补全eclipse创建maven工程缺少的配置文件web.xml如下:(在webapp下创建一
2017-10-10 19:32:34 728
原创 Spring基于xml的方式开发我们的aop程序
什么是AOP: AOP是面向切面的编程在软件业,AOP为Aspect Oriented Programming的缩写,意为:面向切面编程,通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技术。AOP是OOP的延续,是软件开发中的一个热点,也是Spring框架中的一个重要内容,是函数式编程的一种衍生范型。利用AOP可以对业务逻辑的各个部分进行隔离,从而使得业务逻辑各部分之间的耦合度降低,提高
2017-10-06 20:00:06 378
原创 优雅的Spring框架介绍
什么是spring?我这里简单介绍一下:spring是一个一站式的解决框架,提供了开发JAVA应用程序时所需的全面的基础架构,所以你可以把注意力放到程序实现上。spring的核心是控制反转(IoC)、依赖注入(DI)和面向切面(AOP)spring的优点:* 轻量级的容器框架,没有侵入性* IoC更加容易组合对象之间的关系,通过面向接口进行编程,可以低耦合开发。* 易于本地测试(Junit单元测
2017-10-02 22:59:39 1563 1
原创 Mybatis基于接口代理的方式来开发Dao(二)
接着上一篇继续,首先介绍输入映射:通过parameterType指定输入参数的类型,类型可以是简单类型、hashmap、pojo的包装类型。 需求分析:如果是需要完成用户信息的综合查询,查询的条件可能很复杂,那么我们可以定义一个包装类型的pojo,把所有可能用到的查询条件封装到 此pojo的包装类型里。这里我们定义为QueryVo类:public class QueryVo { privat
2017-10-01 23:26:01 464
原创 Mybatis基于接口代理的方式来开发Dao(一)
Mybatis的简单介绍:Mybatis是一个操作数据库的框架。最开始叫做ibatis,从apache基金会脱离,加入googleCode正式更名为MyBatis。最终现在mybatis的代码托管在github 首先我们创建一个Maven的项目mybatis02,其中配置文件pom.xml如下:<project xmlns="http://maven.apache.org/POM/4.0.0" x
2017-09-27 21:21:41 281
原创 Java反射技术机制及一键封装原理
由于Java反射技术运用的方面很广泛,借此机会做一个总结,也为自己忘记了可以随时翻阅便可快速回忆起来!首先我们来说说什么是类的加载?类的加载:当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过加载、连接、初始化 三步来实现对这个类进行初始化。加载: *就是指将class文件读入内存,并为之创建一个Class对象。 *任何类被使用时系统都会建立一个Class对象。连接: 验证 是否有
2017-09-24 17:19:19 530
原创 Java动态代理机制介绍(jdk和cglib的区别)
原理区别: Java动态代理是利用反射机制生成一个实现代理接口的匿名类,在调用具体方法前调用InvokeHandler来处理。 而cglib动态代理是利用asm开源包,对代理对象类的class文件加载进来,通过修改其字节码生成子类来处理。 1、如果目标对象实现了接口,默认情况下会采用JDK的动态代理实现AOP 2、如果目标对象实现了接口,可以强制使用CGLIB实现AOP 3、如果目标对
2017-09-23 23:12:16 390
原创 JDBC连接MySQL数据库由浅入深解析
**JDBC连接MySQL数据库由浅入深解析** 一、标准的开发步骤: 1. 注册驱动. 2. 获得连接. 3. 获得语句执行平台 4. 执行sql语句 5. 处理结果 6. 释放资源.1.1.1 准备数据库:#创建数据库create database mydb;#使用数据库use mydb;###创建分
2017-08-29 21:50:24 621 3
IK Analyzer 2012FF_hf1.zip
2017-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人