自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (8)
  • 收藏
  • 关注

原创 CentOS7使用Docker快速安装Davinci

CentOS7下使用docker快速搭建Davinci数据可视化工具

2023-06-06 17:11:39 705

原创 Hive last_value/first_value实现ignore nulls

1.创建一张测试表drop table if exists default.test_tab purge;create table default.test_tabasselect date_add(current_timestamp(),-10) as event_time,'1' as id, 'A' as a,'B' as b,'C' as cunion all select date_add(current_timestamp(),-9) as event_time,'1' as id,

2020-12-14 20:21:47 2547

原创 PostgREST安装

背景说明PostgREST用于直接产生restapi接口来进行CRUD操作,降低了后端开发工作量,提供高度一致规范的数据的接口,在某些场景下具有很重要的应用价值。环境说明OS版本:CentOS Linux release 7.7.1908PostgreSQL版本:PostgreSQL 10,安装过程可以参考另一篇Blog。注意PostgREST依赖PostgreSQL 9.5以上1....

2019-09-21 17:17:16 1525

原创 yum安装配置postgresql

环境说明OS版本:CentOS Linux release 7.7.19081.根据yum源安装postgresql查看:https://www.postgresql.org/download/linux/redhat/选择合适的yum源头,这里我们选择安装postgresql10。sudo yum install -y https://download.postgresql.org/p...

2019-09-21 15:43:59 1275

原创 Sqoop解决宽表内存溢出OutOfMemoryError

oracle里面导入一张大款表,字段数非常多,而且有很多长文本,这些文本都需要用到,导入的时候报错OutOfMemoryError,内存溢出错误。解决办法之一是增加内存,目前情况来说不显示,于是我采用另一种方法:减小cache到内存的记录条数,即使用–fetch-size选项调整fetchSize。fetchSize默认值为1000,这里我们把它调小到200:sqoop import \...

2019-08-20 15:29:38 3048 2

原创 多种HDFS存储格式下的Sqoop全量和增量导入

背景环境介绍CentOS 6.7MySQL 5.7Coudera 5.13.01.准备数据(MySQL)1.在mysql中创建一张sqp_test表drop table if exists sqp_test;create table sqp_test( id bigint PRIMARY KEY AUTO_INCREMENT COMMENT '主键ID', c1...

2019-08-17 17:58:49 719 1

原创 CentOS 7.6.1810虚拟机复制之后静态网络失效的解决办法

问题:现在有一台虚拟机,已经安装CentOS版本为 7.6.1810,已经配置静态IP地址,但是克隆之后发现是自动生成的IP地址,修改网络配置文件也没法改变IP地址。解决办法:修改网卡配置文件/etc/sysconfig/network-scripts/,删除UUID哪一行配置信息。重启网卡,发现还是自动获取IP。cd /etc/sysconfig/network-scripts/v...

2019-08-05 21:15:55 237

原创 Kettle一些问题总结

1.oracle读取速度慢解决办法:

2019-07-12 09:42:33 2951

原创 Hive无法删除表的解决办法

背景介绍:业务系统(Oracle关系型数据库)针对同一个业务实体,每年设计不同的表,表结构并不一致,有细微差异。最开始我并不了解这种情况,试图将多张不同结构的表导入同一张hive表,结果第一张表导入成功之后,再导入其他表的数据卡住了,想删除也无法删除该表。解决办法:1.解锁该表,删除目标表${table_name}由于元数据冲突,该表已经被锁,hive存在两种锁,共享锁Shared(S)...

2019-07-12 09:12:51 6831 1

原创 DBeaver连接hive

打开dbeaver,依次选择菜单:文件->新建->数据库连接->Apache Hive1.配置hive连接,填写连接参数信息,编辑驱动文件2.根据如下maven配置添加maven工件如果不想通过maven的方式添加jar文件,可以下载我直接分享的hive-jdbc文件。 <dependency> <groupId>org...

2019-06-18 14:26:27 7248 3

原创 Virtualbox桥接模式静态IP联结外网

摘要桥接模式是virtualbox功能最为强大的一种,能够宿主机与虚拟机直接,多台虚拟机之间,以及虚拟机和外网环境的联网。本文描述了如何在win10环境,桥接模式下的虚拟网卡配置及Linux静态IP地址配置过程。1.配置虚拟网卡参考:https://www.cnblogs.com/hujiapeng/p/9575213.html1、设备管理器,右键没添加过时硬件(如果没有,则在cm...

2019-05-28 10:19:58 4405

原创 CentOS7安装sogou输入法,简单有效

1.安装alien依赖软件sudo yum install alien -y2.安装依赖软件sudo yum install qtwebkit -y3.转换rpm包sudo alien -r sogoupinyin_2.2.0.0102_amd64.deb4.安装sudo rpm -ivh sogoupinyin-2.2.0.0102-2.x...

2018-04-17 18:09:54 76746 12

原创 DataFrame使用笔记(持续更新中)

DataFrame使用笔记元数据操作&amp;amp;gt;&amp;amp;gt;&amp;amp;gt; df = pd.DataFrame((np.random.rand(4, 4)*100), columns=list('ABCD'))&amp;amp;gt;&amp;amp;gt;&amp;amp;gt; df A B C D0 90.109671 7

2018-04-09 10:01:39 707

原创 Linux下使用dd命令向U盘中写入ISO镜像

查看U盘的挂载路径,如/dev/sdc之类sudo fdisk -lh假设U盘的分区为/dev/sdb,执行类似如下命令写入ISO文件 sudo dd if=/home/xxx/xxx.iso of=/dev/sdb bs=4M

2018-04-06 11:10:05 12621

原创 Python将通信达.day文件读取为DataFrame

import osimport structimport pandas as pddef readTdxLdayFile(fname="C:\\TdxW_HuaTai\\vipdoc\\sh\\lday\\sh601628.day"): dataSet=[] with open(fname,'rb') as fl: buffer=fl.read() #读取数据

2018-02-12 22:59:42 3974 1

原创 CentOS7 yum安装MySQL5.7

CentOS7 yum安装MySQL5.7安装MySQL yum知识库查看:https://dev.mysql.com/downloads/repo/yum/,找到yum 知识库说明,然后根据需要下载安装。[root@localhost ~]# wget https://repo.mysql.com//mysql57-community-release-el7-11.noarc

2018-01-17 11:37:22 348

翻译 linux下为用户配置免密码sudo权限

配置/etc/sudoers文件即可,过程如下chmod u+w /etc/sudoersecho "gc-user ALL=(ALL) NOPASSWD: ALL" >> /etc/sudoerschmod u-w /etc/sudoers

2018-01-15 15:56:58 23444

原创 Centos7使用yum安装chrome浏览器

1.安装yum知识库新建 /etc/yum.repos.d/google-chrome.repo,写入如下内容:[google-chrome]name=google-chromebaseurl=http://dl.google.com/linux/chrome/rpm/stable/x86_64enabled=1gpgcheck=1gpgkey=https://dl.google.com/

2017-12-15 12:50:23 4085

原创 hive导入CSV数据,使用动态分区重新分区

创建数据表hive> create database cus;hive> use cus;hive> create table telno_md5( > phone string, > md5 string ) > ROW FORMAT DELIMITED > FIELDS TERMINATED BY ',' > STORED AS TEXTFILE;导

2017-12-07 15:38:08 1497

原创 PostgreSQL免安装版CentOS7配置

安装准备安装依赖下载二禁止文件并解压wget https://get.enterprisedb.com/postgresql/postgresql-9.5.10-1-linux-x64-binaries.tar.gztar -xvf postgresql-9.5.10-1-linux-x64-binaries.tar.gz 配置创建数据目录cd pgsql/mkdir dataexport P

2017-11-28 11:23:12 788

原创 mysql split两个字段的一种办法

select substring_index('AAAA.BCCC','.',1)union allselect reverse(substring_index(reverse('AAAA.BCCC'),'.',1))结果+------------------------------------+| substring_index('AAAA.BCCC','.',1) |+---------

2017-11-06 16:50:39 819

原创 CentOS7 python安装ta_lib

1.下载ta_lib依赖包从https://sourceforge.net/projects/ta-lib/files/ta-lib/0.4.0/下载依赖包,对于Windows需要安装msvc包,对64位linux需要下载ta-lib-0.4.0-src.tar.gz源码自己编译。先下载源码wget https://downloads.sourceforge.net/project/ta-lib/t

2017-11-01 17:22:10 4618

原创 mysql "Too many open files”问题解决

背景介绍最近在mysql服务器上运行了一个爬虫程序,其他用户访问mysql(5.7)数据库的时候老是报错“Too many openf files”,现在把解决问题的方案记录下来。首先我查看mysql open_files_limit参数mysql> show variables like '%open_files_limit%';然后查看mysql官网关于open_files_limit参数说明,

2017-10-31 10:25:36 3890 1

原创 CentOS7安装使用selenuim+chrome

1.安装chrome浏览器配置知识库[root@tkpadc07116 yum.repos.d]# cat > /etc/yum.repos.d/google-chrome.repo << EOF> [google-chrome]> name=google-chrome> baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearc

2017-10-25 13:03:20 562

原创 mysql分别按照季,月,周分别统计数据

select date_format(current_date(),'%Y年%m月')union allselect concat(date_format(current_date(),'%Y年'),quarter(current_date()),'季度')union allselect date_format(current_date(),'%Y年%u周')

2017-10-24 15:55:39 1695

原创 Sqoop解决串行

ALTER TABLE cadi_dpidb.cj_gauss_car_dpiusertag_mobile SET SERDEPROPERTIES ('escape.delim' = '\\');sqoop的时候指定参数:–escaped-by ‘\’sqoop import \ --connect "jdbc:mysql://10.10.4.2:3306/dpidb?useUnicode

2017-10-17 12:30:29 979

原创 mysql单个字段区分大小写

在整个mysql库里面不区分大小写,我现在往某张表导入数据的时候发现主键重复,而且我想保留重复的主键怎么办,解决办法就是二进制存储。alter table ${table_name} change ${column_name} ${column_name} varchar(100) binary;

2017-10-16 14:18:25 670

原创 Sqoop导入hive数据库NULL值处理

最近用sqoop将mysql的一张表导入到hive中,发现以前is null的字段导入到hive的时候,被转换为了字符串’NULL’或’null’。 当导入的时候加上–direct选项的时候,null值导入变成了字符串’NULL’,命令如下:sqoop import \ --connect "jdbc:mysql://${hostname}:3306/${db_name}?useUnic

2017-09-30 12:13:23 11688

原创 Crontab使用

crontab命令crontab –e : 编辑 crontab 文件,与vi使用方式相同 crontab –l : 显示 crontab 文件。 crontab -r : 删除 crontab 文件。 crontab -ir : 删除 crontab 文件前提醒用户。配置crontab文件crontab 文件的格式{minute} {hour} {day-of-month} {month

2017-09-28 15:51:04 360

原创 Python多线程线程池简单使用

对于高IO的程序,使用多线程可以明显提升程序,以下是Python多线程的简单示例:#!/usr/bin/python#coding:utf-8'''author:[email protected]:2017-09-06version:1.0python:3.xdescription:multi-Process'''from multiprocessing.dummy imp

2017-09-26 15:17:09 600

原创 卸载OpenJDK安装Oracle jdk

卸载OpenJDKrpm -e --nodeps `rpm -qa | grep java`安装Oracle JDK解压jdk安装包tar -xvf jdk-8u121-linux-x64.tar.gzmv jdk1.8.0_121/ /usr/local/jdk1.8添加JAVA环境变量,以添加到/etc/profile为例echo "export JAVA...

2017-09-18 10:20:53 742

原创 Python3zip压缩解压简单使用

#!/usr/bin/python#coding:utf-8'''author:[email protected] 2015-09-06version 1.0python 3.x'''import os,os.pathimport zipfiledef zip_dir(dirname,zipfilename): filelist = [] if os.pat

2017-09-15 17:17:50 6099

原创 Python数据科学家常用package

包名 功能 Numpy N维数组,线性代数,傅里叶变换,和随机数的能力 SciPy SciPy是世界上著名的Python开源科学计算库,建立在Numpy之上。它增加的功能包括数值积分、最优化、统计和一些专用函数。 pandas pandas是基于 Numpy 构建的,让以 Numpy 为中心的应用变得更加简单 Matplotlib Matplotlib 是 Pyth

2017-09-15 10:18:19 476

原创 JDBC连接Hive(包括Maven配置和本地jar配置)

查看服务器hive和hadoop版本可以使用hadoop version和hive命令查看hadoop版本[gc-user@hadoop-hive01 hadoop]$ hadoop versionHadoop 2.6.0-cdh5.9.0Subversion http://github.com/cloudera/hadoop -r 1c8ae0d951319fea693402c9f824494

2017-08-01 18:02:56 11400

原创 Redhat Linux防火墙管理

Redhat Linux防火墙管理Redhat7以前使用iptables防火墙添加允许通过端口在/etc/sysconfig/iptables中添加配置[root@localhost ~]# vi /etc/sysconfig/iptables...-A INPUT -m state --state NEW -m tcp -p tcp --dport 3306 -j ACCEPT-A INPU

2016-12-28 17:16:46 609

原创 postgresql使用pg_dump备份与恢复

postgresql使用pg_dump备份与恢复pg_dump备份范例pg_dump -F c -Z 5 -v -t rpt_df580_bh_funnel -f "/home/postgres/rpt_data/rpt_df580_bh_funnel.dump" dmpdb说明 * -F or –format:指定导出的格式为c|d|t|p,c代表custom, d代表directory,

2016-12-28 16:43:40 1452

原创 kettle输入组件-JSON Input的使用案例

用例背景说明数据文件car_factory.js,其内容如下:{"RECORDS":[{"factory_id":"10","factory_name":"一汽奔腾","name_index":"Y","picture_path":null},{"factory_id":"107","factory_name":"劳斯莱斯","name_in

2016-11-23 11:34:48 31362

历年收支科目代码.zip

国家财政部发布的《xxxx年政府收支分类科目》包含2016年-2019年的财政收支科目。科目主要包含四本预算,和经济分类科目。

2019-07-27

hive-jdbc所需jar(精简可用)

直接从cloudera里面取出的jdbc包,只有三个jar文件,经测试可以无障碍访问hive,执行Hive SQL。

2019-07-04

hive-jdbc.zip

直接从cloudera里面取出的jdbc包,只有三个jar文件,经测试可以无障碍访问hive,执行Hive SQL。

2019-07-04

企业数据仓库在大数据分析时代的角色变迁

企业数据仓库在大数据分析时代的角色变迁 Kimball 集团白皮书

2018-04-26

EXCEL vba实现md5加密

使用之前要启用宏。excel文件点击 文件->选项->信任中心->信任中心设置->宏设置→启用所有宏。 注意:经过测试Win10系统无法运行

2018-04-04

ILSpy_binaries_Net46_Win_3.0.1.3459.zip

ILSpy是一款好用的反编译器,能反编译各种DLL和exe文件。

2018-02-06

融通学苑系列之ORACLE性能调优

融通学苑系列讲解的Oracle性能调优,可以作为初步接触Oracle性能调优的培训教程。

2017-11-15

Struts2文件上传下载

利用Struts2实现的文件上传和下载,可以实现多文件上传,下载有管控。仅示例代码,高手勿看!

2012-11-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除