自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 数据仓库知识小结(一)

定义及特点数据仓库(Data Warehouse,简称DW)是面向主题的、集成的、稳定的、反映历史变化的数据集合。面向主题主题是业务数据特点的一种抽象表达,一般从主题名称字面意思即可大致了解主题下数据的业务意义。常见主题如客户主题,其下实体有客户基本信息、客户资产信息等等。集成包括数据的集成及编码规则的集成。数据仓库中的数据通常来自于各不同源业务应用系统,在入数据仓库时,这些数据可能被集...

2019-11-06 22:16:34 341

原创 Neo4j数据导入

常见的Neo4j数据导入方式如下:1.通过Cypher中的create语句。2.Cypher中的load csv方式。3.官方提供的neo4j-import工具。4.官方提供的Java API BatchInserter。5.batch-import 工具。6.neo4j-apocload.csv +apoc.load.relationship。其各自使用优劣如下图(网上):...

2019-10-22 17:37:24 11040

原创 Neo4j简单使用

基本概念节点:一个图形的一个基本单元属性:描述节点及关系的键值对关系:连接两个节点的部分,具有方向标签:由节点或关系组成,一个节点或关系可以包含多个标签Cypher基本语法neo4j中使用的数据库查询语言是cypher,是一种类SQL的声明式语言,简称CQL。节点创建不同于sql中的insert插入数据,cypher使用create来创建节点、关系等并插入数据。CREATE (f...

2019-10-21 11:26:47 626

原创 公开数据资源盘点

1.中国人民银行:http://www.pbc.gov.cn/diaochatongjisi/116219/index.html2.中国银行保险监督管理委员会:http://www.cbrc.gov.cn/cn/archive/9106.html3.中国证券监督管理委员会:http://www.csrc.gov.cn/pub/newsite/sjtj/4.国家统计局:http://data....

2019-09-26 09:41:41 675

原创 Neo4j安装配置

介绍关于图形数据库的使用初衷,neo4j官方文档介绍是这样的While other databases compute relationships at query time through expensive JOIN operations, a graph database stores connections alongside the data in the model图形数据库是...

2019-09-26 01:20:56 183

原创 oracle客户端添加sqlldr

sqlldr是oracle自带的数据迁移工具,在精简安装oracle client的时候是不带,那么如何在oracle客户中添加呢?只需要将sqlldr及其配置从服务端迁移至客户端即可。1.在oracle服务端 $ ORACLE_HOME/bin目录下找到sqlldr脚本,然后scp至客户端机器 $ ORACLE_HOME目录。(默认ORACLE_HOME等环境变量已配置,如何配置不赘述)2...

2019-09-22 11:07:51 2343

原创 Python中的内置容器类型之列表

列表元素存取list = []list.append('a') #列表末尾添加元素list.append('b')print(list) # 结果 ['a', 'b']list.insert(0,'c') #列表中插入元素print(list) # 结果 ['c', 'a', 'b']list[0]='a' #...

2019-09-15 09:40:56 139

原创 Python文件基本操作

文件内部操作文件内部操作包括文件打开、关闭、读取、写入等。需使用python内置函数open打开文件创建file对象。file = open(file_name,mode,buffering)其中file_name表示文件名称,mode表示文件打开模式,buffering表示是否缓冲,设置0无缓冲,设置1缓冲行,取大于1的整数则为缓冲区的缓冲大小。取负数,缓冲区大小为系统默认。打开文...

2019-08-27 20:27:38 119

原创 通过kettle循环变量方式将关系型数据库表插入hive表分区

场景当需要将关系型数据库中的历史数据导入hive时,由于数据量较大,通常需要建立数据日期为分区的分区表存储。此时就需要设置日期变量,通过日期变量循环将数据插入hive表分区。示例在本作业中,涉及到的关键组件是表输入、复制记录到结果、从结果获取记录、设置变量、Hadoop file output、执行SQL脚本等。思路是先将源表中作为hive分区的字段查询出来作为变量(字段格式可能不一致),...

2019-08-17 18:30:44 1327 2

原创 通过kettle将关系型数据库中表导入hive中

思路要将关系型数据库中的表通过kettle导入到hive中,主要思路是两种:1.直接配置jdbc连接hiveserver2,通过表输入及表输出组件转换;2.先将关系型数据库中的表导入到hdfs中,再通过hdfs导入hive。现就这两种方式作以示例。本人使用kettle版本为8.2,关系型数据库为mysql。示例一、直接连接hiveserver2配置hive连接如下:点击测试,成功连接...

2019-08-11 18:12:14 2835

原创 Oracle实现动态行转列

oracle中要实现行转列的方式有很多种,比如case when …else …end 、wm_concat()函数,lag() over() 、lead() over() 函数等,以及11g版本后的pivot函数都可实现。可根据具体的需求选取不同的方式。前两天恰好一朋友问起如何将如下表1动态转成表2的形式。表1表2,channel_flag是查数据字典得到,值是变动的。当时第一反应是使用...

2019-08-02 13:39:23 6385 5

转载 Hive调优

1.前言本文为转自https://www.cnblogs.com/smartloli/p/4356660.html2.介绍  首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间...

2019-06-03 13:39:31 306

原创 shell脚本中的测试及判断

一.测试shell中测试结构有两种:test expression及[ expression ]([]与expression间各有空格)。较常用的为后一种,通常与if判断及while循环等结合使用。1.整数测试[ int1 -eq int2 ]:int1=int2则返回真,否则为假(同equal)[ int1 -gt int 2 ]:int1>int2则返回真,否则为假 (同grea...

2019-04-23 22:29:32 210

原创 sed基本使用及示例

1

2019-04-01 13:11:19 255

原创 VI编辑器基本使用

vi编辑器是unix环境下最基本的文本编辑器,熟练使用可大大提高工作效率,现总结一些基本使用命令。vi有三种模式:一般模式,编辑模式,末行命令模式。以vi命令打开文件即进入一般模式,一般模式下可进行字符查找、复制、粘贴、删除等功能。当一般模式里按下“i,I,o,O,a,A,r,R”等进入编辑模式,编辑模式可对文本进行编辑,按ESC回到一般模式。在一般模式里按下“:”即进入末行命令模式,该模式下可...

2019-03-30 10:11:24 121

原创 Presto基本配置

介绍presto是由facebook开源,基于内存的分布式查询引擎。支持多数据源,可支持PB级海量数据查询,本身不作数据存储。架构与众多分布式框架类似,由某组件进行请求处理以及分发任务至各执行节点。在presto架构中,Coordinator即为这样的角色。负责解析SQL,生成执行计划,分发任务到各节点。Worker即各实际执行查询的节点。worker收到任务后,通过各种connecto...

2019-03-28 22:40:26 3006

原创 Oracle中实现主键自增长

注:转自本人于2017-04-08 11:30:43博客在oracle数据库中实现主键的自增长并没有其他数据库如mysql那么便捷,在mysql中只需在主键定义后加auto_increment即可。在oracle中实现主键的自增长需要除本身表以外,还需建立序列及触发器。以test表位例:1,建立数据库表create table test(id integer not null,name...

2019-03-24 20:09:25 124

转载 SQL优化

注:转自本人于2016-04-01 16:03:19博客一、问题在应用系统开发初期,由于开发数据库数据比较少,对于查询SQL语句,复杂视图的的编写等体会不出SQL语句各种写法的性能优劣,但是如果将应用系统提交实际应用后,随着数据库中数据的增加,系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据,劣质SQL语句和优质SQL语句之间...

2019-03-24 20:07:06 128

原创 DB2 for linux手动安装

注:转自本人于2016-03-17 00:59:13博客DB2 for linux手动安装步骤第一步下载db2数据包当前最新版本为9.7,从IBM网站下载免费的Express C版本。db2exc_971_LNX_x86.tar.gz及语言包db2exc_nlpack_971_LNX_x86.tar.gz(后者可选)。第二步上传安装文件把下载下来的包ftp上传到待安装的LINUX机器上...

2019-03-24 20:02:37 1420

原创 消失的零点

(注:转自本人于2018-01-07 11:22:19博客)上午9点多醒来收到一封kettle数据同步失败的邮件,于是起来准备看下原因,报错代码为:Cannot parse “1990-04-15”: Illegal instant due to time zone offset transition(Asia/Shanghai) ,字面意思即由于Asia/Shanghai时区设置,无法解析日期...

2019-03-24 19:55:08 360

原创 Oracle数据泵

(注:迁于本人2017-05-21 23:35:09博客)Oracle10g引入数据泵技术,数据泵导出导入(expdb,impdb)的作用:1),实现逻辑备份和逻辑恢复。2),在数据库用户之间移动对象。3),在数据库之间移动对象。4),实现表空间搬移。expdb及impdb均只能在服务端使用。Expdb步骤:一,创建directoryConnected to:Oracle Da...

2019-03-24 19:49:24 424

原创 Hive常用函数整理

一、HiveHive是建立在 Hadoop 上的数据仓库基础架构,定义了简单的类 SQL 查询语言(HQL),以实现MR功能,其提供的一系列函数同样类似于SQL函数。二、分类函数分类方式很多,个人将其分为简单内置函数,高级内置函数以及自定义函数。...

2019-03-24 17:16:57 11007 2

原创 Hive表字段中文注释乱码解决

Hive表字段中文注释乱码解决问题今日在hive内部建表发现所加字段comment显示全为?号。其实之前也碰到过只是觉得不是很重要,便没去管他,但今天又遇到了,还是决定予以解决。解决大家都知道关系型数据库之所以为关系型,就是内部所有属性值都能在自身库里找到其位置。Hive为shu数据仓库的框架,虽数据都是以文件形式存于hdfs,但其定义属性值(元数据)也需要存于关系型数据...

2019-03-04 22:36:56 1637

原创 VM虚拟机与主机共享文件

vm虚拟机常常需要与宿主机进行文件传输共享,每次进行ftp传输未免太过麻烦,故可以设置共享文件夹的方式进行文件共享。首先,在虚拟机设置页面,设置宿主机的共享文件夹位置。然后按照vm提供的VMware Tools。点击重装Vmware Tools,然后在/run/media/的某位置会生成Vmware Tools文件夹。本人的目录如下:[root@bus1 VMware Tools]# ls...

2018-09-02 23:21:50 1299

原创 关于ftp连接出现"226 transfer done but failed to open directory"

虚拟机上安装ftp,分别配置后,互相连接部分出现"226 transfer done but failed to open directory",![这里写图片描述](https://img-blog.csdn.net/20180829005139868?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3NoZW56aGliaWFv/font/5a6L...

2018-08-29 00:54:20 6506

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除