自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (7)
  • 问答 (1)
  • 收藏
  • 关注

原创 数仓功能架构

2021-11-02 14:53:48 183 1

原创 数仓物理架构

2021-11-02 14:51:57 204

转载 FSDataOutputStream (浅析hadoop写入数据api)

对于一般文件,都有满足随机读写的api。而hadoop中的读api很简单用FSDataInputStream类就可以满足一般要求,而hadoop中的写操作却是和普通java操作不一样。Hadoop对于写操作提供了一个类:FSDataOutputStream,这个类重载了很多write方法,用于写入很多类型的数据:比如字节数组,long,int,char等等。像FSDataInputStre

2021-11-02 14:49:19 972

原创 oracle闪回

《一》开启数据库闪回1、查看归档模式: a.是否开启归档archive archive log list;select LOG_MODE from V$database ;b、查看归档日志信息select name from v$archived_log; --(还未产生归档日志时,查不到信息)show parameter db_recovery;2、开启归档

2017-11-09 15:08:37 353

原创 Hive QL详解

数据定义(DML)操作1、创建普通表create table page_view (viewtime int,userid bigint,page_url string,referrer_url string,ip STRING comment 'IP Address of the User')comment 'This is the page view table' ;2

2017-07-14 17:01:06 852

原创 Java操作hdfs文件实例

1.创建文件通过"FileSystem.create(Path f)"可在HDFS上创建文件,其中f为文件的完整路径。package iflytek;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Conf

2017-07-10 14:19:05 615

转载 FSDataOutputStream (浅析hadoop写入数据api)

对于一般文件,都有满足随机读写的api。而hadoop中的读api很简单用FSDataInputStream类就可以满足一般要求,而hadoop中的写操作却是和普通java操作不一样。Hadoop对于写操作提供了一个类:FSDataOutputStream,这个类重载了很多write方法,用于写入很多类型的数据:比如字节数组,long,int,char等等。像FSDataInputStre

2017-07-10 11:50:42 9550

转载 Hive基本操作

创建表:hive>CREATE TABLE pokes (foo INT, bar STRING);        Creates a table called pokes with two columns,the first being an integer and the other a string创建一个新表,结构与其他一样hive>create table new_t

2017-06-27 16:07:11 426

转载 Hadoop基本Shell命令

cat使用方法:hadoop fs -catURI [URI …]将路径指定文件的内容输出到stdout。示例:·        hadoop fs -cat hdfs://host1:port1/file1hdfs://host2:port2/file2·        hadoop fs -cat file:///file3 /user/hadoop/file4返回值:

2017-06-26 11:39:40 374

转载 查询Oracle正在执行的sql

--查询Oracle正在执行的sql语句及执行该语句的用户SELECT b.sid oracleID, b.username 登录Oracle用户名, b.serial#, spid 操作系统ID, paddr, sql_text 正在执行的SQL, b.machine 计算机名 F

2016-11-10 10:28:25 555

转载 Linux Shell编程入门

从程序员的角度来看, Shell本身是一种用C语言编写的程序,从用户的角度来看,Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行,又可以利用 Shell脚本编程,完成更加复杂的操作。在Linux GUI日益完善的今天,在系统管理等领域,Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程,是每一个Linux用户的必修 功课之一。Linux的Shell

2016-11-08 11:52:11 305

转载 oracle11g,导出空表。

oracle11g的新特性,数据条数是0时不分配segment,所以就不能被导出。 解决方法: 1、插入一条数据(或者再删除),浪费时间,有时几百张表会累死的。2、创建数据库之前使用代码:alter system set deferred_segment_creation=false; 调整再建表、这两种方都不好3、下面是终极方法: a、先查询一下

2016-11-04 10:39:52 382

原创 CentOS 配置VNC

1、下载安装vncserver:yum install tigervnctigervnc-server –y 2、 配置:vi  /etc/sysconfig/vncservers修改:#VNCSERVERS="2:myusername"#VNCSERVERARGS[2]="-geometry 800x600 -nolisten tcp -localhost"变成:

2016-11-02 10:47:27 332

翻译 Xms Xmx PermSize MaxPermSize 区别

Eclipse崩溃,错误提示:MyEclipse has detected that less than 5% of the 64MB of Perm Gen (Non-heap memory) space remains. It is strongly recommendedthat you exit and restart MyEclipse with new virtual ma

2016-11-01 10:06:12 261

原创 64位机器上plsql连接64位oracle

最近在windows server 2012上用plsql连接本机上的oracle时(本机安装了oracle服务端,没有安装客户端),发现plsql登录界面显示不正常。不能登录oracle。网上看了一下,用instantclient_11_2,亲测有用。1.下载后,解压:2、配置plsql:3、配置tnsnames.ora 我的目录是:D:\soft\i

2016-10-14 12:22:31 592

原创 java.io.IOException: NameNode is not formatted

启动hadoop时,发现没有NameNode进程。看了日志:2016-10-11 20:00:17,341 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NameNode metrics system stopped.2016-10-11 20:00:17,341 INFO org.apache.hadoop.metrics2

2016-10-12 12:35:43 4095 3

原创 kettle+java代码调用Webservice

kettle中的Webservice服务查询控件功能挺强大的,可以调用大多数的Webservice服务。但是最近遇到一个问题:如果传参是XML时,XML中的  这样的符号kettle会识别不了,导致调接口失败。于是就想自己编写java代码去直接调用Webservice。一、总体框架二、java源码import java.util.*;impor

2016-07-28 16:01:30 9631 5

原创 kettle增量抽取框架

利用kettle进行数据抽取,其实和手工的ETL流程差不多,最近结合项目整理了一个简单实用的抽取框架。一、抽取的大致流程:、二、kettel框架:三、细节介绍:1、SET_START_DATE:得到系统当前的时间,作为抽取的开始时间。2、GET_MINETLFLAG:从ETL的日志表中的到当前的最小FLAG,一般为时间戳。3、GET_TARE

2016-05-30 17:45:04 10645

原创 Linux配置VNC远程桌面

安装oracle数据库,用图形化界面会方便很多;生产环境一般不会直接给你服务器的,所以配置远程桌面是很有必要的;先前一直用X-manager,简单、方便。但是最近在用X-manager安装数据库的时候,因为网络不稳定,导致安装失败;问了同事,介绍我用VNC,在网络不稳定的情况下,可以安装。

2016-05-23 17:15:42 675

原创 oracle 分析函数

总是听说oracle的分析函数很强大,一直都没有搞会,今天花了点时间简单研究了一下。参考:http://www.2cto.com/database/201310/249722.html           http://blog.csdn.net/yjjm1990/article/details/7524167一、基本介绍Oracle从8.1.6开始提供分析函数,个人感觉是gr

2016-05-16 20:08:36 690

原创 kettel解析XML难点

最近一直用kettel对Webservice服务进行数据抽取;不同的公司,不同的开发,总是会各种各样的XML样式给你;解析XML确实比较头疼。一、字符集问题XML文件的字符集一般会设置成三种:UTF-8、GBK、ANSI一般我们看XML的文件头,就知道是哪一种字符集:对应的在kettel里面也要保持一致,解析才能成功。不然会有报错:对于ANSI,这个比较。你在txt

2016-05-16 17:55:30 11287 3

原创 Webservice接口数据抽取_Kettel<二>

java

2016-05-03 10:25:20 8935 2

原创 Webservice接口数据抽取_kettel<一>

kettel

2016-05-03 10:23:53 20609 18

原创 oracle性能调优-虚拟索引

在数据库表数据比较大的时候,我们自然会想到利用index优化来提高性能,当是否真的需要index需要我们考虑。用或者不用,我们可以先通过虚拟索引先来测试一下sql的性能。使用虚拟索引不用故意的去避开业务的高峰期,担心大表创建索引对系统性能产生影响。      虚拟索引不是物理存在的,它并不会创建实际的索引段,只是在数据字典中加了一个索引的记录,使得优化器能够意识到一个索引的存在,从而判断是否使

2016-04-18 17:06:57 1249

原创 oracle性能调优-执行计划

这几天跑存储过程,有时间一跑就是几十分钟,等的确实有点辛苦;于是就想研究一下sql执行的性能,看看存储过程执行慢的问题出在什么地方。    要进行oracle性能调优,不用多说,第一步肯定是看执行计划,要是执行计划看不懂,那就直接歇菜了。    下面就简单的介绍一执行计划的基本概念,方便上手。一、查看执行计划的方式    查看执行计划一般有三种方式:1、设置autotrace,

2016-04-18 14:39:42 1322

原创 SqlServer发送邮件

每天上班。打开电脑,总是先看看数据库的运行情况,看看日志。于是就想利用是SqlServer自身的邮件系统,每天给自己定时发邮件,提高一点效率。SqlServer图形化界面比较强大,配置发送邮件也比较简单(我是2012版):一、启用Database Mail XPs功能a、查看状态select name,value, description,is_dynamic,is_advance

2016-04-11 15:13:09 3461

原创 SqlServer的for xml path函数

这两天在处理一个字符串拼接遇到一个问题:老师姓名学科张老师语文张老师数学张老师英语李老师体育李老师音乐需要将上面的记录转换成:

2016-04-11 08:59:05 19855 3

原创 oracle自定义类型

最近整理里常见数据库的数据类型,发现o racle有一个自定义字段类型。简单的研究了一下: 1、定义一个类型 Sql代码  CREATE OR REPLACE TYPE PropertyValue AS OBJECT (    number_value  number,    string_value varchar2(2000),    date_value

2016-04-05 10:22:10 1574

原创 oracle、SqlServer、mysql字段类型比较

最近在进行数据抽取的时候,设计到多个数据库,oracle、SqlServer、mysql。这个时候字段类型映射成了一个比较头疼的问题,所以想整理一下这三个常用数据库之间的字段类型比较。1、常见类型的映射关系:SqlservermysqloracleINTINTNUMBER

2016-04-05 09:57:16 4628 1

原创 常用数据库创建job

前一段时间,为了早大批量的测试数据,就利用jop每天调用存储过程来实现,主要是对SqlServer和oracle二个数据库的job进行一个简单的总结:一、SQLSERVER1、使用“SQL Server Management Studio”工具登录数据库;2、鼠标右击“SQL Server 代理”,选择“启动(S)”; 3、在“SQL Server 代理”列表下,右击”作业”-->

2016-03-27 23:30:50 6235

原创 SqlServer时间类型常用技巧

本文主要对SqlServer时间类型常用技巧做一个小小的总结,主要在于时间与字符串的转换处理。一、SqlServer常用的时间类型1、sqlserver常见的时间类型有DATE、DATETIME、TIME、TIMESTAMP四种,其中TIMESTAMP与前三者有所不同,timestamp 这种数据类型表现自动生成的二进制数,类似于序列,是自动生成的;当你改变含有timestamp字

2016-03-27 23:23:19 11015

02_尚硅谷大数据技术之Hadoop(入门)V3.3.docx

Hadoop

2021-11-02

centos8安装zookeeper-3.5.7.docx

zookeeper

2021-11-02

centos8安装kafka_2.11-2.4.1.docx

centos8安装kafka_2.11-2.4.1.docx

2021-11-02

centos8安装hadoop3.3.docx

centos8安装hadoop3.3.docx

2021-11-02

GBase 8a培训教材-201911-2.pdf

GBase 8a培训教材

2021-07-21

零基础入门NLP实践教程v3.0.pdf

零基础入门NLP实践教程v3.0

2021-07-21

零基础入门CV实践教程v3.0.pdf

零基础入门CV实践教程v3.0

2021-07-21

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除