dazheng-CSDN博客

原创 ETL SparkSQL实现

SparkETLSparkETL主要用SQL方式实现数据仓库ETL，并保持spark的原生多功能、灵活性。采用java对spark功能进行简单封装，对于数据源、目标都是关系型数据库的，从数据抽取、转换、加载完全采用SQL方式，对于SQL不满足的场景，再用spark相关功能实现。SparkETL是ETL的一个参考实现，实际使用时，需要根据业务需要及模型设计在此基础上增加、修改。实现背景Spa...

2020-04-07 18:09:00 2836 1

原创 gRPC vs Thrift

简单分布式架构基本问题传输什么样的数据，用哪种协议哪种方式数据交换的效率好服务端如何处理请求需要扩展服务端时当你的服务超过最简单结构时，你想要灵活性可扩展低延迟当然，你更想要简单应该用这些协议吗SOAP XML， XML还是XMLCORBA 美好的想法，糟糕的实现过渡设计和臃肿 DCOM, COM+主要用于windows平台HTTP/TCP/Socket/Wh

2015-09-30 17:01:42 34058 4

原创数据湖介绍

数据湖介绍数据湖概念是2011年提出来的,数据湖是数据仓库的补充，是为了解决数据仓库漫长的开发周期，高昂的成本，细节数据丢失等问题出现的。数据湖大多是相对于传统基于RDBMS系统的数据仓库，而从2011年前后，也就是数据湖概念出现的时候，很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上，而且除了结构化数据，半结构化、非结构数据也逐渐的存储到数据仓库中，并提供此类服务

2017-06-20 16:02:21 21813

原创 Go连接Hive

经过两天多的资料查找，反复测试从网上找到的多种方案，加上阿里云售后的支持，终于搞定Go语言连接Apache Hive的问题。测试环境，阿里云E-MapReduce 2.1 中的Hive， Golang 1.7，开发环境win10。在阿里云hive-site.xml中需要添加： <property> <name>hive.server2.authentication</name>

2016-11-05 10:37:46 8160

原创 Go连接Kafka

golang连接kafka的例子好少，而支持offset追踪者更少，但也是基础的要求。”github.com/bsm/sarama-cluster”结合“github.com/Shopify/sarama”满足了此要求。package mainimport ( "fmt" "os" "strings" "time" "github.com/Shopify/sa

2016-11-01 13:59:39 28942 4

原创 Go语言圣经（中文版）

http://golang-china.github.io/gopl-zh/index.html

2016-01-29 14:12:20 12242

转载 From scikit-learn to Spark ML

From scikit-learn to Spark MLYoann BenoitPartagerTweeter+ 1E-mailDans un récent billet de blog de Databricks et Olivier Girardot, From Pandas to Apache Spark’s DataFrame, les aut

2015-12-03 17:50:42 1751

转载 Pandarize Your Spark Dataframes

DataFrames are a great abstraction for working with structured and semi-structured data. They are basically a collection of rows, organized into named columns. Think of relational database tables: DataFrames are very similar and allow you to do similar ope

2015-12-03 15:16:41 717

转载 From Pandas to Apache Spark’s Dataframe

With the introduction in Spark 1.4 of Window operations, you can finally port pretty much any relevant piece of Pandas’ DataFrame computation to Apache Spark parallel computation framework using Spark SQL’s DataFrame. If you’re not yet familiar withSpark’s

2015-12-03 15:09:30 1619

原创读《人类简史》有感

读了尤瓦尔.赫拉利(Yuval Noah Harari)的《人类简史从动物到上帝》，又在昨天下午见了一位对政治极感兴趣的一位老先生，不由得想到了人类未来及共产主义。在书中，赫拉利先生边传述人类的历史，边对其评价，特别提到人类农业革命，是历史的一个退步，这个观点跟斯塔夫里阿诺斯先生的《全球通史从史前史到21世纪》观点一样。除此之外，两位先生都在书中对科技进步对人类的影响都是非常的赞赏，读到这些地

2015-11-09 22:33:57 4334 1

转载从机器学习谈起

从机器学习谈起　　在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。　　在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性，以至于要阅

2015-11-09 15:08:13 575

转载数据标准化的几种方法

常见的数据归一化的方法有：min-max标准化(Min-max normalization)、log函数转换、atan函数转换、z-score 标准化(zero-mean normalization)

2015-11-09 14:24:45 1551

原创 Shell常用

1、批量替换文本sed -i '/^$/d' *.sql #删除空行sed -i 's/,//g' *.sql sed -i 's/^M//g' *.sql #需要替换^M 或sed -i 's/\r//g' *.sqlsed -i 's/[ \t]*$//g' *.sql #删除行尾空白sed -i 's/$/,/g' *.sql sed -i '1 s

2015-09-21 18:33:19 779

原创 Spark SQL Relational Data Processing in Spark (学习笔记)

介绍用户一方面需要关系型操作，另一方面需要过程式的操作，shark只能进行关系型操作。Spark SQL可以将两者结合起来。Spark SQL由两个重要组成部分 DataFrame API 将关系型的处理与过程型处理结合起来，可以对外部数据源和Spark内建的分布式集合进行关系型操作压缩的列式存储，而不是Java/Scala对象Catalyst 提供了一整套性能分析、计划、运行时代码生

2015-09-06 22:29:50 2608

原创组织行为学（学习笔记）

大五人格模型情绪稳定性外倾性经验开发放性随和性责任心

2015-09-06 09:12:24 1867

原创大规模数据管理系统调查（学习笔记）

介绍大数据的四个特性 Volume（体量）、Velocity（速度）、Variety（多样性）、Veracity（精确性）应对介绍基本情况 Data modelSystem architectureConsistency model基本实现原理数据模型和数据分区SEDA/MapReduce架构高扩展性基于timestamps的并发控制协议强一致性模型扩展约束BASE模型及

2015-08-16 14:41:59 1266

翻译 Big Data Lambda Architecture 翻译

Big DataLambda ArchitecturePosted on September5, 2012 by dbtubeIn orderto meet the challenges of Big Data, you must rethink data systems from theground up. You will discover that some of the most

2015-08-04 21:06:36 1371

原创 Linux\AIX 常用

1、编辑linux内核 1. 在/usr/src下untar这个包. tar -xjf linux-2.6.25.tar.bz2 2. 配置内核 cd /usr/src mv linux-2.6.25 linux cd linux make mrproper #(删除一些stable的文件,针对刚do

2015-08-03 15:20:12 686

原创 CentOS6.4上安装配置snappy

1、下载 [hadoop@master pub]$ wget https://snappy.googlecode.com/files/snappy-1.1.0.tar.gz2、安装 [hadoop@master snappy-1.1.0]$ sudo yum install gcc gcc+ gcc-c++ [hadoop@master bin]$ tar axvf snap

2015-08-03 15:08:31 5014 1

原创 Hive常用

主要整理于2011、2012年1、启动server及元数据 nohup hive --service hiveserver2 10000 > /dw/log/hiveserver.log 2>&1 & nohup hive --service metastore 9083 > /dw/log/metastore.log 2>&1 &2、字符集 hive元数据存储用mys

2015-08-03 15:05:40 669

原创 Aerospike使用介绍

Aerospike简介Aerospike是什么？ Aerospike(以下简称AS）是一个以分布式为核心基础，可基于行随机存取内存中索引、数据或SSD存储中数据的数据库。它主要用于百G、数T等大数据量并且在数万以上高并发情况下，对性能也有ms读取插入要求的场景。目前主要集中于互联网广告行业，如eXelate、BlueKai、MediaV、 InMobi、 applovin等。特性可预见的高性能

2015-07-30 21:25:48 20872 8

原创 Redis使用介绍

写于2014年7月，redis2.8Redis简介Redis是什么？Redis是一个开源的使用ANSI C语言编写，支持网络，基于内存亦可持久化，分布式的key-value数据库，并提供多种语言的API 。特点是高性能，持久存储，适应高并发的应用场景。目前已被许多公司采用，稍大点的互联网公司几乎都用了，比如：Github、新浪微博、京东等等。Redis特性速度快Redis使用标准C编写实现，而

2015-07-27 21:48:56 750 1

原创免费：商业的未来(读书笔记)

写于2010年夏一方面，信息想要变得昂贵，因为它很宝贵，在恰当的地点得知恰当的信息，能够改变你的人生。而在另一方面，信息也想要变得免费，因为发布信息的成本一直在下降。因此这两种趋势在互相牵制。商品化的信息（人人都能得到同样版本）想要变得免费，而客户定制化（你得到对你而言独特、有意义内容）的信息则想要变得昂贵。充裕的信息想要变成免费，而稀缺的信息想要变得昂贵。匮乏让大规模更具价值，充裕

2015-07-26 14:06:23 1757 1

原创 Linux Shell介绍

简述Shell是系统的用户界面，提供了用户与内核进行交互操作的一种接口。它接收用户输入的命令并把它送入内核去执行。实际上Shell是一个命令解释器，它解释由用户输入的命令并且把它们送到内核。不仅如此，Shell有自己的编程语言用于对命令的编辑，它允许用户编写由shell命令组成的程序。Shell编程语言具有普通编程语言的很多特点，比如它也有循环结构和分支控制结构等，用这种编程语言编写的Shell

2015-07-26 11:56:06 698

原创 rdbms迁移到Impala2.0

Impala特点定位于OLAP分析和hadoop集成，可与hadoop同样方式扩展多种数据文件格式存储 Parquet、text可读写；Avro、RCFILE、SequenceFile可读；都支持gzip、Snappy压缩支持HBase存储与Hive共享元数据MPP引擎迁移数据类型 VARCHAR, VARCHAR2, CHAR, NCHAR, NVARCHAR, CLOB, N

2015-07-24 20:43:08 817

原创数据仓库技术及其演变

原因精细化竞争精准用户精准定位列表内容竞争对手、外部情报速度客户需求产品开发市场投放可用时间延长不可用时间减少强度加大数据增长来源的多样化人工操作PC、手机生成机器生成数据的多样化结构化、半结构、非结构化数据数据量增长每两年翻番数据单位：G->T->P->E软硬件技术进步，价格降价需求带来供给供给带来新需求总体与OLTP共用

2015-07-21 22:28:13 1027

原创数据仓库简介

是什么数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。面向主题的（subject-oriented）：数据仓库围绕一些主题，如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析，而不是集中于组织机构的日常操作和事务处理。集成的（integrated）：通常，构造数据仓库时将多个异种数据源，如关系数据库

2015-07-20 21:34:13 886

原创 CentOS6.4 yum服务器安装

1、安装yum-downloadonly sudo yum install yum-downloadonly2、下载需要的RPM包 sudo yum install impala --downloadonly --downloaddir=/dp2/ftp/pub sudo yum install impala-shell --downloadonly --downloaddi

2015-07-16 21:06:04 865

原创 PowerDesigner常用配置

1、执行VBS脚本 Tools –> Execute Command –> Edit/Run Scripts (粘贴或者导入脚本) 2、根据映射文件自动翻译 Tools –> Model Options –> Naming Convertion –> Name To Code conversion_scripts 中输入：.foreach_part(%Name%,”“

2015-07-16 21:01:39 1151

原创 pgpool主备模式安装

下载pgpool-II-3.3.1.tar.gz文件，上传至服务器 1、安装[hadoop@slave3 bin]$ tar zxvf pgpool-II-3.3.1.tar.gz[hadoop@slave3 bin]$ mv pgpool-II-3.3.1 pgpool[hadoop@slave3 bin]$ cd pgpool[hadoop@slave3 bin]$ mkdir -p /

2015-07-16 20:57:15 1093

原创 hive update delete

Hive 从0.14开始支持事务，即支持update和delete操作。事务操作有严格的要求，在写这篇文章时用的1.1.0有以下限制BEGIN, COMMIT, and ROLLBACK are not yet supported. All language operations are auto－commit. The plan is to support these in a future

2015-07-09 14:29:05 2042

原创 golang gRPC示例

gRPC是一个高性能、通用的开源RPC框架，其由Google主要面向移动应用开发并基于HTTP/2协议标准而设计，基于ProtoBuf(Protocol Buffers)序列化协议开发，且支持众多开发语言。gRPC提供了一种简单的方法来精确地定义服务和为iOS、Android和后台支持服务自动生成可靠性很强的客户端功能库。客户端充分利用高级流和链接功能，从而有助于节省带宽、降低的TCP链接次数、节省

2015-06-18 09:14:45 4125 5

原创 impala常用

1、E1010 14:22:41.093611 3181 impalad-main.cc:90] Impalad services did not start correctly, exiting. Error: Duplicate registration of subscriber: slave1:22000 State Store Subscriber did not start up.

2015-06-13 12:10:48 1893

原创 sql server常用

1、查列select a.id table_id, a.name table_name, b.colid column_id, b.name column_name, c.data_type, c.character_maximum_length, cast(d.value as varchar) p

2015-06-13 12:05:25 461

原创 DB2常用

1、连接数据库命令 db2 CATALOG TCPIP NODE R_PTDB REMOTE 10.4.144.36 SERVER 60010 db2 CATALOG DATABASE portaldb AS R_PTDB AT NODE R_PTDB AUTHENTICATION SERVER db2 uncatalog db R_PTDB db2 uncata

2015-06-13 11:59:43 903

原创 postgresql安装配置

source安装 1、[hadoop@slave1 bin]$ tar -zxvf postgresql-9.2.4.tar.gz 2、[hadoop@slave1 bin]$ cd postgresql-9.2.4 3、[hadoop@master dw]$ mkdir -p /dw/pg [hadoop@master postgresql-

2015-06-13 11:49:58 352

原创 MySQL常用

1、导入导出 select * from f_pc_user_cndt_20101128 into outfile 'd:/f.txt' Fields Terminated By ',' Lines Terminated By '\n' LOAD DATA local INFILE 'd:/f.txt' IGNORE into table f_pc_user_cndt_2010

2015-06-13 11:43:23 362

原创 oracle常用

1、设置变量 set timing on alter session enable parallel dml; alter session enable parallel query; alter session enable parallel ddl; alter session set workarea_size_policy=manual ;

2015-06-13 11:39:13 504

原创 CentOS6.4 NFS配置

原服务器，切换用户为rootsudo vi /etc/exports #设置导出目录 /logs *(rw,sync,no_root_squash) sudo exportfs -r #使设置生效重启服务sudo service rpcbind restart # RHEL5下执行service portmap restartsudo service nfs r

2015-06-13 11:28:32 363

原创 Go语言linux安装设置

解压go二进制文压，然后添加至环境变量 vi ~/.bashrc #添加以下内容export GOROOT=/dp/bin/goexport GOARCH=amd64export GOOS=linuxexport GOPATH=/dp/bin/gocodeexport PATH=$PATH:$GOROOT/bin:$GOPATH/bin然后使.bashrc文件修改生效. ~/.bash

2015-06-13 11:21:11 440