nisjlvhudy-CSDN博客

原创几个有用的python脚本

1、通过pythony连接Hive执行Hql的脚本[spark@Master Py_logproc]$ cat py2hive.py #!/usr/bin/env pythonimport syssys.path.append('/home/spark/opt/hive-1.2.1/lib/py')from hive_service import ThriftHivefrom hi

2015-12-25 13:30:34 6244 1

原创业务系统JSON日志通过python处理并导入Hive方案

首先说明，此方案是一个不可行的方案。与导入Mysql数据库不同，Hive数据库不支持记录级数据插入；即使一些版本支持，插入速度也是奇慢。Hive主要优势在于处理批量数据，数据量越大越能体现出性能优势；数据量小，如记录级数据插入，则没有可用性。所以，对于使用python将json数据解析出来再一条条插入的方法肯定是行不通的。方案记录在此，为通过python连接操作Hive数据库等提供一些参考。一

2015-12-25 13:07:51 3629 1

原创业务系统JSON日志通过python处理并导入Mysql方案

一、环境准备及说明1、程序目录路径[spark@Master Log_Data]$ pwd/home/spark/opt/Log_Data[spark@Master Log_Data]$ ls -LGR.:Py_logproc yemao ymlog_proc_manual.sh ymlog_proc.sh./Py_logproc:date.list db.

2015-12-19 11:47:22 2776 2

原创 Linux上用于Json数据处理并导入Mysql的几个有用Python脚本

1、环境目录结构[root@localhost python_dir]# pwd/root/python_dir[root@localhost python_dir]# ls -lGR.:total 5148-rw-r--r--. 1 root 604 Dec 17 11:24 db.py-rw-r--r--. 1 root 886 Dec 17 11:54

2015-12-18 17:36:30 2627

原创两个遁环调度Mysql存储过程的SP代码

1、被调用的存储过程编码CREATE DEFINER=`datahs`@`%` PROCEDURE `p_dorm_cnt_daily`(IN `p_statistics_date` int)BEGINdelete from datatest.tmp_dorm_cnt_daily where statistics_date=p_statistics_date;insert into

2015-12-16 21:10:57 952

原创一个实现数据批量从mongodb导入Mysql的方案

1、脚本目录路径[spark@Master data_dir]$ pwd/home/spark/opt/data_dir[spark@Master data_dir]$ ls -R /home/spark/opt/data_dir/home/spark/opt/data_dir:weixin_data.sh yemao_log_20151214.csv yemao_log_20

2015-12-16 20:47:22 6309

原创 oracle sqlplus中copy命令的用法

一、语法首先明确SQL*Plus Copy Command不是一个方法或是函数，也不是一个SQL语句，它是一个命令(command)，这个命令必须在SQL*Plus里运行。SQL*Plus Copy Command的语法：COPY {FROM database | TO database | FROM database TO database} {APPEND|CREATE|INSER

2015-12-09 15:04:00 6911

原创用户行为分析业务系统日志处理方案

1、日志要进入的目标表结构信息1.1 Hive库上的目标表结构信息CREATE TABLE `yemao_log`( `id` int, `time` int, `url_from` string, `url_current` string, `url_to` string, `options` string, `uid` int, `

2015-12-04 21:04:00 4883 3

原创 Win下Mysql数据每日查询导出发送方案

1、数据处理的存储过程CREATE DEFINER=`datahs`@`%` PROCEDURE `p_kingr_sum_daily`(IN `p_statistics_date` int)BEGINinsert into datatest.kingr1...........................drop table if EXISTS tmp_loan_app_dis

2015-12-04 17:56:56 565

原创 linux下svn安装配置

1、yum install subversionroot用户登录，执行yum install subversion。[root@localhost ~]# yum install subversionLoaded plugins: fastestmirror, product-id, subscription-managerThis system is not registered

2015-12-04 15:21:25 2130

原创 MySQL数据导出导入

一、数据导出1.导出全库备份到本地的目录mysqldump -u$USER -p$PASSWD -h127.0.0.1 -P3306 --routines--default-character-set=utf8 --lock-all-tables --add-drop-database -A >db.all.sql 2.导出指定库到本地的目录(例如mysql库)mysqldum

2015-12-03 20:22:51 735

转载 mysql数据备份恢复详述

一、使用infile/outfile来导入导出数据经常会需要将数据库里的部分数据导出再导入到另一个数据库中，使用mysqldump方法很不方便，使用outfile的话就会变的很简单。1.outfile使用，将select出的结果导出为一个文本，不含sql语句，导出时使用的是mysql运行的帐户权限。默认不加路径文件存在data目录的数据库文件夹里。 (注：data目录为数据库文件存储的位置

2015-12-03 19:33:26 968

原创 Centos查看系统最近一次启动时间和运行时间

1.uptime命令 [spark@Master Log_Data]$ uptime 09:18:01 up 20:17, 1 user, load average: 0.13, 0.12, 0.142.查看/proc/uptime文件计算系统启动时间[spark@Master Log_Data]$ cat /proc/uptime73064.44 276161.8

2015-12-03 09:27:41 16347

原创 Win8.1环境下配置oracle gateway for mysql(odbc)

一、环境说明Oracle12c与gateway部署在Win8.1系统的同一台机器上，Mysql部署在Ubuntu上。gateway版本：winx64_12102_gatewaysOracle版本：Oracle Database 12c Enterprise Edition Release 12.1.0.2.0 - 64bit ProductionPL/SQL Release

2015-11-18 09:00:40 2334

原创 MongoDB数据导出导入工具

一、mongoexportMongodb中的mongoexport工具可以把一个collection导出成JSON格式或CSV格式的文件。可以通过参数指定导出的数据项，也可以根据指定的条件导出数据。参数说明：-h:指明数据库宿主机的IP-u:指明数据库的用户名-p:指明数据库的密码-d:指明数据库的名字-c:指明collection的名字-f:指明要导出那些列-

2015-11-14 13:11:47 4089

原创 MongoDB的用户、认证和权限

开启MongoDB服务时不添加任何参数时,默认是没有权限验证的,登录的用户可以对数据库任意操作而且可以远程访问数据库！在刚安装完毕的时候MongoDB都默认有一个admin数据库,此时admin数据库是空的,没有记录权限相关的信息！当admin.system.users一个用户都没有时，即使mongod启动时添加了--auth参数,如果没有在admin数据库中添加用户,此时不进行任何认证还是可

2015-11-13 20:57:37 652

原创配置RHEL6使用CentOS6的yum源

使用yum安装vsftp的时候，一直说找不到YUM源，具体查了一下觉得可能是RedHat未授权的问题。所以，借鉴了网上的如下方法。在服务器上安装了RHEL6，由于没有购买RHN服务，所以使用CentOS的源。具体代码：rpm -aq|grep yum|xargs rpm -e --nodeps rpm -ivh http://mirrors.163.com/centos/6/

2015-11-13 20:34:55 854

原创 CentOs下MongoDB安装

1、下载mongodbwget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-1.6.3.tgz2、解压缩文件tar xzf mongodb-linux-x86_64-1.6.3.tgzmv mongodb-linux-x86_64-1.6.3 /home/spark/opt/mongodb-1.6.33、新

2015-11-12 08:57:49 508

原创 Hive静态分区表

Hive的分区表分为动态分区和静态分区，分区表的使用能够为巨量表查询性能的提高提供帮助。静态分区在数据载入前需要事先将分区建好，使用起来稍显复杂，而动态表可以根据数据自动建立分区，但同时花费了巨大的性能代价。如果分区是可以确定的话，一定不要用动态分区，动态分区的值是在reduce运行阶段确定的；也就是会把所有的记录distribute by。可想而知表记录非常大的话，只有一个redu

2015-11-05 20:47:23 1590

原创 sqoop工具常用Hive操作

1、查看sqoop命令说明[spark@Master data_dir]$ sqoop helpusage: sqoop COMMAND [ARGS]Available commands: codegen Generate code to interact with database records create-hive-table Impo

2015-11-05 19:50:44 1449

原创 Hive自身数据导入的方式

Hive几种常见的数据导入方式，总结为四种： 1、从本地文件系统中导入数据到Hive表； 2、从HDFS上导入数据到Hive表； 3、从别的表中查询出相应的数据并导入到Hive表中； 4、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表LOAD DATA LOCAL INPATH '/home/spark/

2015-11-05 17:55:04 502

原创 Hive自身数据导出的方式

根据导出的位置不一样，将这些方式分为三种：1、导出到本地文件系统；2、导出到HDFS中；3、导出到Hive的另一个表中。一、导出到本地文件系统及HDFS中INSERT OVERWRITE LOCAL DIRECTORY '/home/spark/opt/data_dir/base_food' row format delimited fields terminated by

2015-11-05 17:32:51 663

原创 linux主机名的修改

查看主机名信息：[root@Master ~]# uname -nMaster[root@Master ~]# hostnameMaster1、通过hostname命令修改命令格式：hostname newhostname此命令的作用是暂时的修改linux的主机名，它的存活时间linux当前的运行时间，即在重启前的运行时间内。一般修改以后就生效，但是不能永久修改

2015-11-05 08:45:12 769 2

原创 Centos磁盘挂载操作

1、查询未挂载的硬盘fdisk -l //先查询未挂载的硬盘名如：sdb1等2、格式化mkfs.ext3 /dev/xvdb 开始格式化3、查看已经挂载的情况df -h 4、开始挂载 mount /dev/xvdb /home 开始挂载5、设置自启动挂载vi /etc/fstab

2015-10-31 09:52:04 1534

原创大数据环境部署8：Sqoop1部署安装

一、Sqoop的安装1、下载sqoop并解压:也可用wge命令下载sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 对应hadoop 2.x http://psg.mtu.edu/pub/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz解压

2015-10-31 09:34:39 1359 1

原创大数据环境部署7：SparkSQL配置使用

1、SparkSQL配置将$HIVE_HOME/conf/hive-site.xml配置文件拷贝到$SPARK_HOME/conf目录下。将$HADOOP_HOME/etc/hadoop/hdfs-site.xml配置文件拷贝到$SPARK_HOME/conf目录下。2、运行启动Spark集群启动SparkSQL Clie

2015-10-22 21:05:52 3296

原创大数据环境部署6：Spark环境部署

1、下载scala2.11.4版本下载地址为：http://www.scala-lang.org/download/2.11.4.html ，也可以使用wget http://downloads.typesafe.com/scala/2.11.4/scala-2.11.4.tgz?_ga=1.248348352.61371242.1418807768 2、解压和安装

2015-10-22 21:04:48 981

原创大数据环境部署5：Hive安装部署

1、下载hive:wgethttp://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz。2、解压hive安装文件 tar -zvxf apache-hive-1.2.1-bin.tar.gz，并将解压后的文件移动到目标路径。3、配置mysql元数据库3.1、启动my

2015-10-22 21:03:42 1008

原创大数据环境部署4：mysql安装部署

Mysql的安装是在root用户下进行操作的。下载mysql 安装包[spark@localhost~]$ wgethttp://dev.mysql.com/get/archives/mysql-5.6/mysql-5.6.12-linux-glibc2.5-x86_64.tar.gz解压安装包进入安装包所在目录，执行命令

2015-10-22 21:02:30 787

原创大数据环境部署3：Hadoop环境部署

一、安装Hadoop0、下载安装包Wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz1、解压tar-xzvf hadoop-2.6.0.tar.gz 2、move到指定目录下：[spark@LOCALHOST]$

2015-10-22 21:00:48 999

原创大数据环境部署2：ssh免密码验证配置

进行免密码验证配置之前，要保证机器可以正常通信。1、首先在MASTER机器配置进去.ssh文件夹: [spark@MASTER sbin]$ cd~/.ssh/生成秘钥 ssh-keygen : ssh-keygen -t rsa ,一路狂按回车键就可以了最终生成（id_rsa,id_rsa.pub两个文件）生成authorized_keys

2015-10-22 20:58:26 1147

原创大数据环境部署1：环境及介质说明

一、安装介质与版本OS安装介质：[红帽企业Linux.6.4.服务器版].rhel-server-6.4-x86_64-dvd[ED2000.COM].iso版本：Linux version 2.6.32-358.el6.x86_64([email protected]) (gcc version 4.4.7 20120

2015-10-22 20:56:30 1031

走过2010年，回首走过的一年，全部精力投入到了数据平台的建设过程中，在不断的探索、尝试中探索一条适合数据仓库发展之路的数据模型建设方法；作为数据平台建设的主要驱动人，与团队一起完成数据平台基础数据模型（宽表层）的搭建，应用迁移、实现应用项目在新的数据模型上实施。在建设的过程中，有过困惑、走过弯路，但获得了对模型设计方法和理念的体会与沉淀。因此，我更多想对在数据平台建设工作中的历程、困惑、体会做一

2015-08-18 20:30:49 6716

原创关于命名规范、维度明细层及集市汇总层设计的思考

在SN做仓库项目，根据自己负责的内容及SN的一些规范等，将这一阶段的模型工作进行一个思考和总结。一、仓库字段、表等命名的规范数据仓库建设目的，其中重要的一个方面就是建立统一的全局视图；表、字段等的规范命名就是仓库全局视图一个方面的体现。在进行规范命名的时候，一般会根据《数据建模字段简写命名规范.xlsx》来进行。《规范》中有的词组，对应的表及字段按照《规范》进行命名；有的字段词组在《规

2015-08-09 21:25:34 6544

原创维度模型数据仓库基础对象概念一览

一、度量、指标、指标器度量和维度构成OLAP的主要概念，对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段，就是度量。这符合上面的意思，有标准，一个度量字段肯定是统一单位，例如元、户数。如果一个度量字段，其中的度量值可能是欧元又有可能是美元，那这个度量没法汇总。在OLAP中还有计算度量的说法，用一个总费用除以用户数，得到每户平均费用。但这究竟还算不算度量了呢？这已经不是原本意义上

2015-08-09 09:43:04 9725

原创数据仓库基础术语名词一览

冰山查询――iceberg query　在数据仓库领域有一个概念叫Iceberg query，中文一般翻译为“冰山查询”。冰山查询在一个属性或属性集上计算一个聚集函数，以找出大于某个指定阈值的聚集值。以销售数据为例，你想产生这样的一个顾客－商品对的列表，这些顾客购买商品的数量达到3件或更多。这可以用下面的冰山查询表示：Select P.cust_ID, P.item_ID

2015-08-09 09:36:43 5743

原创数据仓库建模与ETL的实践技巧

一、数据仓库的架构　　数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型DataBase，它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的，以OLAP 系统的分析需求为目的。　　数据仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间为事实表，四周为维度表，类似星星;而相比较而言，

2015-08-01 21:14:34 11315

原创 PDM与Excel利用VB脚本进行互导

1、基础样例表和数据Excel数据表，样例中有两个sheet。样表及数据如下： sheet1=>主题域表注释表英文名称表中文名称列名列中文名称列注释数据类型主键是否为空默认值协议　order_info订单信息表STATIS_DATE统计时间　varchar2(100)　　　

2015-07-31 23:06:44 5639 1

原创 Hive与传统数据库对比

学习前的思考1.Hive的数据存储在什么地方？2.Hive的数据格式什么？3.Hive用户定义数据格式需要什么标准？4.Hive为什么数据加载比传统数据块快？5.Hive的数据是否经常被修改？6.Hive在什么情况下，比传统数据块延迟高？延迟高的原因是什么？

2015-07-31 21:22:03 10277

原创文思海辉贾丕星：大数据时代对传统数据仓库的五点思考

大家知道文思和海辉是去年年底合并的，从集团研发对我们支持角度来说：第一点祥麟给了我们一个很好的技术规划体系。第二个是智慧金融这个概念，把所有金融事业群解决方案有效整合在一起。形成应对未来银行业务发展很好的体系。从这两个角度来说，给了整个商业智能部这边很大的支持。今天我讲的是数据仓库的概念。我们这个团队跟大家认识都是从数据仓库这个角度跟大家相识的。我们这个团队一直被认为是业内做商业智能做的比较久，相

2015-04-17 14:45:54 4991

空空如也

空空如也