自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (7)
  • 收藏
  • 关注

原创 spark中多表连接优化实例

环境信息: hive1.2.1 spark1.6.1 hadoop2.6.0-cdh5.4.2 memory:1918752, vCores:506表结构: 表名称 表容量 主键 hive存储类型 temp_01_pc_order 5G PC_ORDER_ID RCFile TST_ORDER_RISK 9.4G 非 PC_ORDER_ID RC

2016-07-13 17:26:45 8905

原创 sed基础

sed读取数据方式: sed是流式编辑器,它先从文件的一个文本行或者从标准输入中读取数据,copy进缓冲区,然后读取命令行或者脚本的第一条命令,并使用这些命令查找模式或者定位行号进行编辑;如此重复。 sed处理的是缓冲区中的copy,并不处理源文件;所有的改动如果不重定向到一个文件,都将输出到屏幕。 调用方式: 1、命令行: sed [选项] ‘sed命令’ input_file

2016-06-01 16:52:42 534

原创 awk基础

AWK程序:调用方式:1、命令行方式:awk [-F field-separator] 'commands' input-file(s) 2、将所有awk命令插入一个文件,并使其可执行,然后用awk命令解释器作为脚本首行,便于输入脚本名称来调用。#!/bin/awk -f 3、将所有awk命令插入一个单独的文件,然后调用:awk -f awk-script-file input-file(s)任

2016-05-23 17:56:49 526

原创 hive两大表关联优化试验

呼叫结果(call_result)与销售历史(sale_history)的join优化: CALL_RESULT: 32亿条/444G SALE_HISTORY:17亿条/439G原逻辑 Map: 3255 Reduce: 950 Cumulative CPU: 238867.84 sec HDFS Read: 587550313339 HDFS Write: 725372

2016-05-18 10:39:38 12186

原创 grep命令

grep家族grep:标准grep命令; Egrep:扩展grep,支持基本及扩展的正则表达式; Fgrep:快速grep。允许查找字符串而不是一个模式grep的一般格式: grep[选项]基本正则表达式[文件] 常用的grep选项: -a :将 binary 文件以 text 文件的方式搜寻数据 -c :计算找到 ‘搜寻字符串’ 的次数 -i :忽略大小写的不同,所以大小写视为相同

2016-05-13 16:41:35 620

原创 spark sql运行出错(Container killed on request. Exit code is 143)

错误描述:SQL三张表做join运行出错;用hive执行报错如下: Diagnostic Messages for this Task: Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usag

2016-05-06 16:05:16 56415

原创 使用IPython探索和可视化数据

推荐使用 Anaconda.它是一个预编译的科学Python套件。(或者Enthougt)下载 Anaconda-2.3.0-Linux-x86_64.sh 并copy到/usr/local/apps目录下,运行 bash Anaconda-2.3.0-Linux-x86_64.sh完成安装。更新环境变量:在/home/hadoop/.bashrc中添加export PATH=/usr/loca

2015-09-27 21:34:20 2582 1

原创 Spark开发环境及源码阅读环境配置

源码阅读环境配置:参考如下博文:Windows + IDEA + SBT 打造Spark源码阅读环境上面是在windows环境的配置,比较耗时,而且由于网络原因,很有可能出错;在linux环境下就比较简单了:进入spark源代码目录下,运行以下命令:./sbt/sbt gen-idea会自动生成idea项目文件;然后进入idea,点击File->Open project即可。使用intelli

2015-09-03 19:28:46 2090

原创 数据挖掘算法——ID3(决策树)

决策树算法:决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常 对应于待分类对象的属性

2015-08-07 16:51:48 6423 3

翻译 Spark SQL and DataFrame Guide(1.4.1)——之Data Sources

Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。

2015-07-30 20:15:17 3314

翻译 Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames

2015-07-29 16:02:52 4611

原创 在spark上运行独立程序(Self-Contained Applications)

在hadoop集群上搭好spark环境及体验spark shell之后可以重新做做官方的快速上手。运行独立程序(SimpleApp.py): 首先编写程序(这里用Pytho的API): from pyspark import SparkContextlogFile = "README.md" #注意这里的文件是在hdfs中的sc = SparkContext("local","Simp

2015-07-05 16:27:57 2224 2

原创 spark-shell初体验

1、复制文件至HDFS:hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /userhadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoophadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -copyFromL

2015-05-02 13:50:45 2027

原创 hadoop集群只有一个datanode启动问题

之前不懂犯了个低级错误,导致datanode只能启动一个;很是奇怪;首先,之前多次将namenode格式化,导致namenode和datanode的clusterID不一致无法启动datanode注:clusterID在/usr/local/hadoop/hdfs/name/current目录下;解决方案:修改Shadoop1 和 Shadoop2 的data/current目录下的V

2015-05-02 12:46:00 19734 4

原创 我的hadoop2.4安装过程

先记录下安装dk出现的问题:

2015-05-01 16:02:57 941

原创 在hadoop2.4集群环境下安装spark

1、下载spark最新版:http://spark.apache.org/downloads.html下载对应的Scala版本:http://www.scala-lang.org/download/

2015-05-01 15:57:37 3478 2

原创 Python包numpy、Matplotlib、SciPy在64位Windows上的安装

Python版本:3.4.2 64位Matplotlib 最容易,有64位的exe文件,直接下载:http://sourceforge.net/projects/matplotlib/files/?source=navbarnumpy 和 SciPy:http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy 下载64位的whl文件至于whl文

2015-03-15 17:20:37 46325

原创 sublime text 2安装及使用

1、首先下载Sublime Text:http://www.sublimetext.com/2、基本你设置,参考此文:http://blog.jobbole.com/40660/Preferences.sublime-settings 配置:{ "auto_complete": false, "caret_style": "solid", "color_scheme": "Pac

2014-11-02 00:26:57 3205

原创 《Oracle Database 11g SQL 开发指南》学习笔记——第11章_PL/SQL编程简介

11.1、块结构    [DECLARE        declaration_statements    ]    BEGIN       executable_statements    [EXCEPTION       exception_handing _statements    ]    END;    / 每一条语句都由';'结尾,PL/S

2012-09-04 16:57:57 1744

原创 《Oracle Database 11g SQL 开发指南》学习笔记——第四章_使用简单函数(二)

4.1.4 正则表达式函数。   \ 转义字符,  ^ 匹配字符串开头位置,  $ 匹配字符串结束位置,   *匹配前面字符0次或多次       + 匹配1次或多次,  ?匹配0或1次,     {n} 匹配恰好n次,    {n,m}匹配至少n至多m次        . 匹配除null之外任意字符     (pattern)匹配制定模式的一个子表达式。   x|y匹配x或y,x

2012-08-29 15:12:04 1199

原创 《Oracle Database 11g SQL 开发指南》学习笔记——第六章__子查询

6.1、子查询类型:           单行子查询、多行子查询、多列子查询、关联子查询、嵌套子查询6.2、编写单行子查询: 不向外部SQL语句返回结果,或者值返回一行。                                      可放在where、having、from子句中。 6.2.1、where子句中一般使用“=”操作符,也可以使用、=、 6.2.2、在h

2012-08-23 15:20:24 1230

原创 《Oracle Database 11g SQL 开发指南》学习笔记——第四章_使用简单函数(一)

4.1使用单行函数:字符函数,数字函数,转换函数,日期函数,正则表达式函数。  函数之间还可以组合嵌套使用。任何有效地函数组合都可以正常使用。从里层向外层计算。  4.1.1、字符函数。    ASCII(x)返回X的ASCII码;  INITCAP(x):将x中每个单词的首字母转换成大写并返回。    CHR(x) ; CONCAT(x,y) ;LOWER(X); UPPER

2012-08-22 17:53:51 1215

原创 《Oracle Database 11g SQL 开发指南》学习笔记——第三章_使用SQL*PLUS

1、在unix下使用sqlplus启动Oracle数据库:sqlplus /nolog——>connection /as sysdba——>  start up ——> lsnrctl start(开启监听器)  ——>  tnsping [oradb](看是否ping的通)2、从命令行启动:sqlplus [user_name[/password[@ host_string]]]3、连接

2012-08-21 20:22:02 1623

原创 《Oracle Database 11g SQL 开发指南》学习笔记——第二章

1、DBA可以修改日期的默认显示格式:通过参数NLS_DATE_FORMAT的修改实现。2、Oracle数据库中每一行都有一个唯一的行标识符rowid,用来存储行的物理位置。;另一个伪列是ROWNUM,返回每一行在结果集中的行号。3、dual表,只包含一行varchar2类型,值为x。在计算算术运算或日期时很有用。如SELECT 2*4 FROM DUAL;select TO_DATE('

2012-08-18 15:58:01 1062

原创 Java线程

Java线程有两种:Daemon守护线程和User用户线程用户线程:Java虚拟机在所有非守护线程都结束后自动离开守护线程:服务于用户线程,只有等所有的用户线程结束后,Java虚拟机才退出总之,必须等所有的Non-daemon线程都运行结束了,只剩下daemon的时候,JVM才会停下来。Main主程序是Non-daemon 线程setDaemon(boolean on) 方法可以方

2012-08-02 14:58:37 625

原创 java 集合类

List接口是有序的Collection,与set不同的是List允许有相同的元素。除了Iterator()方法外,List还提供ListIterator()方法,其返回ListIterator接口,此接口多了一些add()之类的方法,允许添加、删除、设定元素,还可以向前向后遍历。实现List接口的常用类有LinkedList、ArrayList、Vector、Stack等(1)Linke

2012-08-01 13:38:01 928

原创 历届JOLT图书奖整理

Jolt大奖素有“软件业界的奥斯卡”之美誉。苦于查不到历史记录,故作部分整理。由于从2002年及之后,至2008年为止,书籍类奖项分为通用类和技术类进行评奖,因此先将2001年及以前,和2010年及以后的书籍类奖项单独列入下表。年度奖项名称作者出版商中文版1990震撼奖Annotated C++ R

2012-05-17 20:59:36 8755 2

原创 antlr.collections.AST.getLine()I异常

做系统的时候,偶尔会出现此种异常,很是苦恼,有时候有,有时候没有。查了一些资料最终得以解决。用的是struts2.1 和hibernate3.3。myeclipse8.5开发,问题因为Struts自带的antlr-2.7.2.jar,比Hibernate3.3自带的antlr-2.7.6.jar的版本要低,故要删除前一个低版本的。具体删除方法参见:http://zhanglulu33.bl

2012-04-29 11:44:11 826

原创 Hibernate更新数据

public boolean update(Livestock ls) throws HibernateException {Transaction tx = null;try {Session session = this.getSession();tx = session.beginTransaction();Livestock d = new Livestock(

2012-04-28 16:52:57 2728

原创 学习hibernate遇到问题之Could not parse mapping document from resource

初学hibernate,遇到此问题很是棘手,自己配置没有问题,查了许多东西都不能解决,最终才发现一个表中字段为"role" ,将其改为“type” 就好了。不太明白为什么,先记录下来!

2012-04-28 16:39:29 1027

原创 java 线程同步问题之银行存取款问题

public class SaveAndFetchMoney { /**  *   */ public static void main(String[] args) {  int num_of_save = 20; // 存款线程数  int num_of_fetch = 100; // 取款线程数  Thread[] thread = new Thread[num_of

2010-11-19 21:46:00 5661 4

原创 Java线程同步问题之警察抓小偷

public class policemanAndThief { int x, y; Boolean isCatched = false; /**  *   */ public static void main(String[] args) {  policemanAndThief pt = new policemanAndThief();  Policeman p =

2010-11-19 21:41:00 3064

原创 java 线程同步问题之生产者消费者问题

public class ProducerAndConsumer { private static final int MAX_PRODUCE_COUNT = 10; /**  *   */ public static void main(String[] args) {  TakeAndPut tp = new TakeAndPut();  Producer p = ne

2010-11-19 16:10:00 809

原创 记事本中的字体,字形,大小设置。

public class font  implements ActionListener,ListSelectionListener{  private JTextField textField_1;  private JTextField textField_2;  private JTextField textField_3;  private JList list_1; 

2010-11-12 09:13:00 4053

《利用python进行数据分析》书本数据集及源码

《利用python进行数据分析》书本数据集及源码

2016-12-08

软件开发与测试的一些初步知识

软件开发与测试的一些初步知识包裹详细说明测试报告,测试指南,开发流程,开发计划书等

2011-05-22

数据结构课件《ppt》

很好用的的一个课件。从绪论到文件共十个章节!

2010-06-21

微机原理与接口课程设计

刚做的!有流程图,有硬件连接图,和程序!!!!

2010-06-21

C语言(pdf)和数据结构c语言版课件

C语言(pdf)和数据结构c语言版课件,希望有用!!

2010-04-11

高质量c/c++编程指南

高质量c/c++编程指南pdf。很好的一本书。

2010-04-11

c语言程序设计ppt

清华版的C语言程序设计全套ppt!希望对大家有用!

2010-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除