SWWingceltis-CSDN博客

原创 sparkstreaming读取kafka流，按自身json数据自带的业务时间，增量写入hdfs对应日期目录

package com.weshare.bigdata.ods.handler;import com.alibaba.fastjson.JSONObject;import com.weshare.bigdata.entity.ClusterEnvirEntity;import com.weshare.bigdata.facility.ClusterEnvirFacility;impor...

2020-04-20 10:39:13 546

原创 sqoop同步mysql数据到parquet格式存储的hive表中

sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \--connect "jdbc:mysql://${host}:3306/${dbname}?useUnicode=true&characterEncoding=utf8" \--username ${user} \--password ${pas...

2020-04-20 10:12:39 1081 3

原创 python读取mysql表，并自动在hive上建表

import pymysqlimport reimport sysimport osdef get_table_info(database,table,host,user,password,db,is_partitioned): cols = [] create_head = '''create table if not exists {0}.{1}('''.fo...

2020-04-20 10:10:27 795

原创 flume

一：flume是什么flume是一个分布式、高可靠、高可用的服务，能够有效的收集、聚合、移动大量的日志数据。 1、它有一个简单、灵活的基于流的数据流结构。 2、具有故障转移机制和负载均衡机制。 3、使用了一个简单的可扩展的数据模型（source、channel、sink）。 flume-ng处理数据有两种方式：avro-client、agent。 avro-client

2016-05-21 18:06:28 406

原创 kafka基本操作

一：kafka组件kafka服务： Topic：主题，Kafka处理的消息的不同分类。 Broker：消息的代理，Kafka集群中的一个kafka服务节点称为一个broker，主要存储消息数据。存在硬盘中。每个topic都是有分区的。 Partition：Topic物理上的分组，一个topic在broker中被分为1个或者多个partition，分区在创

2016-05-21 17:47:22 569

转载 eclipse上运行mapreduce

一．简 Windows下的 Eclipse上调试Hadoop2代码，所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件，并在运行Hadoop代码时出现了一系列的问题，搞了好几天终于能运行起代码。接下来我们来看看问题并怎么解决，提供给跟我同样遇到的问题作为参考。 Hadoop2的WordCount.java统

2016-05-21 09:02:06 525

原创大数据之hdfs（1）

一：hdfs的概念数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。通透性。让实际上是通过网络来访问文件的动作，由程序与用户看来，就像是访问本地的磁

2016-05-14 08:50:59 447

原创 ganglia集群的搭建与hadoop集群的搭建

一：安装ganglia Ganglia 是 UC Berkeley 发起的一个开源监视项目，设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据（如处理器速度、内存使用量等）的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式，才使得 Ganglia 可

2016-05-10 13:11:06 2856

原创 hadoop学习---hadoop的伪分布设置

一：配置ip与主机名1：设置主机名：vi /etc/sysconfig/network2：查看IP地址：ifconfig3：设置IP与主机名的映射：vi /etc/hosts二：关闭防火墙1：查看防火墙是否启动：server iptables status2：关闭防火墙server iptables stop3：为了防止重启虚拟机时，防火墙自启：

2016-05-07 16:16:23 278

原创 hadoop正式学习---hadoop

一：课程结构二：hadoop是什么 hadoop是适合大数据的分布式存储与计算的平台三：数据的分布式存储四：hadoop中的概念在分布式存储系统中，分散在不同节点中的数据可能属于同一个文件，为了组织众多的文件，把文件可以放到不同的文件夹中，文件夹可以一级一级的包含。我们把这种组织形式称为命名空间（namespace）。命名空间管理着整个服务

2016-05-07 14:21:55 2161

原创 hadoop正式学习之redis---网络数据爬虫

一：项目描述该项目的主要目的是抓取京东、易迅、国美、苏宁等电商网站的商品信息。主要获取商品的标题，价格以及规格参数等信息，在前台界面为用户提供商品查询和商品比价等功能，帮助用户购买到物美价廉的商品。这个项目主要分为四个模块：页面下载模块。页面解析模块。解析内容存储模块以及系统监控模块 1：页面下载模块：主要负责爬取指定电商网站的数据，在这里我们不能直接连上浏览器，所以我们使用http

2016-05-05 19:51:32 2802

原创 hadoop正式学习之redis---redis的主从复制与Sentinel以及集群搭建

一：redis的主从复制 redis的复制功能是支持多个数据库之间的数据同步。一类是主数据库（master）一类是从数据库（slave），主数据库可以进行读写操作，当发生写操作的时候自动将数据同步到从数据库，而从数据库一般是只读的，并接收主数据库同步过来的数据，一个主数据库可以有多个从数据库，而一个从数据库只能有一个主数据库。修改配置文件redis.conf，只修改从数据库

2016-04-30 17:44:27 562

原创 hadoop正式学习之redis---redis优化

一：redis优化1 精简键名和键值键名：尽量精简，但是也不能单纯为了节约空间而使用不易理解的键名。键值：对于键值的数量固定的话可以使用0和1这样的数字来表示，（例如：male/female、right/wrong）当业务场景不需要数据持久化时，关闭所有的持久化方式可以获得最佳的性能内部编码优化（了解） redis为每种数据类型都提供了两种内部编码方

2016-04-30 13:46:30 1085

原创 hadoop正式学习之redis------redis的学习和操作2

redis持久化（persistence） redis支持两种方式的持久化，可以单独使用或者结合起来使用第一种：RDB方式（redis默认的持久化方式）第二种：AOF方式1：redis持久化之RDB rdb方式的持久化是通过快照完成的，当符合一定条件时redis会自动将内存中的所有数据执行快照操作并存储到硬盘上。默认存储在dump。rdb文件中。（文件名在配

2016-04-30 13:35:49 804

原创 hadoop正式学习之redis------redis的学习和操作1

1：redis简介 Redis是一种面向“键/值”对数据类型的内存数据库，可以满足我们对海量数据的读写需求 redis的键只能是string类型 redis的值支持多种数据类型 1：字符串：string 2：哈希：hash 3：字符串列表：list 4：字符串集合：set（不重复，无序）

2016-04-28 19:38:46 1876

原创 hadoop学习序曲之mysql基础篇--mysql之JDBC

JDBC全称为：Java DataBase Connectivity（java数据库连接）。SUN公司为了简化、统一对数据库的操作，定义了一套Java操作数据库的规范，称之为JDBC。1：编写JDBC程序编程从student表中读取数据，并打印在命令行窗口中。一、搭建实验环境： 1、在mysql中创建一个库，并创建stude

2016-04-25 23:10:16 297

原创 hadoop学习序曲之mysql基础篇--mysql基础

1、数据库 -- 一个文件系统，存储数据使用。一般通过标准SQL语言去访问数据库数据。2、关系型数据库 -- 保存关系模型数据。 E-R图非关系型数据库 -- 相对于关系型数据库来说的数据库，保存半结构化数据及非结构化数据关系型数据：mysql数据库 : 开源，中小型数据库。属于Oracle公司，从6.0+出现收费版本，企业版。任何平台都可以使用。oracle数据

2016-04-24 19:23:20 389

原创 hadoop学习序曲之linux基础篇--shell编程入门

1：shell是什么 Shell是用户与Linux操作系统沟通的桥梁 Linux的Shell种类众多，这里我们学习的是bash，也就是Bourne Again Shell 1：由于易用和免费，Bash在日常工作中被广泛使用 2：Bash是大多数Linux系统默认的Shell。2：shell脚本文件格式文件名后缀通常是 .sh #!/bin/ba

2016-04-23 16:21:17 331

原创 hadoop学习序曲之linux基础篇--linux的安装和使用

一：linux介绍 1：linux思想源于unix进行开发 2：linux属于开源免费软件，公开内核源代码。而unix属于闭源收费软件。 3：linux可以自由安装，支持绝大部分平台。而unix通常和硬件配套。 4：使用上linux相对简单，unix较为复杂 5：linux也有商业化的版本，比如RedHat，SuSe，红旗等。二：组成部分

2016-04-23 16:19:12 325

原创 hadoop学习序曲之java基础篇--javaIO流及File类

设备：磁盘 U盘光盘等。按照数据流向来分：输入流和输出流。按操作数据类型来分：字节流和字符流。字符流：字节流+对应的码表。字符流。Reader 和 Writer。字节流InputStream 和 OutputStream。写文件的FileWriter类：FileWriter fw = new FileWriter("abc

2016-04-23 16:16:16 286

原创 hadoop学习序曲之java基础篇--javamap

-Collection --->是一个单列的集合 ------------------------ * Map map中需要存放两个元素一个是K：Key-->键一个是V：Value--->Value ----->map是一个双列的集合每一个K和V之间存在着关系：映射关系 Map的特点： ma

2016-04-23 16:14:54 227

原创 hadoop学习序曲之java基础篇--java泛型以及集合类复习

在我们类中方法上定义泛型 * 1、如果类上面定义了泛型，可以直接使用类上面定义的泛型 * 2、如果方法有返回值，而且返回值不确定是什么类型，我们也可以使用泛型来作为方法的返回值 * 返回值的类型不一定和我们类上面的泛型一直 * 3、如果方法是静态方法的时候，那么就需要在static和返回值中间指定要使用的泛型 * 我们发现，泛型也是有局限性的：一旦指定类上的泛型之

2016-04-23 16:13:23 324

原创 hadoop学习序曲之java基础篇--java集合类

集合类的由来：对象用于封装特有数据，对象多了需要存储，如果对象的个数不确定就使用集合容器进行存储。集合特点：1、用于存储对象的容器。2、集合的长度是可变的。3、集合中不可以存储基本数据类型值。集合容器因为内部的数据结构不同，有多种具体容器。不断的向上抽取，就形成了集合框架。框架的顶层Collection接口：Collection的常见方法： 1

2016-04-23 16:12:13 224

原创 hadoop学习序曲之java基础篇--java常用类

常用类的操作一、String 概述：将字符用双引号引起来的整体我们称之为字符串，使用非常频繁,同时也是一个非常特殊的对象. eg.String str = "abc"; str = "add"; 字符串一旦初始化就不可以被改变。 eg. String s = "abc"; String s1 =

2016-04-23 16:10:48 289

原创 hadoop学习序曲之java基础篇--java多线程

信号量(Semaphore)，有时被称为信号灯，是在多线程环境下使用的一种设施, 它负责协调各个线程, 以保证它们能够正确、合理的使用公共资源。比如：停车场每辆车是一个线程，看门的大爷起到了信号量的作用。工作内存和主内存之间有八种操作。read（读取） load（载入） use（使用） assign（赋值） store（存储） write（写入） lock（锁定） unlo

2016-04-23 16:08:10 485

原创 hadoop学习序曲之java基础篇--java内部类异常

1：object类中的方法 boolean equals(Object obj) ：比较两个对象是否相等，默认是比较内存地址值，这个意义不大，所以在工作中如果需要对对象进行比较的话，一般会重写此方法，实现自己的比较逻辑。 String toString() ：默认会打印对象的

2016-04-23 16:05:17 311

原创 hadoop学习序曲之java基础篇--java接口多态

1：接口 interface interface 接口名称{}接口中的成员修饰符是固定的。成员常量：public static final成员函数：public abstract这些修饰符即使不写，系统也会自动加上，建议写上，因为可以提高程序的阅读性。接口里面的方法默认都是public的，所以子类在实现的时候必须要使用public接口实现类的命名，一般在最后面

2016-04-23 16:00:56 280

原创 hadoop学习序曲之java基础篇--java继承抽象类

1：继承使用关键字extends实现。格式：class Zi extends Fu{}继承的好处？ 1：简化代码量，简化书写。代码看起来比较简洁 2：让类与类之间产生了关系，所以导致了面向对象的第三个特征，多态的出现。继承的特点？ java只支持单继承，不支持多继承。 java里面支持多层继承。到底什么时候使用继承

2016-04-23 15:59:43 280

原创 hadoop学习序曲之java基础篇--java面向对象封装

3.1.1理解面向对象1：面向对象其实是相对于面向过程而言。面向对象和面向过程都是一种思想面向过程强调的是功能行为面向对象将功能封装进对象，强调具备了功能的对象。面向对象是基于面向过程的。3.1.2 面向对象的特点是一种符合人们思考习惯的思想可以将复杂的事情简单化将程序员从执行者转换成了指挥者完成需求时：先要去找具有所需的功能的对

2016-04-23 15:58:44 297

原创 hadoop学习序曲之java基础篇--java静态

1：static 什么时候使用静态？针对所有对象的属性值都一样的时候，这个属性就可以使用static修饰，这个时候这个属性就存在于方法区中的静态区中。被所有对象共享。针对每个对象特有的属性，这个就不能使用static修饰了。针对静态修饰的变量有两种调用方式1：使用对象进行调用 2：直接使用类名调用。生命周期：静态区中的变量

2016-04-23 15:57:15 217

原创 hadoop学习序曲之java基础篇--java数组

1:数组格式：元素类型[] 数组名 = new 元素类型[元素个数或数组长度]; int[] arr = new int[5]; 左边： int：表示数组中元素的类型 []：表示是一个数组 arr：表示是数组的名称右边： new：是一个创建实体的关键字，在这是为了创建数组 int：表示数组中

2016-04-23 15:53:33 253

原创 hadoop学习序曲之java基础篇--java基础语法

1：if判断语句的三种格式 a）单分支 if（）{ } b）双分支 if（）{ } else{ } c）多分支 if（）{ } else if{ } else if{ } else{ } if语句的特点： a）每一种格式都是单条语句 b）第二种格式与三元运算符的区别：三元运算符运算完要有值出现 c）条件表达式无

2016-04-23 15:52:15 345

原创 hadoop学习序曲之java基础篇--java概述

1：dos命令 dir：查看当前目录下面的所有文件 (d:):表示切换到某个磁盘 cd：进入某个目录 rd：(remove dir)删除目录 md：(make dir)创建目录 cd ..：退到上一级目录 cd \：跳到所在磁盘根目录 del：后面跟文件名的时候，表示删除文件，后

2016-04-23 15:47:02 356

hhfff123的博客