孙文旭-CSDN博客

简介kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念，生产者往topic里写消息，消费者从读消息。为了做到水平扩展，一个topic实际是由多个partition组成的，遇到瓶颈时，可以通过增加partition的数量来进行横向扩...

2019-08-10 21:06:15 301

原创【kafka】伪分布式安装配置

安装过程上传解压配置 **conf/server.properties** 配置唯一标识符第20行 broker.id=9092 配置Broker端口第25行 port=9092 配置Broker运行主机名称第28行 host.name=【主机名】配置日志文件存储目录第58行 log.dirs=/opt/modules/kafka_2.11-...

2019-08-10 20:55:48 527

原创【Spark】MLlib mark a demo（前言）

人工智能，企业到底是干嘛算法 -函数读论文&实现之工程机器学习工程师（或调参工程师）运行已有算法，训练业务数据，获得工作模型。将数据 ->算法（函数） -> θ的值调用API（调用某个类中的方法），调整不同的参数，获取更好的 θ值如何获取算法（函数）中参数的值，最为关键当一个算法中参数已经获取到之后，次数算法（函数）编程模型算法和模型最大的区别：有参数就是...

2019-08-09 22:29:08 226

原创【Spark】MLlib mark a demo（五）

标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列口碑商家客流量预测第五步使用线性回归（不适用于当前场景）package com.huadian.bigdata.ijcaiimport org.apache.spark.mllib.feature.{StandardScaler, StandardScalerModel}import org.apache.spark.mllib...

2019-08-09 22:28:00 145

原创【Spark】MLlib mark a demo（四）

标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列口碑商家客流量预测第四步使用随机森林回归算法package com.huadian.bigdata.ijcaiimport org.apache.spark.mllib.feature.{StandardScaler, StandardScalerModel}import org.apache.spark.mllib.linal...

2019-08-09 22:26:22 239

原创【Spark】MLlib mark a demo（三）

标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列口碑商家客流量预测第三步使用决策树回归算法训练模型，并测试数据package com.huadian.bigdata.ijcaiimport org.apache.spark.mllib.linalg.{Vector, Vectors}import org.apache.spark.mllib.regression.Labe...

2019-08-09 22:23:51 260

原创【Spark】MLlib mark a demo（二）

标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列口碑商家客流量预测第二步数据整理星期几第几天商家id浏览量购买量星期一11024600342package com.huadian.bigdata.ijcaiimport java.util.Dateimport org.apache.spark.sql.{SaveMode, Spa...

2019-08-09 22:21:02 155

原创【Spark】MLlib mark a demo（一）

标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列口碑商家客流量预测第一步取样获取训练数据package com.huadian.bigdata.ijcaiimport org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringTyp...

2019-08-09 22:16:30 269

原创【Spark】ETL数据到HBase中时优化

创建表的时候设置表的数据压缩创建预分区设置读取表中的数据不缓存 cache blockspark程序的优化存在一个变量eventTypeList是Driver里面，filter是在Executor里面task运行如果RDD有中3个分区，分别在不同的executor中，那么eventTypeList需要存储3份在实际的开发中，一天处理的数据量几十个GB，分区有可能很多，一个数据库对...

2019-08-06 21:33:59 195

转载【Spark】 Job-Stage-Task之间的关系

Spark-Job-Stage-Task之间的关系基本概念在开始之前需要先了解Spark中Application，Job，Stage等基本概念，官方给出的解释如下表：TermMeaningApplication用户编写的Spark应用程序,包括一个Driver和多个executorsApplication jar包含用户程序的Jar包Driver Prog...

2019-08-02 22:09:30 269

原创【Spark】性能优化：RDD优化

1、对于RDD中某些函数使用注意（1）能不使用groupByKey函数就不使用，除非不得已redcueByKey（combiner） = groupBy+ map(变量值相加)redcueByKey可以先进行本地聚合操作（2）尽量使用XXPartition函数代替XX函数xx:map/foreach/zipdef foreach(f: T => Unit): Unitf:针对...

2019-08-02 21:50:16 346

原创【Spark】 SparkSession与SparkContext

文章开始先让我们看一张图：从图中我们可以大概看出SparkSession与SparkContext的关系了SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和...

2019-08-01 23:37:35 12448

原创【代码样板】HBase一个MapReduce程序ETL

public class SaleOrdersMapReducer extends Configured implements Tool { //原表：数据来源 private final static String ORDERS_TABLE_NAME="ns1:orders"; //处理后的数据，表需要提前创建 private final static String H...

2019-07-31 21:22:24 154

原创【代码样板】HBase 数据导入处理

一、Shell 交互式命令行bin/hbase shell帮助命令 help ‘create’二、使用API操作HBaseeg:插入数据 //1、读取配置信息 Configuration conf = HBaseConfiguration.create(); //System.out.println(conf); Connection c...

2019-07-31 21:11:39 227

转载深入了解HBASE架构

简单的说，HBase使用的是LSM（Log-Structured Merge tree）–日志结构的合并树做为存储方式，这种存储方式是很多NoSQL数据库都在使用的，它的主要特点是：写：完全的内存操作，速度非常快。具体来说，是写入WAL（write ahead log）日志和MemStore内存，完成后给客户端响应。WAL相当于MySQL的binlog。当MemStore达到一定大小后，将其...

2019-07-30 00:04:50 256 1

转载深入理解HBase存储结构

HBASE是一个高可靠性、高性能、面向列、可伸缩、实时读取的分布式存储系统数据库，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase介于nosql（非关系型数据库）和RDBMS（关系型数据库管理系统）之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的...

2019-07-29 23:30:35 174

转载 Hbase入门、配置、简单使用

HBASE数据库特点nosql数据库，列式存储数据，内存存储HBASE表每行数据都有一个主键：rowkey一个表中，包含1个或者多个列簇（Column Family）CF某个字段要属于某个列簇一个列簇下面可以有百万个列HBASE存储数据的本质可以理解为键值对存储key:rowkey +CF +column +timstampvalue:值是二进制方式存储HBase数...

2019-07-29 22:43:13 143

转载 redis4.0深入持久化

前言本篇博文将详细介绍redis4.0所提供的持久化方案：RDB持久化和AOF持久化以及redis4.0新特性混合持久化。这里将从原理到配置以及相关实践进行说明，希望能对你有所帮助。一、RDB持久化简介RDB持久化方式是通过快照(snapshotting)完成的，当符合一定条件时，redis会自动将内存中所有数据以二进制方式生成一份副本并存储在硬盘上。当redis重启时，并且AOF持久化未...

2019-07-23 20:47:31 204

转载【缓存】缓存中常见的4种问题分析以及解决方案

一、前提1.文中相关术语（1）缓存命中：终端用户访问加速节点时，如果该节点有缓存住了要被访问的数据时就叫做命中，如果没有的话需要回原服务器取，就是没有命中。（百科）（2）过期时间：EXPIRE，是一个常用的Redis命令，允许用户为某个key指定超时时间，当超过这个时间之后key对应的值会被清除。延展到“缓存失效策略”，这部分内容之后详述。二、Redis常见问题我自己画了个图，参考如...

2019-07-23 20:39:55 461

转载 Redis 常用应用场景

1、缓存缓存现在几乎是所有中大型网站都在用的必杀技，合理的利用缓存不仅能够提升网站访问速度，还能大大降低数据库的压力。Redis提供了键过期功能，也提供了灵活的键淘汰策略，所以，现在Redis用在缓存的场合非常多。2、排行榜很多网站都有排行榜应用的，如京东的月度销量榜单、商品按时间的上新排行榜等。Redis提供的有序集合数据类构能实现各种复杂的排行榜应用。3、计数器什么是计数器，如电商网...

2019-07-23 20:18:29 91

原创 Redis事务

redis 事务Redis事务Redis中的事务(transaction)是一组命令的集合。事务同命令一样都是Redis最小的执行单位，一个事务中的命令要么都执行，要么都不执行。Redis事务的实现需要用到 MULTI 和 EXEC 两个命令，事务开始的时候先向Redis服务器发送 MULTI 命令，然后依次发送需要在本次事务中处理的命令，最后再发送 EXEC 命令表示事务命令结束。Redis...

2019-07-23 20:16:02 74

转载 HDFS客户端上传下载文件流程

1 上传概述客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本2 上传详细步骤图3、上传详细描述1 客户端与nameNode通讯1.1 客户端像nameNode发送上传文件...

2019-07-23 16:06:50 545

转载为什么说Redis是单线程的？

一、前言近乎所有与Java相关的面试都会问到缓存的问题，基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据” ，复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题，这些看似不常见的概念，都与我们的缓存服务器相关，一般常用的缓存服务器有Redis、Memcached等，而笔者目前最常用的也只有Redis这一种。如果你在以前面试的时候还没有遇到过面试官问你：为什么说Re...

2019-07-23 09:35:00 88

原创 "31/Aug/2015:00:04:54 +0800"转"20150831000454"

private SimpleDateFormat inputdate = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss", Locale.ENGLISH);private SimpleDateFormat outputdate = new SimpleDateFormat("yyyyMMddHHmmss");Date date = inputdate.p...

2019-07-22 23:22:40 205

转载分布式CAP理论

CAP定理又称CAP原则，指的是在一个分布式系统中，Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），最多只能同时三个特性中的两个，三者不可兼得。一、CAP的定义Consistency (一致性)：“all nodes see the same data at the same time”,即更新操作成功并返回客户端...

2019-07-22 22:49:34 100

原创 NoSql数据库分类

nosql数据库的产生大数据时代的3V海量Volume多样Variety实时Velocity互联网需求的3高高并发高可扩高性能。NOSQL数据库的分类

2019-07-22 22:37:36 87

原创 Redis 设置为后台进程

现象我们开启radis服务是运行redis-server命令然后redis会自动读取默认的配置文件，然后服务启动如下：但是这个界面一旦退出，服务就马上停止了，所以我们应该修改配置文件，让服务变成守护进程的方式，在后台运行解决1、在redis根目录下，添加配置文件将redis源码项目中的redis.conf 移动到该目录下我的redis是下载的项目源码自己编译的所以根目录下并没有red...

2019-07-22 22:13:20 514

转载【干货】Comparable和Comparator详解

v

2019-07-21 21:59:16 201

原创 azkaban安装详细教程

准备工作准备azkaban的安装包直接下载azkaban的压缩包，上传解压使用git从官网下载源码，编译配置mysql-》为azkaban创建用户、数据库、设置权限等 CREATE DATABASE azkaban; CREATE USER 'azkaban'@'%' IDENTIFIED BY 'azkaban'; GRANT SELECT,INSERT,UPDATE,DEL...

2019-07-21 15:27:01 601

原创 sqoop安装配置

什么是SqoopSqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具，结构化数据可以是Mysql、Oracle等RDBMS。Sqoop底层用MapReduce程序实现抽取、转换、加载，MapReduce天生的特性保证了并行化和高容错率，而且相比Kettle等传统ETL工具，任务跑在Hadoop集群上，减少了ETL服务器资源的使用情况。在特定场景下，抽取过程会有很大的性能提升。如...

2019-07-21 14:42:52 114

翻译数据仓库？为什么要分层？

我们对数据进行分层的一个主要原因就是希望在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个原因：清晰数据结构：每一个数据分层都有它的作用域，这样我们在使用表的时候能更方便地定位和理解。数据血缘追踪：简单来讲可以这样理解，我们最终给业务诚信的是一能直接使用的张业务表，但是它的来源有很多，如果有一张来源表出问题了，我们希望能够快速准确地定位到问题，并清楚它的危害范围。减少...

2019-07-18 21:39:39 3480 1

转载数据库和数据仓库的区别、数据仓库架构

2019-07-18 21:01:08 153

转载常见的大数据分析模型

常见数据分析模型较多，列举其中常见的八种供楼主参考：1、行为事件分析行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度。企业借此来追踪或记录的用户行为或业务过程，如用户注册、浏览产品详情页、成功投资、提现等，通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影响等。在日常工作中，运营、市场、产品、数据分析师根据实际工作情况而关注不同的事件指标。如最近三个月来...

2019-07-18 20:50:58 1707

转载 Hive lateral view使用

多行转换：lateral view说明：lateral view用于和json_tuple，parse_url_tuple，split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。hive> select s.x,sp from test.dual s lateral view explode(split(concat_ws('...

2019-07-18 20:46:29 1074

转载 hive 参数传递

Hive 参数传递命令行模式，或者说目录模式，可以使用hive 执行命令。选项说明：-e : 执行短命令-f : 执行文件（适合脚本封装）-S : 安静模式，不显示MR的运行过程-hivevar : 传参数，专门提供给用户自定义变量。-hiveconf : 传参数，包括了hive-site.xml中配置的hive全局变量。案例：脚本调用test.sql...

2019-07-18 19:19:45 2527

原创 mapreduce自定义类型-空指针异常

19/07/17 14:22:15 INFO mapreduce.Job: Task Id : attempt_1563334466365_0002_m_000000_0, Status : FAILEDError: java.lang.NullPointerException at java.io.DataOutputStream.writeUTF(DataOutputStream.java...

2019-07-17 20:51:16 605

转载超详细的APP数据指标体系分析

在移动互联网公司，任何一个APP都应该事先规划好数据体系，才允许上线运营，有了数据才可以更科学、更省力地运营。今天我们来说说如何做APP的数据分析。一、为什么要做APP数据分析1.搭建数据运营分析框架一个APP的构建与运营工作通常由多个角色分工实现，由于大家的工作重点不同，仅关注一个方面的数据就如同管中窥豹，无法全面了解产品运营情况，不能提出行之有效的分析建议。因此，只有搭建完善的数据运营分...

2019-07-16 23:20:38 32430

翻译 Flume Processors

Processor概述Processor是Flume用于实现失败恢复和负载均衡的组件。在企业级开发中，通常有多个客户端Agent来收集数据，发送给中心服务器Agent，中心服务器Agent要承载若干客户端Agent发送的数据，负载较高，且中心服务器Agent如果只有一个，会造成单节点故障风险。所以在企业级开发中，中心服务器Agent往往不止一个，由若干个协同工作，此时客户端Agent如何分...

2019-07-16 22:49:46 483

翻译 Flume Selectors

Flume Channel SelectorsIf the type is not specified, then defaults to “replicating”.如果未指定类型，则默认为“复制”。Replicating Channel Selector (default)Required properties are in bold.Property NameDefaul...

2019-07-16 22:34:46 153

空空如也

hive 嵌套查询 报错 求大佬指点

hive 嵌套查询报错求大佬指点