善若止水-CSDN博客

原创 flink的几种source来源

旧版的kafka版本(< v2.2) 用的参数依然是 zookeeper node1:2181。如果kafka的版本过低，比如 v0.8.2.1 时，flink会一致等待中，最后报错。bootstrap.servers 属于kafka版本>= v2.2时的参数。集合，文件以及自定义source 相对简单，重点演示kafka的对接。简单的总结了flink的几种source来源，可以参考下。建议kafka版本： v2.8.1。kafka作为生产者进行数据的输入。flink的数据产出。

2023-05-31 15:52:29 776

原创每半个小时间隔内用户拨打电话的次数以及时长

大家好，今天看了一个分析函数的应用场景，分享出来用户拨打电话表: 字段用户id,开始时间，结束时间。样例数据如下所示(分隔符为,)：aaa,2018-01-01 08:01:00,2018-01-01 08:08:00aaa,2018-01-01 08:15:00,2018-01-01 08:20:00aaa,2018-01-01 08:45:00,2018-01-01 08:48:00期望输出，用户id，每个时间段的最早开始时间, 该时间段内拨打电话的次数，时长(分钟)aaa 2

2021-03-30 10:44:53 582

原创 hive的多粒度计算优化列转行的函数lateral view

今天看了一个hive的减少job数的优化思路，值得借鉴测试表以及数据如下所示：create table sale_order as select '河南省' as province,'洛阳市' as city,'汝阳县' as country, 100 as salesunion all select '河南省' as province,'洛阳市' as city,'伊川县' as country, 200 as salesunion all select '河南省' as pro...

2021-03-19 18:26:28 476

原创数据仓库中的拉链表

在数据仓库的数据模型设计过程中，经常会遇到这样的需求：1.1 数据量比较大;1.2 表中的部分字段会被更新,比如订单余额;1.3 需要查看某一个时间点或者时间段的历史快照信息,比如查看某一个订单在某个时间点的订单余额1.4 变化的比例和频率不是很大,比如,总共有1000万的会员，每天新增和发生变化的有10万左右;如果表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储...

2019-06-24 19:29:34 1053

原创 oracle连接中on (1=1)

大家：好！最近看了oracle连接中的on(1=1)的问题，挺有意思的。测试表如下所示:create table t1(c1 varchar2(10));insert into t1 values('1');insert into t1 values('2');create table t2(c2 varchar2(10));insert into t2 values...

2019-05-09 16:57:40 12412

原创 oracle执行计划赏析

大家：好。实现了一个小需求，用了三种写法，执行计划如下：SQL> SELECT DAY_ID,NAME,URL,CNT 2 FROM (SELECT DAY_ID,NAME,URL,CNT,row_number() OVER(PARTITION BY DAY_ID, NAME ORDER BY CNT DESC) RANK 3 FROM (SELECT T.DAY_ID...

2019-04-04 17:57:21 288

原创如何优雅的停止掉SparkStreaming

关于如何优雅的停止SparkStreaming，网上挺多的，我测试了一种简单的方法，分享出来一个简简单单的SparkStreaming样例,从一个文件中读取数据后将结果保存到指定的目录中package SparkStreamimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, Str...

2019-03-21 17:06:20 1451

原创 kafka多消费者的kafka.common.ConsumerRebalanceFailedException异常解决办法

应用场景: kafka的多消费者消费同一个topic的数据，并且保证每条记录都能被消费掉实现方式: topic要创建多个partition(partition的个数要大于等于消费者的个数),多个消费者在同一个组之内第一步：创建topic的多partition，并进行验证,如下所示:[root@hadoop ~]# kafka-topics.sh --list --zookeeper ...

2019-03-19 18:57:43 2765 1

原创 Akka的三种应用场景

什么是AKKA？Akka是一个开发库和运行环境，可以用于构建高并发、分布式、可容错、事件驱动的基于JVM的应用。使构建高并发的分布式应用更加容易。Akka是把Actor Model模型进行了封装。可以理解为,异步,非阻塞的一个消息传递第一种: 给AKKA发送一个字符串或者单个的数值package day03import scala.actors.Actor/** ...

2018-08-31 10:38:02 24883 1

原创 scala中产生单例对象

大家：好！看了点scala产生单例的代码，分享出来，仅供参考。package day02import scala.collection.mutable.ArrayBuffer/** * 功能: 演示scala中的单例对象 */object SingletonDemo { def main(args: Array[String]) { //单例对象，不需要...

2018-08-29 16:03:05 1642 1

原创 Hive对接Hbase

大家:好！因项目实际需要，要求将hive中的数据对接入hbase中。在网上看的一篇博文的基础上，加上自己的理解以及相关的操作步骤，以及常见的几个错误，整理了此篇博客，希望对大家有所帮助。Bulk Load－HBase数据导入最佳实践一、概述HBase本身提供了非常多种数据导入的方式，通常有两种经常使用方式：1、使用HBase提供的TableOutputFormat，原理是通过一个M...

2018-08-20 10:44:40 710

原创 SparkStream的两种经典使用方式:

大家：好！SparkStream的两种经典使用方式，仅仅涉及到SparkStream，没有涉及到各种对接，数据来源是tcp的端口号第一种: 按照间隔对数据进行计算，对历史数据不做处理package SparkStreamimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.stre...

2018-08-14 15:49:24 4292

原创 sparksql结合hive

第一步：在spark的conf目录下创建hive的配置文件的信息/usr/local/spark/conf 创建文件hive-site.xml里面的内容是：<configuration><property><name>hive.metastore.uris</name><value>thrift://192.168.1...

2018-08-14 10:08:48 402

原创执行hsql报文件缺失错误

大家好：今天在执行hsql的时候，发现文件缺失的错误。以下为测试过程以及解决办法，希望对大家有用。 ----创建测试表create table employ_test(employ_id BIGINT comment '员工编码',salary DECIMAL(20,2) COMMENT '员工薪水')comment '员工信息测试表,测试删除分区文件' PAR...

2017-11-27 11:15:40 974

原创 hive中的分析函数以及时间戳的使用

样例数据如下所示：仅仅展示字段createTime和memberIdcreateTime memberId2017/11/13 2017-11-13 12:00:01 8a9e7bf05d7ec61b015d89e060901ef82017/11/13 2017-11-13 12:01:01 8a9f156c5d409b7d015d4566b0f0...

2017-11-16 13:40:53 4315

原创 hive中的分析函数的典型应用

大家：好！今天看到了一个hive的分析函数的题，感觉很有意思。把答案整理了整理，分享出来，希望对大家有用。需求如下所示：起初我看到这道题时，感觉应该要用到分析函数，但就不知道怎么用。好在最终，写出来了，思路如下所示：----测试表的表结构以及数据如下所示：hive> desc sales;OKid int ...

2017-11-13 19:20:08 664 1

原创 SPARK中实现用户自定义排序

大家：好！在spark中对数据进行排序，是在实际工作中是经常用到的,本文是通过样例类的形式在实现用户自定义排序。准备样例数据，这是第一步，我习惯将数据放在一个文件中。测试文件目录为,C:\test\sort.txt, 样例数据以下所示:apple 5 5288sansung 5 5888huawei 1 3788mi 4 3799sony 3 3799lg 4 249...

2017-10-31 23:05:14 773

原创 SPARK中实现自定义分区

大家好：在spark的开发中，有时需要将数据按照某个字段进行分开存储，这就需要用到spark的自定义分区的功能。先说测试数据，放在文件"C:\test\url1.log"中,数据如下所示：20170721101954 http://sport.sina.cn/sport/race/nba.shtml20170721101954 http://sport.sina.cn/sport...

2017-10-31 22:59:01 2660

原创 JAVA中连接HBASE的常用API

大家：好！ java中连接hbase的常用apipackage cn.bsr_hbase;import java.nio.ByteBuffer;import java.util.ArrayList;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import...

2017-10-31 22:51:44 388

原创 spark中调用逻辑回归

大家：好！spark中调用逻辑回归，涉及到机器学习和算法，不太好理解。package Trafficimport java.io.PrintWriterimport org.apache.spark.mllib.classification.LogisticRegressionWithSGDimport org.apache.spark.mllib.linalg.Spars...

2017-10-29 15:03:05 750

原创 flume同kafka的对接

大家：好！ flume同kafka的对接，请参考本质上是将flume作为kafka的生产者来说的，监控一个目录，kafka消费者显示第一步：编辑flume_kafka的配置文件，是在flume的conf 目录下flume-kafka.sh（脚本在后面）说明：此步前提是要先在kafka中创建一个名为kafkatest的topic，第二步：启动flume脚本 bin...

2017-10-28 22:43:27 2949

原创 Flume和SparkStream结合的两种方式--push

大家：好！Flume和SparkStream结合的两种方式--push简单的介绍下: 就是flume把数据推送到SparkStream中。----sparkstreaming的代码如下所示：package SparkStreamimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.sp...

2017-10-28 22:37:22 1247

原创 Flume和SparkStream结合的两种方式--pull

大家好： flume对接SparkStream的pull的方式，简单的介绍下: 是SparkStream从flume中拉的方式获取数据----flume的配置文件 flume-poll.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# source...

2017-10-28 22:31:29 1269

原创 kafka同SparkStreaming的对接

大家：好！ kafka同SparkStreaming的对接，以下是我自己的总结，仅供参数。scala代码如下:package SparkStreamimport org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.sp...

2017-10-28 22:25:19 371

原创 Sparksql连接mysql数据库

大家：好！Sparksql连接mysql数据库的scala代码，研究了一段时间，踩了一个坑，分享出来package SparkSqlimport java.util.Propertiesimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org...

2017-10-28 22:13:37 1038

原创从kafka中获取数据写入到redis中

大家：好！从kafka中获取数据写入到redis中，需要用到spark中的redis客户端配置，请参考前面的博客(https://blog.csdn.net/zhaoxiangchong/article/details/78379883)。第一步要先将数据打入到kafka中，请参照我以前的博客 https://blog.csdn.net/zhaoxiangchong/article...

2017-10-28 22:09:52 9523

原创 sparkStream中作为kafka的生产者

大家好： sparkStream中作为kafka的生产者,将某个文件中的数据打到kafka中。package Trafficimport java.util.Propertiesimport kafka.producer.{KeyedMessage, Producer, ProducerConfig}import org.apache.spark.{SparkConf, Spa...

2017-10-28 22:05:28 2201 1

原创 spark中配置RedisClient的模板代码

大家好： spark中配置redis客户端的模板代码，请参考import org.apache.commons.pool2.impl.GenericObjectPoolConfigimport redis.clients.jedis.JedisPoolobject RedisClient extends Serializable { val redisHost = "192.1...

2017-10-28 22:01:55 862

原创 oracle的企业管理器无法登陆

大家好：最近三天我一直在研究oracle的企业管理器无法登陆的问题，终于把问题解决了。我把我解决的思路分享出来，仅仅为了使别人少走弯路。问题描述： 1 在地址栏中输入https://localhost:1158/em/后，一直没有反应2 在控制台中：C:\> emctl status dbconsole Environment variable ORACLE_UN

2013-07-09 22:51:14 1785

转载博弈

有16个硬币，A，B两个人轮流抓，每次只能选择拿1个，2个或者4个。规定最后一次抓到硬币的人输。请问A如何抓才能保证自己绝对赢？假设这两个人足够聪明。解法：1.想象只剩下一枚硬币的时，拿的人必定输。(必败点L)2.想象剩下2/3/5枚时，都能使下一个状态变为只剩1枚硬币。(这三个状态均为必胜点W)3.再想象下只剩4枚硬币的情形：这时要取的人可以取1/2/3枚

2013-02-28 12:55:41 447

原创 ora-06502 pl/sql 数字或值错误

ORA-06502: PL/SQL: 数字或值错误大家好：今天我设计了一个存储过程，用了动态语句。发现了上面的错误，并找到了相应的解决方法。发表出来，希望别人少走弯路。我用的是直接执行语句的形式，关键代码如下所示：说明一点：VI_DATE是过程的输入参数 EXECUTEIMMEDIATE'INSERT /*+append*/ INTO KR_114_ORD

2012-12-18 10:25:29 2625

原创 0ra-12170 tns 连接超时

大家好：前几天在机房连接数据库服务器时，报了”0ra-12170 tns连接超时”。这个错误费了我两天的时间才把问题解决掉，现在总结下，希望大家少走些弯路从错误的信息上看，是肯定是本地的客户端和服务器没有连接好，两个机器的oracle直接不能通信。这个问题就多了，现总结一下：一tns的配置文件不对这个问题是最基本的，这是连接的基础。这个我建议直接从服务器上拷

2012-12-14 21:59:38 13768

原创如何将excel文件导入数据库

如何将excel的文件导入到oracle数据库中，我介绍两种方法：一你可以用select * from 表名 for update 然后把锁解开，直接的复制excel中的数据后粘贴.复制的时候要注意下，前面要预留一个空列，否则会串列。二转换为txt用sqlload进行入库，方法1 把excel另存为txt格式，选择unicode文本（*.txt）的格式，取名为11.txt

2012-12-10 21:50:48 722