wyc_595998412-CSDN博客

原创 windows上的文件共享给linux使用

生活源于一点一滴的积累，在此对自己在关于linux下挂载文件中的问题作出一个总结，希望能在警醒自己的同时帮到更多的人。首先在linux系统中使用 df -h 查看当前的挂载情况，下面我贴出自己的挂载情况：之后是一些mount相关的命令：下面以windows10+centos7.0为例选择启用网络发现以及启用文件和打印机共享，然后点击保存更改。接着...

2019-05-10 14:30:39 4317

原创 linux由于环境配错导致无法使用vim等常用命令的办法

直接在根目录下输入：export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin之后既可以vim等命令

2019-04-15 16:57:26 383 1

原创 Linux常用命令（面试必备）

系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpuinfo 显示C...

2019-04-15 09:50:39 654

原创 windows10+tomcat8+oracle11g 部署润乾 v2018 完整过程

部署环境：win10+tomcat8+jdk1.8+oracle11g(当然jdk版本不是必须这么高，1.6以上就行)1、将自己报表 H:\润乾报表2018\report\web路径下的demo复制到tomcat目录H:\Tomcat\apache-tomcat-8.5.34-windows-x64\apache-tomcat-8.5.34\webapps下(此处我并重命名为vdemo2018...

2019-04-12 17:34:29 1034

原创 Oracle安装指南，小白必备

作为一个oracle小白级的人，一个oracle安装也是浪费了我很多的时间，这个笔记在帮助自己记住这次叫教训的同时也希望能帮到更多的人，首先如果你电脑是首次安装的话应该过程比较简单1、到官网https://www.oracle.com/technetwork/database/enterprise-edition/downloads/112010-win32soft-098987.html下载，...

2019-04-12 09:59:11 300

翻译数仓基础

ods dw dm 的区别ODS应用场景 A. 在业务系统和数据仓库之间形成一个隔离层，ODS直接存放从各个业务系统抽取过来的数据，这些数据从结构和数据逻辑关系上和业务系统保持一致，降低了数据抽取的复杂性。它的存在可以避免数据仓库直接调用业务系统的数据。 B. 转移一部分业务系统细节查询的功能。因ODS存放的数据与业务系统相同，原来由业务系统产生的报表，现在可以从ODS中产生了。 C....

2018-12-06 20:58:24 659

转载 hive的UDF、UDAF、UDTF的区别与简单用法

UDF步骤：1.必须继承org.apache.hadoop.hive.ql.exec.UDF2.必须实现evaluate函数，evaluate函数支持重载　　<span style="font-size: x-small;">package com.alibaba.hive.udf; import org.apache.hadoop.hive.ql.e...

2018-11-28 13:13:44 1433

转载 hive的相关函数

一、内置函数1、数学函数（1）round：四舍五入 select round(数值,小数点位数);（2）ceil：向上取整 select ceil(45.6); --46（3）floor：向下取整 select floor(45.6); --452、字符函数（1）lower：转成小写 select lower('Hive'); ...

2018-11-26 15:31:17 366

转载 hive之开窗函数常用函数

背景：平常我们使用 hive或者 mysql时，一般聚合函数用的比较多。但对于某些偏分析的需求，group by可能很费力，子查询很多，这个时候就需要使用窗口分析函数了~注：hive、oracle提供开窗函数，mysql不提供版本：Hive 1.1.0 + cdh5.13.0一、介绍分析函数用于计算基于组的某种聚合值，它和聚合函数的不同之处是：对于每个组返回多行，而聚合函数对于每个组只...

2018-11-20 20:55:59 531

原创 hive之经典sql面试题

Hive sql面试select store,count(distinct uid) as uv from Visit group by store;select * from Users order by age desc, total;考点：列转行selectstage_someone, count(distinct UID)...

2018-11-20 20:53:52 30535 5

转载 java之快速排序

快速排序，顾名思义，是一种速度快，效率高的排序算法。快排原理：在要排的数（比如数组A）中选择一个中心值key（比如A[0]），通过一趟排序将数组A分成两部分，其中以key为中心，key右边都比key大，key左边的都key小，然后对这两部分分别重复这个过程，直到整个有序。整个快排的过程就简化为了一趟排序的过程，然后递归调用就行了。一趟排序的方...

2018-10-17 11:10:35 111

转载 java 线程池重要参数

一、ThreadPoolExecutor的重要参数 1、corePoolSize：核心线程数 * 核心线程会一直存活，及时没有任务需要执行 * 当线程数小于核心线程数时，即使有线程空闲，线程池也会优先创建新线程处理 * 设置allowCoreThreadTimeout=true（默认false）时，核心线程会超时关闭 2、que...

2018-10-12 12:49:43 3100 1

转载 flume之source自定义offset(保证flume数据不丢失和一致性)

引入的maven依赖 <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.8.0</version> &l

2018-10-10 14:09:08 2922

原创 hive--白话开窗函数

在开窗函数出现之前，存在着很多用 SQL 语句很难解决的问题，很多都要通过复杂的相关子查询或者存储过程来完成。为了解决这些问题，在2003年ISO SQL标准加入了开窗函数，开窗函数的使用使得这些经典的难题可以被轻松的解决。下面通过一些简单的需求示例介绍主要的开窗函数。本例的数据源：select * from wx_tmp1;需求1：要在源表中，增加两列，全国总的gmv和各城市...

2018-10-04 17:58:01 407

原创 java--之二叉树的实现

树和二叉树的区别：树中节点的子节点个数没有限制，而二叉树的节点最多为两个树中的节点无左右之分，而二叉树有左右之分完全二叉树：若设二叉树的高度为h，除第h层外，其他各层（1~h-1）的节点数都达到最大个数，第h层有叶子节点，并且叶子节点都是从左到右一次排布满二叉树：除了叶子节点外每一个节点都要左右子节点，并且叶子节点都处在最底层的二叉树二叉树的遍历先序遍历(根节点-左孩子...

2018-10-01 15:33:34 165

原创详解RDD、DataFrame、DataSet的关系

在spark中，RDD、DataFrame、Dataset是最常用的数据类型，本博文给出笔者在使用的过程中体会到的区别和各自的优势共性：1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，...

2018-09-29 10:46:44 313

原创 Flume + Kafka +HDFS构建日子系统实例

Flume + kafka + HDFS构建日志采集系统 Flume是一个非常优秀日志采集组件，类似于logstash，我们通常将Flume作为agent部署在application server上，用于收集本地的日志文件，并将日志转存到HDFS、kafka等数据平台中；关于Flume的原理和特性，我们稍后详解，本文只简述如何构建使用Flume + kafka + HDFS构建一套...

2018-09-16 18:04:16 530

原创单利模式之最佳方案

可以说单例模式是所有设计模式中最简单的一种。单例模式就是说系统中对于某类的只能有一个对象，不可能出来第二个。单例模式也是23中设计模式中在面试时少数几个会要求写代码的模式之一。主要考察的是多线程下面单例模式的线程安全性问题。1.多线程安全单例模式实例一(不使用同步锁)1 public class Singleton {2 private static Singlet...

2018-09-16 11:37:24 166

转载 SQL之join详解

inner join(等值连接) 只返回两个表中联结字段相等的行left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 INNER JOIN 语法： INNER JOIN 连接两个数据表的用法：SELECT * FROM 表1 INNER JOIN 表2 ON...

2018-09-14 21:22:18 611

转载消息队列

作为中间件，消息队列是分布式应用间交换信息的重要组件。消息队列可驻留在内存或磁盘上, 队列可以存储消息直到它们被应用程序读走。通过消息队列，应用程序可以在不知道彼此位置的情况下独立处理消息，或者在处理消息前不需要等待接收此消息。所以消息队列可以解决应用解耦、异步消息、流量削锋等问题，是实现高性能、高可用、可伸缩和最终一致性架构中不可以或缺的一环。下面对消息队列就直接使用MQ表示。现在比较常...

2018-09-10 17:23:51 301

原创 Kafka(内部详解)如何保证数据的一致性

数据一致性保证一致性定义：若某条消息对client可见，那么即使Leader挂了，在新Leader上数据依然可以被读到HW-HighWaterMark: client可以从Leader读到的最大msg offset，即对外可见的最大offset， HW=max(replica.offset)对于Leader新收到的msg，client不能立刻消费，Leader会等待该消息被所有ISR中的re...

2018-09-07 19:42:48 17271

转载 GC--原理和常见回收算法

一. 原理GC是垃圾收集的意思（Garbage Collection）,内存处理是编程人员容易出现问题的地方，忘记或者错误的内存回收会导致程序或系统的不稳定甚至崩溃，Java提供的GC功能可以自动监测对象是否超过作用域从而达到自动回收内存的目的，Java语言没有提供释放已分配内存的显示操作方法。简而言之，GC是将java的无用的堆对象进行清理，释放内存，以免发生内存泄露二 . ...

2018-09-03 20:06:01 183

原创 spark任务生成和提交流程详解

首先将代码打包上传到集群1、Driver端会调用SparkSubmit类(内部执行submit->doRunMain->通过反射获取应用程序的主类对象->执行主类的main方法)2、构建sparkConf和sparkContext对象，在sparkContext入口做了三件事，创建了sparkEnv对象（创建了ActorSystem对象）TaskScheduler（用来生...

2018-09-02 18:11:48 1488

转载 Hadoop、Spark五种大数据框架解析

Hadoop、Spark等5种大数据框架对比，你的项目该用哪种？　　本文将介绍并对比5种主流大数据框架，助你更深层次了解这些框架，从而在项目中更好地使用它们。　　本文首发于InfoQ垂直号「大数据杂谈」，转载已获授权。简介　　大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的...

2018-09-02 12:05:33 2130

原创 flume基础

1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出，特别是flume-ng;同时flume内部的各种组件不断丰富，用户在开发的过程中使用的便利性得到很大的改善，现已成为apache top项目之一. 2 .概述 1. ...

2018-08-31 16:57:41 245

原创 Sqoop

Apache Sqoop是用来实现结构型数据（如关系数据库）和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输，同时也借助MapReduce实现了容错。项目地址： http://sqoop.apache.org/目前为止，已经演化出了2个版本：sqoop1和sqoop2。sqoop1的最新版本是1.4.5，sqoop2的最新版本是...

2018-08-31 16:48:58 990

原创 hive基础知识总结

分桶1.1什么是hash值将分桶之前，先讲一下什么是hash值（哈希值）？（比如一个数或一个字符串的hash值，如5这个数的hash值。）在这里，“5的hash值”这句话要中隐含着三个关键点：hash函数被hash函数处理的元素 hash函数处理后的结果值例子：5 %4 = 1 其中“%4”就是一个hash函数当然hash函数有各式各样的如 ...

2018-08-31 16:32:37 1857

原创 Hadoop-Yarn资源调度流程

步骤1　用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。步骤2　ResourceManager为该应用程序分配第一个Container，并与对应的Node-Manager通信，要求它在这个Container中启动应用程序的ApplicationMaster。步骤3　ApplicationMaster首先...

2018-08-30 08:58:39 989

转载 kafka-最新实战

Kafka 由于高吞吐量、可持久化、分布式、支持流数据处理等特性而被广泛应用。但当前关于Kafka原理及应用的相关资料较少，在我打算编写本文时，还没有见到中文版本的Kafka相关书籍，对于初学者甚至是一些中高级应用者来说学习成本还是比较高的，因此我打算在对Kafka进行深入而系统的研究基础上，结合自己在工作中的实践经验，编写一本介绍Kafka原理及其基本应用的书籍，以帮助Kafka初、中、高级应用...

2018-08-29 17:05:25 245

翻译 Spark-MLlib之分类和回归算法

分类逻辑回归逻辑回归是预测分类响应的常用方法。广义线性模型的一个特例是预测结果的概率。在spark.ml逻辑回归中，可以使用二项Logistic回归来预测二元结果，或者可以使用多项Logistic回归来预测多类结果。使用该family 参数在这两种算法之间进行选择，或者保持不设置，Spark将推断出正确的变量。通过将family参数设置为“多项式”，可以将多项逻辑回归用于二进制分类。...

2018-08-29 12:01:46 2596

翻译 spark-参数配置总结

Spark属性控制大多数应用程序设置，并为每个应用程序单独配置。这些属性可以直接在传递给你的SparkConf上设置 SparkContext。SparkConf允许您通过该set()方法配置一些常见属性（例如主URL和应用程序名称）以及任意键值对。例如，我们可以使用两个线程初始化应用程序，如下所示：请注意，我们使用local [2]运行，这意味着两个线程 - 代表“最小”并行性，这可以帮...

2018-08-29 11:19:37 4911

转载 Apache Spark---学习总结一

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）...

2018-08-28 08:49:50 709

原创线程锁

一、多线程-同步函数的锁是this/*同步函数用的是哪一个锁呢？函数需要被对象调用。那么函数都有一个所属对象引用。就是this。所以同步函数使用的锁是this。通过该程序进行验证。使用两个线程来买票。一个线程在同步代码块中。这两个的锁不一样一个线程在同步函数中。都在执行买票动作。*/class Ticket implements Runnable{ priv...

2018-08-27 21:27:29 3398

转载 HashMap

HashMap概述HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作，并允许使用null值和null键。此类不保证映射的顺序，特别是它不保证该顺序恒久不变。HashMap的数据结构在Java编程语言中，最基本的结构就是两种，一个是数组，另外一个是模拟指针（引用），所有的数据结构都可以用这两个基本结构来构造的，HashMap也不例外。HashMap实际上是一...

2018-08-27 16:48:03 133

转载 jvm gc过程的算法

1、GC 垃圾收集 Garbage Collection 通常被称为“GC”，它诞生于1960年 MIT 的 Lisp 语言，经过半个多世纪，目前已经十分成熟了。 jvm 中，程序计数器、虚拟机栈、本地方法栈都是随线程而生随线程而灭，栈帧随着方法的进入和退出做入栈和出栈操作，实现了自动的内存清理，因此，我们的内存垃圾回收主要集中于 java 堆和方法区中，在程序运行期间，这部...

2018-08-27 14:39:42 226

原创基础算法

分治算法一、基本概念在计算机科学中，分治法是一种很重要的算法。字面上的解释是“分而治之”，就是把一个复杂的问题分成两个或更多的相同或相似的子问题，再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解，原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础，如排序算法(快速排序，归并排序)，傅立叶变换(快速傅立叶变换)…… 任何一个可以用计算机求解的问题所需的计...

2018-08-26 16:29:30 255

翻译数据倾斜

数据倾斜解决方案有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜是多么痛苦？！！！如果数据倾斜没有解决，完全没,有可能进行性能调优，其他所有的调优手段都是一个笑话。数据倾斜是最能体现一个spark大数据工程师水平的性能调优问题。...

2018-08-26 16:27:03 202 1

转载 sparkRDD总结及小案例代码编写

RDD及其特点1、RDD是Spark的核心数据模型，但是个抽象类，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，...

2018-08-26 16:05:23 2096

原创 kafka(常见问题)

kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列，只要一有producer生产数据，那consumer就会将数据消费。当然这里会产生一个很严重的问题，如果你重启一消费者程序，那你连一条数据都抓不到，但是log文件中明明可以看到所有数据都好好的存在。换句话说，一旦你消费过这些数据，那你就无法再次用同一个groupid消费同一组数据了。原因：消费...

2018-08-26 15:38:40 483

原创 OOM(内存溢出)

Out of MemorySpark中的OOM问题不外乎以下两种情况map执行中内存溢出 shuffle后内存溢出map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffle后内存溢出的shuffle操作包括join，reduceByKey，repartition等操作。 Spark的内存模型：任何Spa...

2018-08-26 15:36:24 821

log4j一个类文件

空空如也