freshghost1234-CSDN博客

原创 spring_swagger:static docs（离线文档）

背景对于rest-ful API文档设计，一般都是springfox（底层是swagger）进行代码集成并且自动生成，文档分为在线和离线文档，在线文档一般是html的格式，并且能够进行mock，方便测试人员不用写test-case进行测试。springfox reference 提示已经不支持离线文档的自动生成，推荐使用使用swagger2markup+assicdoctor.以下介绍怎样...

2018-06-28 14:35:56 1511

原创 spark-基于kafka_struct_streaming的ETL案例

背景：基于流的结构化处理，越来越成为ETL的重要处理手段，使用SQL处理流数据优点可以降低数据处理的编程难度，而且能够工程化的动态配置处理格式。基于struct_streaming处理pv的简单案例数据源：kafka的topic input_std1_npanther中输入格式：json{ "event_siteid":"kf_3004", "event_...

2018-06-08 15:31:14 1755 2

原创 docker-修改container的port

最近启动容器的时候，忘记启用port接口。然后想在这个容器上直接修改映射端口。发现没有途径。然后参考了以下stackoverflow 成功修改。

2018-05-25 17:17:20 3094

原创 docker-mac安装docker

在mac上安装有以下两种方式： 1. docker官网提供的docker for mac的dmg,按照步骤流程一步一步的进行。 2. 通过brew自定义安装，不是傻瓜式的，下面详细介绍。一、安装docker 和docker-machine 如果没有安装brew,请依照brew官网进行自行安装。brew install dockerbrew install docker-ma...

2018-05-17 15:21:19 1185

原创 markdown-语法

jump跳转到的地方在需要点击跳转的位置，使用上面的id，格式类似超链接的形式：点击跳转

2018-05-02 14:52:34 134

转载 git-怎样写好一个REAME.md

how to correctly write readme

2018-05-02 14:43:29 898

原创 spark-基准测试

背景因成本影响，公司想从高价格的阿里云转到价格较低的金山云上，让我们做一下对金山云上自带的spark_on_yarn 进行压力测试。经过多方讨论，最终选择sparkbench+ambari的方案。方案将采用梯度测试法，对集群的磁盘I/0,网络I/O,内存使用率，cpu使用率四个纬度测试。 1.10亿条24个属性kmeans的向量数据创建、数据分析。 2.24亿条24个属性kme...

2018-04-27 18:48:15 2057

原创数据仓库-模型

星形模型和雪花模型模型分为星形模型和雪花模型，模型内部包含事实表和纬度表事实表：表示一个事实，例如按照州、产品和月份划分的销售量和销售额存储的事实表。一个事实表是由键值例和度量值组成，键值例对应着纬度表的主键。 product state date doller number Mountain-100 WA January 7....

2018-04-25 18:30:58 363

原创 scala-闭包

闭包： def test1(x:Integer)=(y:Integer)=>{x+y} (x: Integer)Integer => Int test1(1) res1:Integer => Int = $$Lambda$1158/2016512706@77ce88c4等价于def test(x:Integer)(y:Integer):Integer={ ...

2018-03-19 13:37:48 269

原创 java-mac下多jdk版本切换

为了使用jshell工具，便在oracle官网下载了jdk9,但是 scala-2.12.4,还不支持jdk9,所以运行时候会报错。为了解决这个问题，想使用多版本切换。知识点：mac的os系统是unix的变种，所以一些基础命令和linux是相同了，而使用jdk，只是java_home的环境变量不同而已，当然你也可以不设置环境变量，那么你使用jdk时候，就需要使用绝对路径。你临时设置可以使...

2018-03-18 17:50:50 668 1

原创 spark- rdd、dataset和dataframe的互操作（Interoperating）

最近写spark代码的时候总是把rdd转dataset或者dataframe,再此将转换的途径总结一下rdd转dataset第一种，使用隐式函数toDFimport spark.implicits._ //spark是你实例化的sparksession,rdd1.toDF()/或者 toDF("a","b","c") //a b c分别表示列名note: 如果...

2018-03-01 17:35:38 566

原创 git- config name /mail

修改本项目的用户名字和邮箱$ git config user.name '{user.name}'$ git config user.mail '{user.mail}'修改全局用户名字和邮箱$ git config --global user.name '{user.name}'git config --global user.mail '{user.mail}' 修改已...

2018-02-11 11:54:16 500

原创 spark-sql 方差和标准差

运行环境spark-shellval p=spark.read.json("file:///root/spark-2.1.1-bin-hadoop2.7/examples/src/main/resources/people.json")p.show方差和标准差 1. 求age平均值import spark.sqlval avgvule= sql("select avg(...

2018-02-10 17:19:56 7835

原创 docker-pub 国内镜像仓库

进行从store.docker.com拉取大的镜像特别慢，而且还时常断掉。所以准备还是用国内的仓库。国内的仓库如下：Docker 官方中国区https://registry.docker-cn.com网易http://hub-mirror.c.163.comustchttps://docker.mirrors.ustc.edu.cn经测试网易是最快。下面是配置dock

2018-01-30 09:51:40 5064

原创 docker-docs

获取虚拟机使用openstack-web操作界面，创建虚拟机。version: ubuntu 16.04memory:8gvcpu:4 core安装docker 详见docker安装文档安装私人仓库仓库文档公共仓库：store.docker.com docker pull registry:2docker run -d -p 5000:5000 {docker-nam

2018-01-29 16:15:35 251

原创 Spring-test-测试上传文件的restful api

被测试类： public ResponseEntity save(@RequestBody DataSink ds,@RequestParam("file") MultipartFile file){@RequestBody表示body的数据。 @RequestParam("file") 表示你上传的文件已经文件名字。测试类mvc.perform(MockMvcReq

2018-01-23 15:48:34 1775

原创 hbase-model-versions

cell定义：A {row, column, version} tuple exactly specifies a cell除了rowkey,column family,column quarifities,timestamp,还有就是versions(版本).versions概念：It’s possible to have an unbounded number of cel

2018-01-20 14:16:45 189

原创 hbase-tunning-hotspot

1. rowkey 和hotspot关系。1.1 regionRegions are the basic element of availability and distribution for tables, and are comprised of a Store per Column Family.region 是一个表的基本元素，具有可用性和分布性，是由每个列簇

2018-01-20 04:41:46 190

原创 HIVE-架构篇

hive架构的官方文档直接上架构图这张图很明显显示hive存在5个组件ui、driver、compiler、metrastore、ExecutionEngine。具体活动流程也比较清楚，一共9步。这里主要以下两点： metastore(元数据)Metastore is an object store with a database or file backed store

2018-01-12 17:56:09 248 1

原创 spring-cloud 初识

1、从官方文档了解。 spring-cloudSpring Cloud provides tools for developers to quickly build some of the common patterns in distributed systems (e.g. configuration management, service discovery, circuit brea

2018-01-10 16:31:26 192

原创 kerberos-初识

kerberos的官方文档定义：Kerberos is a network authentication protocol. It is designed to provide strong authentication for client/server applications by using secret-key cryptographyKerberos是一个网络认证协议，

2018-01-09 20:16:56 196

原创 spark-structstreaming-结果数据存入hbase

前言本节描述通过spark-structstreaming将结果结果数据存入hbase正文object testWriteResultToHbase{def main(args:Array[String]){ val kafkaservers=args(0) val topic=args(1) val zookeeperservers=args(2) v

2018-01-05 17:54:52 2775 3

原创 Spark-StructStreaming-计算结果写入到文本文件

前言主要讲述 StructStreaming将计算结构写入到文本文件正文package org.sun.IndustryBigDataAnalyticsPartformimport org.apache.spark.sql.SparkSessionimport java.io._import org.apache.spark.sql.ForeachWriterimport

2018-01-05 13:40:13 1661 1

原创 spark +hive+hbase+hadoop

前言：hive:数据仓库 hbase:分布式nosql数据库 haoop:分布式文件系统 spark:分布式内存计算系统这个四个结合(当然少不了zookeeper)简直完美。当然有完美就有不和谐，各组件缺点如下： 1. hive的底层计算是mapreduce,计算太慢 2. hbase 是一个nosql数据库，对sql用户不友好。 3. spark计算结果是内存中，最终是要落地的

2017-12-29 20:33:07 514

原创 spring-boot-data-jpa

学习途径：官方文档和API jpa(Java Persistence API):wiki解释前言：不管是JPA还是JDBC都是基于orm模型的连接数据库驱动，数据库按照特征可以分为 embedded datasource和proudction datasourceembedded:derby、h2等proudction: mysql postgresql等spring-boot-data-j

2017-12-14 19:58:42 158

原创 spark算子-aggregate

spark:aggregate /** * Aggregate the elements of each partition, and then the results for all the partitions, using * given combine functions and a neutral "zero value". This function can return a

2017-12-11 16:07:47 219

原创 yarn-日志聚合功能

在yarn集群上运行作业的时候，日志聚合是没有运行的。只有当整个作业完成的时候，才能将各个node上的日志上传到hadoop上。start aggeratekey : yarn.log-aggregation-enablevalue : truelog dirkey : yarn.nodemanager.remote-app-log-dirvalue : /var/hadoop/yarnkey

2017-11-28 17:05:48 2470

原创 yarn集群上完整spark作业生命周期管理

前言： spark的提交作业的原生态方式，使用spark-submit.sh脚本。使用此脚本有两个缺点： 1. spark支持提交到standalone、mesos、yarn上面。standalone和mesos是粗力度的资源调度器，yarn是细粒度。所以org.apache.spark.deploy.sparksubmit类只支持standalone和mesos的作业提交、停止、查询，并且提供

2017-11-22 20:23:12 375

原创区块链初识

blockchain:A blockchain – originally block chain – is a continuously growing list of records, called blocks, which are linked and secured using cryptography. 维基百科的定义：区块链是一个持续正常的一系列记录（称为区块），这些区块是被使用cr

2017-11-17 21:45:56 325

前言scala中类中函数（与java类中的方法意义一样）是最高公民，可以和变量一样作为参数进行传递，传递的是函数的解析地址，java的方法是绑定在类中，编译时候，给方法赋予解析地址，这是不公开，但是scala却用trigger，相当于公开的解析地址。场景当函数被当作参数进行传递的时候的，同一个类中，使用这个声明好的函数是相当方便的，但是，我现在想使用其它类中的已经声明好的函数作为参数时候，怎么办呢？

2017-10-31 11:47:27 285

原创 jdb

你可以直接看jdk中jdb 的docs,或者官网上查看docsman jdb重要的关键知识可以从上面获取，这里只说一点。调试分本地调试和远程调试，其实不应该按照调试位置分，应该按照调试方式来分位直接调试和间接调试。 1. 直接调试：在同一个JVM中调试，直接使用jdb .class。 2. 间接调试：利用jvm，socket协议调试另一个jvm的程序。服务端： java -Xdebug -

2017-09-12 10:38:26 213

原创 HIVE-概述

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage.

2017-09-08 17:58:46 248

原创 spark-schedule

作业的调度是spark一个关键组件。目的是保证作业能够准确的下发到各个数据node。 package.scala Spark’s scheduling components. This includes the org.apache.spark.scheduler.DAGScheduler and lower level org.apache.spark.scheduler.Task

2017-08-21 12:45:56 317

原创概率论和数理统计

随机变量 X vs 随机事件 e->x e的概率分布函数：P(x)/F(x)(P(x)为离散，F(x)为连续)期望，其实就是均值算法平均：表示

2017-08-10 21:05:03 298

原创 thread

java 按照顺序执行，不管开始到结束的路径有多少条。就像小王从A点到B点。如果我想让想小王去蛋糕店买一个蛋糕，那么小王会很顺利的完成，但是，我想让小王买蛋糕的时候，如果有卖西瓜的就买一个。小王就进了蛋糕店，这时候，一个卖西瓜的小贩刚好经过，小王就没有买的西瓜。说明如果完成一个任务的时候，需要多人协助完成，这就是线程的用处。一、thread（一）生命周期创建new状态 runableblo

2017-08-09 14:30:27 303

原创 maven debug

javamvn exec:exec -Dexec.executable="java" -Dexec.args="-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address=1044 test.JVMHook" http://www.mojohaus.org/exec-maven-plugin/usage.html

2017-08-07 09:40:15 410

原创 hook

javajava api1. public static Runtime getRuntime()Returns the runtime object associated with the current Java application. Most of the methods of class Runtime are instance methods and must be invoke

2017-08-03 10:41:54 278

原创 hive-error

hive metastores 连接mysql 权限问题org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version解决方案：在安装mysql的client运行如下： mysql -u root -p mysql> GRANT ALL ON *.* to 'hive'@'192.168.209

2017-08-02 12:25:16 363

原创高等数学

一集合集合定义：建立在西方形式逻辑的基础上，形式逻辑的是一种思维的方式。具有某种特定性质的事物的总体。注：现实生活中，任何事物都可以“聚”合在一起，在逻辑上形成集合，可以有特质，也可以没有特质。谈到集合，想到计算机的数据结构集合collection（详见scala和java的collection），数学中的的集合更抽象。表示符号：A={a1,a2,a3,*,an} ，这是结构表示发

2017-03-29 16:46:43 1328

《概率论与数理统计》浙大版（第四版）

《概率统计》是高等院校理工类、经管类的重要课程之一。在考研数学中的比重大约占22%左右。主要内容包括：概率论的基本概念、随机变量及其概率分布、数字特征、大数定律与中心极限定理、统计量及其概率分布、参数估计和假设检验、回归分析、方差分析、马尔科夫链等内容，是机器学习的数学基础

2017-06-13

数据挖掘：概念与技术（第2章）.pdf

本书全面地讲述数据挖掘领域的重要知识和技术创新。在第1版内容相当全面的基础上，第2版展示了该领域的最新研究成果，例如挖掘流、时序和序列数据以及挖掘时间空间、多媒体、文本和Web数据。本书可作为数据挖掘和知识发现领域的教师、研究人员和开发人员的一本必读书。本书第1版曾是受读者欢迎的数据挖掘专著，是一本可读性极佳的教材。第2版充实了数据挖掘领域研究新进展的题材，增加了讲述最新的数据挖掘方法的若干章节。本书适合作为高等院校计算机及相关专业高年级本科生的选修课教材，特别适合作为研究生的专业课教材。

2016-10-10