疯狂学习的白菜-CSDN博客

原创算法刷刷刷--01选择排序、冒泡排序、插入排序

【代码】算法刷刷刷--01选择排序、冒泡排序、插入排序。

2023-04-16 16:01:23 99

原创 Java复习（全）

package com.test.java;import org.apache.commons.io.FileUtils;import org.junit.Test;import java.io.*;import java.lang.reflect.Constructor;import java.lang.reflect.Field;import java.lang.reflec...

2020-02-18 15:31:35 347

原创 Spark复习 Day04：SparkStreaming

Spark复习 Day04：SparkStreaming1. SparkStreaming版的WordCount--------------------------------- @Test def TestStreaming(): Unit ={ val conf = new SparkConf().setAppName("sc").setMaste...

2020-02-11 00:00:32 274

原创 Spark复习 Day03：SparkSQL

Spark复习 Day03：SparkSQL1. 什么是SparkSQL----------------------------------------------- - SparkSQL是Spark用来处理结构化[表]数据的一个模块。 - 它提供了两个编程抽象：DataFrame和DataSet，底层还是RDD操作2. DataFrame、DataSet 介绍--...

2020-02-10 19:29:52 242

原创 Spark复习 Day02：SparkCore(二)

Spark复习 Day02: SparkCore1. RDD的依赖关系----------------------------------------------- - 每个RDD都会将一系列的血统关系保存下来，以便恢复失去的分区 - RDD的血统会记录RDD的元数据信息和转换行为 - 当RDD部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区...

2020-02-09 21:02:45 279

原创 Spark复习 Day01：SparkCore(一)

Spark复习 Day011. Driver 驱动器--------------------------------------------------- - 执行开发程序的Main方法的进程 - 创建SparkContext、RDD、转换和行动 - 主要职责： 1. 将用户代码转化成job 2. 跟踪Executor的运行状况 ...

2020-02-08 21:02:53 310

原创 Python_ML-Day06: 神经网络

Python_ML-Day06: 神经网络1.感知机 - 有n个输入数据，通过权重与各数据之间的计算和，比较激活函数结果，得出输出 - 应用：很容易解决与、或、非问题2.神经网络 - 定义： 1. 在机器学习和认知科学领域，人工神经网络（artificial neural network，缩写ANN），简称神经网络（：neural...

2020-02-04 15:23:19 296

原创 Python_ML-Day05: TensorFlow的线程队列与IO操作、TFRecords文件的存取

Python_ML-Day5: TensorFlow的线程队列与IO操作、TFRecords文件的存取1.TensorFlow 队列 - 在训练样本的时候，希望读入的训练样本是有序的 - 考虑使用队列机制：先进先出 - tf.FIFOQueue(capacity, dtypes, name='fifo_queue') 1.先进先出队列 ...

2020-02-03 14:59:12 233

原创 Python_ML-Day04: 深度学习、Tensorflow

Python_ML-Day04: 深度学习、Tensorflow1.Tensorflow特点 - 真正的可移植性引入各种计算设备的支持包括CPU/GPU/TPU，以及能够很好地运行在移动端，如安卓设备、ios、树莓派等等 - 多语言支持 Tensorflow 有一个合理的c++使用界面，也有一个易用的python使用界面来构建和执行你的...

2020-02-01 20:26:34 247

原创 Python_ML-Day03: 线性回归、岭回归、逻辑回归、k-means

Python_ML-Day03: 线性回归、岭回归、逻辑回归、k-means1. 回归问题的判定 - 目标值是一个连续的值 - 寻找一种能预测的趋势 - 线性关系的函数： y = kx + b - b 偏置2. 线性关系模型 - 一个通过属性xn 的线性组合来进行预测的函数 - 线性回归通过一个或者多个特征值x1,x2 与目标值f(x...

2020-02-01 10:09:25 498

原创 PythonML-Day02: k-近邻、朴素贝叶斯、决策树、随机森林、交叉验证、网格搜索

ML-Day02: k-近邻、朴素贝叶斯、决策树、随机森林、交叉验证、网格搜索1.数据分类离散型数据：可以列举出连续型数据：在区间内可任意划分，不可一一列举2.机器学习算法分类监督学习（预测）：有特征值和目标值，有标准答案分类[离散]：k近邻、贝叶斯、决策树与随机森林、逻辑回归、神经网络回归[连续]：线性回归、岭回归 ...

2020-01-30 18:56:32 1302

原创 PythonML-Day01: sklearn

ML-Day011.机器学习的数据大多都是文件，比如csv文件2.Pandas：读取数据工具基本的数据处理3.缺失值：数据转换4.重复值：不需要去重5.sklearn：对于特征数据提供了强大的支持 - Python的机器学习工具 - 许多知名的机器学习算法的实现 - 文档完善，容易上手，丰富的API6.特征工程：将原始数据转换为能更好...

2020-01-28 20:05:43 313

原创 ElasticSearch从入门到放弃（五） -- Java API【基于官方文档7.5】

点击查看原文（包含源码和图片）：http://note.youdao.com/noteshare?id=c52ed63c837df7658e2939e06d69ad04&sub=58B8DFA324AF48B0ABA7F2F2C8DD4ACD1.概述本节描述了Elasticsearch提供的Java API。所有的Elasticsearch操作都是使用Client对象...

2019-12-14 12:01:10 994

原创 ElasticSearch从入门到放弃（四） -- 聚合【基于官方文档7.5】

点击查看原文（包含源码和图片）：http://note.youdao.com/noteshare?id=06d431f9eab9bec860f12b96a2590500&sub=302E360D41E04B4C99570C983B8906B0一、平均聚合1.一个单值度量聚合，计算从聚合文档中提取的数值的平均值。这些值可以从文档中的特定数字字段提取，也可以由提供的脚本生成...

2019-12-14 11:59:46 243

原创 ElasticSearch从入门到放弃（三） -- ES原理，核心，知识点【基于官方文档7.5】

点击查看原文（包含源码和图片）：http://note.youdao.com/noteshare?id=af6c2a9587ad4fa6681aaadadf4e8e85&sub=3CA9C7C728AD48EBB797AD06A8CB2EF23.1 解析es的分布式架构3.1.1 分布式架构的透明隐藏特性ElasticSearch是一个分布式系统，隐藏了复杂的处理机...

2019-12-14 11:58:20 513

原创 ElasticSearch从入门到放弃（二） -- 升级Elasticsearch【基于官方文档7.5】

点击查看原文（包含源码和图片）：http://note.youdao.com/noteshare?id=dccd8841b78dfc624bcb581c9b4881b0&sub=5A575F09B8744649B94B79A34E81E219Elasticsearch通常可以使用Rolling升级进行升级，因此升级不会中断服务。哪些版本支持滚动升级：小版本之间从5...

2019-12-14 11:57:15 444

原创 ElasticSearch从入门到放弃（一） -- 介绍，映射，字段类型，查询，聚合【基于官方文档7.5】

点击查看原文（包含源码和图片）：http://note.youdao.com/noteshare?id=d439afd2a88da302fd79634ff79c5359&sub=0302D1C67F6C40AB9105E138BA897D161.名词解释近实时（NRT）ES是一个近实时的搜索引擎（平台），代表着从添加数据到能被搜索到只有很少的延迟。（大约是1s）...

2019-12-14 11:55:30 236

原创 Zeppelin 使用心得( 基于window10 ) -- Mysql,Hive,Flink,Spark

点击查看原文（包含源码和图片）：http://note.youdao.com/noteshare?id=fdb03eb81783f7b3c77ffd78c6c95612&sub=DC8EC22B5004468D9A76E21A9C42D36E1.下载http://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.8.2/...

2019-12-05 10:49:04 683

原创 JAVA 定时调取器的使用

package com.test.ghf.qzJobimport java.text.SimpleDateFormatimport java.util.{Date, Properties}import org.quartz._import org.quartz.impl.triggers.CronTriggerImplimport org.quartz.impl.{JobDetai...

2019-12-05 10:46:38 134

原创从零开始搭建Ambari大数据平台

点击查看原文（包含源码和图片）：http://note.youdao.com/noteshare?id=8176eba783c1d52c75691af1b007deb9&sub=EF8232BA90F64B5B8A736AF237C5984C只要按照文档一步一步搭建，一定能搭建成功！一、安装Vwmare二、安装Contos7 虚拟机（一台 hdp01）...

2019-12-05 10:44:07 396

原创 Flink进阶（二）-- Time 深度解析

视频地址：https://www.bilibili.com/video/av53193640文档地址：http://note.youdao.com/noteshare?id=795ff71c7888efd22fb8026d9762915f&sub=E76047A01C154263A26A1B37D471239B一、Flink中的时间语义1.Processing...

2019-11-19 22:46:42 226

原创 Flink进阶（一）-- Flink整体架构以及 Job 的基本执行流程

视频地址：https://www.bilibili.com/video/av52394455文档地址：http://note.youdao.com/noteshare?id=40b733ab556e73d1a62f6c5787c68c08&sub=239E0053AEB9462387419D600035BEDC一、Flink 的整体架构如图 1 所示。Flink 是可以运行在...

2019-11-19 22:45:40 1052

原创 Flink系列（五）-- Hive On Flink 【基于Flink1.9】

原文地址（包含源码和图片）：http://note.youdao.com/noteshare?id=4d17b54a43a7a73161fc277c0b21a771&sub=A1159AE1FA3E4ADC9D51F73C0F645F271.【pom.xml】<?xml version="1.0" encoding="UTF-8"?> <project xm...

2019-11-18 10:52:25 2173

原创 Flink系列（四）-- Esper，Siddhi，Drools Fusion简单介绍以及应用

原文地址（包含源码和图片）：http://note.youdao.com/noteshare?id=c91f71fd16bedf7dfaac3b6fa663a243&sub=B79A8354FB1D4CB5BE44A1513C4F7A6C一、简介今天给大家分享的内容是FlinkCEP，中文意思就是复杂事件处理。那么何为CEP呢？听起来好像很复杂，实际上就是基于事件...

2019-11-18 10:48:11 5801 2

原创 Flink系列（三）-- FlinkCEP-Flink的复杂事件处理【整理自官方文档 1.9】

原文地址（包含源码和图片）：http://note.youdao.com/noteshare?id=cee13b6be36961fefa877d3607837f03&sub=5537BFB0B679455CB2B0149961115FDD一、单个匹配对于："a","a","a","c","a","a","b" 这个序列进行匹配三种模式：宽松模式，严格模式，可重复模式量...

2019-11-18 10:36:54 895

原创 Flink系列（二）-- Flink的数据源详解

原文地址（包含源码和图片）：http://note.youdao.com/noteshare?id=c91f71fd16bedf7dfaac3b6fa663a243&sub=B79A8354FB1D4CB5BE44A1513C4F7A6C一、DataSource1、Flink 做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，...

2019-11-18 10:31:17 2044

原创 Flink系列（一）-- Flink介绍

原文地址（包含源码和图片）：http://note.youdao.com/noteshare?id=a639bd354bb0c84f939bc58c1bbbc6ff&sub=51B639A738F947B3A83490B0A17F9F1C一、Flink 应用程序结构1.Source:数据源，Flink 在流处理和批处理上的 source 大概有 4 类：基于本地集合的 ...

2019-11-18 10:29:06 315

原创 6.20 - Angular 2 学习笔记（一）

查看原文：http://note.youdao.com/noteshare?id=378c6e7137d4e384aef9395254e36bb3&sub=350CA885408046379F60DECEE53529BB一.安装安装脚手架： npm install @angular/cli –g运行项目创建向导 ng new hello-world --skip-xx...

2019-06-24 17:18:20 230

原创 4.10 - AngularJS 学习笔记

查看原文：http://note.youdao.com/noteshare?id=de523a4c98c7ace4e033c4699bf45bc5&sub=D8323781B8BF4DE9B548F3911DEE6159一、AngularJS 简介-----------------------------------------AngularJS 是一个 JavaScri...

2019-06-24 17:09:26 244

原创 3.14-filebeat.yml配置详解

一.filebeat.yml 配置详解------------------------------------filebeat: prospectors: - # 指定要监控的日志，可以指定具体得文件或者目录 # Paths that should be crawled and fetched. Glob based paths. paths:...

2019-03-15 10:44:10 2077

原创 3.14-filebeat + kafka 实时日志收集

一、首先配置filebeat.yml（1）最简配置filebeat.inputs:- type: log enabled: true paths: - /data/log/*.logfilebeat.config.modules: path: ${path.config}/modules.d/*.yml reload.enabled: falsesetup...

2019-03-15 10:39:59 454

原创 Spark调优解决方案（七）之算子调优

一、算子调优之MapPartitions--------------------------------------- 1.spark中最基本的原则就是每个task处理一个RDD中的partition数据 2.mappartitions操作的优点如果是普通的map,比如一个分区中有1万条数据，那么你的map里面的function要执行1万次 ...

2019-01-20 21:18:38 400

原创 Spark调优解决方案（六）之Shuffle调优

一、shuffle简介-------------------------------------------- 1.在spark中，主要是以下几个算子：groupByKey、reduceByKey、countByKey、join，等等。会发生shuffle操作 2.例如，groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿...

2019-01-20 19:05:05 843

原创 Spark调优解决方案（五）之JVM调优

一、Spark调优概述--------------------------------------------- 1.Spark调优分类 a.常规性能调优：分配资源、并行度。。。等 b.JVM调优（Java虚拟机）：JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而...

2019-01-20 11:58:48 238

原创 Spark调优解决方案（四）之使用kryo序列化，使用fastutil，调节本地化等待时长

一、使用kryo序列化----------------------------------------------- 1.为什么要使用kryo序列化方式？ a.默认情况下，使用的java原生的序列化手段，ObjectInputStream/ObjectOutputStream对象输入输出流的方式来进行序列化 b.这种默认序列化机制的好处在于，处理起来...

2019-01-19 22:06:06 290

原创 Spark调优解决方案（三）之广播大变量

一、Spark作业分析--------------------------------------- 1.Spark Application 提交作业，在Driver上运行jar包的进程 2.比如其中的一个算子是对一个字典表map（100M数据量）中的数据进行过滤操作，划分成10个task[分布式，10个节点上跑] 3.那么这10个task，都要用到map的数据,只...

2019-01-19 18:15:53 533

原创 Spark调优解决方案（二）之并行度调节以及RDD架构重用与持久化

一、Spark并行度指的是什么？------------------------------------------------------- 1.首先先解释下Spark作业的阶段划分一个spark作业可以理解成一个application, 一个Application是由jobs组成 job的划分是根据Action算子来的，每个Action之前的操作合...

2019-01-18 22:16:18 354

原创 Spark调优解决方案（一）之提交任务时合理分配资源

一、性能调优之在实际项目中分配更多资源------------------------------------------- 分配更多资源：性能调优的王道，增加和分配更多的资源，性能和速度上的提升，是显而易见的；基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节最优的资...

2019-01-18 15:58:03 819

原创电商用户项目架构分析

一、需求分析------------------------------------------ 1.对用户访问session进行分析 2.JDBC辅助类封装 3.用户访问session聚合统计 4.按时间比例随机抽取session 5.获取点击、下单和支付次数排名前10的品类 6.获取top10品类的点击次数最多的10个session ...

2019-01-16 12:48:34 3320 2

原创从零开始搭建CDH大数据平台（二）-- CDH 5.3.6集群搭建篇

一、安装hadoop-2.5.0-cdh5.3.6---------------------------------------------- 1.下载安装包 http://archive.cloudera.com/cdh5/cdh/5/） 2.将hadoop包进行解压缩：tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz 3.对hadoo...

2019-01-11 19:50:34 738 1

hadoop.dll,hadoop.lib,winutils.exe等

将其放入hadoop/bin下，可解决java.lang.NullPointerException at java.lang.ProcessBuilder.start(Unknown Source)，Exception in thread "main" java.lang.UnsatisfiedLinkError:等异常

2018-08-25