Dillon_Wang-CSDN博客

原创过拟合与欠拟合

概念之前，我们介绍过拟合的概念。拟合指的是构建的模型能够符合样本数据的特征。与拟合相关的两个概念是欠拟合与过拟合。欠拟合：模型过于简单，未能充分捕获样本数据的特征。表现为模型在训练集上的效果不好。过拟合：模型过于复杂，过分捕获样本数据的特征，从而将样本数据中一些特殊特征当成了共性特征。表现为模型在训练集上的效果非常好，但是在未知数据上的表现效果不好。解决方案如果产生欠拟合，可...

2019-07-18 10:12:46 742

原创 Spark ML关于模型保存，模型加载案例

package com.xy.data.modelimport org.apache.spark.SparkConfimport org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark....

2019-04-28 17:07:00 8795 3

原创真正的完全图解Seq2Seq Attention模型

五分钟看懂seq2seq attention模型。本文通过图片，详细地画出了seq2seq+attention模型的全部流程，帮助小伙伴们无痛理解机器翻译等任务的重要模型。seq2seq 是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的...

2019-04-28 11:45:54 312

原创图像风格迁移

所谓图像风格迁移，是指利用算法学习著名画作的风格，然后再把这种风格应用到另外一张图片上的技术。著名的国像处理应用Prisma是利用风格迁移技术，将普通用户的照片自动变换为具有艺术家的风格的图片。这篇文章会介绍这项技术背后的原理，此外，还会使用TensorFlow 实现一个快速风格迁移的应用。1 图像风格迁移的原理1.1 原始图像风格迁移的原理在学习原始的图像风格迁移之前，可以先回忆一下...

2019-04-28 11:43:45 1844 1

原创 numpy03-数学运算的函数

import numpy as npa=np.arange(9).reshape((3,3))print(a)#整体求和print(a.sum())#行相加print(a.sum(1))#列相加print(a.sum(0))#第一行相加print(a[0].sum())#求逆矩阵n1=np.random.randint(0,9,(2,2))print(np.l...

2018-06-26 12:45:53 150

原创 numpy02-索引和切片

import numpy as npa=np.random.randint(0,10,(6,4))print(a)#取第三行第二列print(a[2][1])#第一行到第三行print(a[:3])#取第三行的第二列print(a[2,1])#取第三行，第二行print(a[[2,1]])#取第四行，第一列到第三列print(a[3,:3])#取后两行，前三...

2018-06-26 12:44:09 132

原创 Mapreduce on Yarn运行流程

1.客户端请求提交一个MR任务2.resourcemanger返回提交程序资源的路径3.yarn客户端提交job资源4.通知MR提交完毕5.resourcemanger将请求封装成task6.启动MR的AppMaster7.AppMaster申请资源启动nodemanager...

2018-05-12 20:01:06 660

原创 hdfs联邦机制

联邦机制解决的是namenode单点压力过大(做的namenode负载均衡)通过采用多个namenode管理不同的目录树结构hdfs联邦机制配置 <property> <name>dfs.nameservices</name> <value>cluster1,cluster2</value> &lt...

2018-05-12 19:14:33 1613 1

原创 Hadoop 2.x中fsimage和edits合并实现

secondarynamenode作用：帮助namenode合并日志文件，减少namenode启动时间1.secondarynamenode通知namenode进行checkpoint.2.namenode切换日志文件3.secondarynamenode从namenode下载editslog和fsimage文件在内存中合并，生成新的fsimage文件4.将fsimage文件拷贝至namenode...

2018-05-12 19:07:30 467

原创 spark repartition和coalesce

repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T] 他们两个都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的简易实现，（假设RDD有N个分区，需要重新划分成M个分区） 1、N小于M 一般情况下N个分区有数据...

2018-05-12 17:13:21 172

原创 CenterOS7安装mysql

yum install -y yum-utils device-mapper-persistent-data lvm2yum install docker-ce设置开机自启systemctl enable docker

2018-05-07 13:49:27 303

原创 HIVE动态分区实战

hive> set hive.exec.dynamic.partition.mode=nonstrict;关系型数据库（如Oracle）中，对分区表Insert数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用Hive的动态分区，需要进行相应的配置。先看一个应用场景，源表t_lxw12...

2018-05-03 14:44:39 145

原创 CenterOS7下快速安装mysql

centos7下快速安装mysqlCentOS 7的yum源中貌似没有正常安装mysql时的mysql-sever文件，需要去官网上下载# wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm# rpm -ivh mysql-community-release-el7-5.noarch.rpm# yum ins...

2018-05-02 11:38:35 767

原创 Docker 中国官方镜像加速

通过 Docker 官方镜像加速，中国区用户能够快速访问最流行的 Docker 镜像。该镜像托管于中国大陆，本地用户现在将会享受到更快的下载速度和更强的稳定性，从而能够更敏捷地开发和交付 Docker 化应用。 ...

2018-04-30 15:05:16 846

原创基于Spark UI性能优化与调试

Spark有几种部署的模式，单机版、集群版等等，平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便，只能通过Log的形式进行数据分析，利用spark ui做性能调整和优化。大体上会按照下面的思路进行讲解：怎么访问Spark UISparkUI能看到什么东西？job,stage,storage,environment,excuto...

2018-04-26 15:35:12 229

原创 Java8新特性之日期处理

简介伴随 lambda表达式、streams 以及一系列小优化，Java 8 推出了全新的日期时间API。Java处理日期、日历和时间的不足之处：将 java.util.Date 设定为可变类型，以及 SimpleDateFormat 的非线程安全使其应用非常受限。然后就在 java8 上面增加新的特性。全新API的众多好处之一就是，明确了日期时间概念，例如：瞬时（instant）、长短（dur...

2018-04-24 10:46:28 351

原创生产环境flume日志采集方案

Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。名词介绍：Flume OG：Flume original generation,即Flume0.9x版本Flume NG：Flume next gen...

2018-04-16 10:13:38 9202

原创 spark配置参数详解

Spark配置参数说明 Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置，例如IP地址、端口等信息日志配置：可以通过log4j.properties配置 Spark属性Spark属性控制大部分的应用程序设置，并且为每个应用程序分别配置它。这些属性可...

2018-04-13 18:01:52 266

原创 spark资源层面调优

num-executors　　参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。 Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给你启动少量的Executor进程，此时你的Spark作业的运行...

2018-04-13 17:57:52 228 1

原创 Spark rdd算子

#如果通过并行化的方式创建rdd，如果不指定分区的数量，那么跟你的核数相关#如果通过读取hdfs里面的数据创建rdd，那么分区的数量跟输入切片的数量是一致的 #查询分区长度rdd4.partitions.length #已并行化的方式创建rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))valrdd1=sc.parallelize(List(...

2018-04-13 17:53:41 188