自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 spark快速大数据分析之学习记录(七)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程PairRDD

2019-07-10 21:50:42 237

原创 spark快速大数据分析之学习记录(六)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程RDD常用函数【Python】一、转化操作函数1.filter:对RDD中每个元素进行操作,过滤出符合条件的元素,返回一个新RDD2.map:对RDD中每个元素进行操作,返回一个新RDD,元素个数相同3.flatMap:对RDD中每个元素进行操作,然后将得到的数据集“拍扁”,返回一个新的RDD,元素...

2019-06-25 23:28:17 191

原创 spark快速大数据分析之学习记录(五)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程【上周毕业典礼,放肆high~~~】1、RDD基础RDD(risilient distributed dataset )弹性分布式数据集,简单理解成不可变的分布式的元素集合2.创建RDD【python】创建RDD有两种:外部读取文件和自定义传递集合给SparkContextshell命令:lines...

2019-06-24 23:00:07 242

原创 spark快速大数据分析之学习记录(四)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程一、初始化SparkContext【基于python】1.新建一个py文件,用于存放python脚本(备注:我在桌面建了一个文件夹py,主要用来存放python脚本)shell命令:sudo vim "test.py"然后在test.py文本中输入以下程序:from pyspark import Sp...

2019-06-18 00:05:19 256

原创 spark快速大数据分析之学习记录(三)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程一、编写第一个pyspark程序1.进入spark文件夹,该文件夹下有一个README.md文件,统计该文件的行数,以及输出第一行2.运行sparkshell命令:./bin/pyspark #运行spark运行截图:3.运行python语句shell命令:>>&gt...

2019-06-16 18:33:23 279

原创 spark快速大数据分析之学习记录(二)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程一.spark下载和安装【本地模式】【系统:linux】下载spark前,需要确保你之前已经下载好了jdk和Python,以下是我的整个下载和安装过程。1.下载jdk:shell命令:sudo apt-get install default-jre default-jdk运行截图:下载后的...

2019-06-16 17:01:27 185

原创 spark快速大数据分析之学习记录(一)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程1.什么是Spark?Spark是一个用来实现快速而通用的集群计算的平台。其扩展了广泛使用的Mapreduce计算模型,能够在内存中进行计算,提供了基于Python,Java,Scala和SQL的简单易用的API,内含丰富的程序库,并能和其他大数据工具密切配合使用,如Spark可以运行在Hadoop集群上,访问任意的Ha...

2019-06-16 13:34:08 158

原创 回归算法的几个小感悟

最近在准备秋招,被狠狠的打击了,思来想去觉得还是自己差劲,所以又抱起书本和教程,重新学一遍机器学习的相关知识,发现果然是温故而知新,,,以前一些很模糊的概念,现在看起来容易理解多了,于是就写下来,方便以后自己学习。。。第一点:当时学回归的时候,被各种线性回归弄混淆死了,又是线性回归又是岭回归,然后一翻身,又出来个LASSO回归,等等,这边怎么又冒出个ElasticNet回归。。。现在看看,其实...

2018-08-23 17:55:40 2323 1

转载 python多线程和多进程

搞定python多线程和多进程1 概念梳理:1.1 线程1.1.1 什么是线程线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。一个线程是一个execution context(执行上下文),即一个cpu执行时所需要的一串指令。1.1.2 线程的...

2018-08-16 10:25:21 181

原创 MYSQL学习笔记

mysql笔记----------------创建数据库,该命令的作用:1. 如果数据库不存在则创建,存在则不创建。2. 创建RUNOOB数据库,并设定编码集为utf8create database if not exists RUNOOB default charset utf8 collate utf8_general_ci;--drop 命令删除数据库drop database ...

2018-08-07 16:12:50 286

原创 hive学习笔记续2

--group by 语句,常和聚合函数一起使用,sum,count,avg...hive> select year(ymd),avg(price_close) from stocks where exchange='nasdaq' and symbol='aapl' group by year(ymd);---having语句hive> select year(ymd...

2018-07-31 10:11:31 495

原创 hive学习笔记续1

-----2018.7.25--增加列,在分区字段之前ALTER TABLE log_message ADD COLUMNS(app_name STRING COMMENT 'application name',session_id STRING COMMENT 'the current session id');--删除或替换列,只将需要的列写出即可,未写出的列即等于删除ALTER...

2018-07-26 08:45:32 407

原创 hive学习笔记

/*hive 学习笔记*//*--------------------------------------------------------------------2018.7.22-------------------------------------------------------------------------------*//*hive基础知识: hadoop...

2018-07-23 08:46:56 799

原创 神经网络-反向传播

#coding:utf-8import numpy as np#定义双曲函数和他们的导数def tanh(x): return np.tanh(x)def tanh_deriv(x): return 1.0 - np.tanh(x)**2def logistic(x): return 1/(1 + np.exp(-x))def logistic_der...

2018-06-07 10:34:52 282

原创 感知器简单二分类判别模型-matlab编码

function [w,b]=perceptron_original_form(x,y,learning)%x 训练数据集%y 标签{-1,1}%learning 学习率 (0,1]%w 权重向量%b 偏置%%%初始化[m,n]=size(x);w=zeros(1,n);b=0;%%flag=0;while (flag==0) for i=1:m ...

2018-04-13 10:20:14 2512

原创 使用matlab编写的核模糊聚类KFCM算法

function [c,u,dist]=self_kfcm(data,k,iter,err,w)%c 返回各类中心%u 返回隶属度矩阵%dist 返回各类内距离之和%data 数据集%n 希望聚成的类数%iter 迭代数%err 最小误差%w 高斯核函数的宽度%%%初始化[m,n]=size(data);c=zeros(k,n);u=zeros(m,k);dist=[]...

2018-04-10 16:00:36 5962 6

原创 matlab-kmeans,自制

function [c,label,dist_k]=self_kmeans(data,k,iter,err)%data 输入数据集(全自变量)%k 类数%iter 迭代数%err 误差变化量%c 返回的各类中心(向量)%label 返回的各数据类别%dist_k 返回各个类内距离和[m,n]=size(data);%返回data的行,列数c=zeros(k,n);dist_k=...

2018-04-08 20:45:14 335

转载 RBF神经网络与BP神经网络的比较

RBF神经网络与BP神经网络都是非线性多层前向网络,它们都是通用逼近器。对于任一个BP神经网络,总存在一个RBF神经网络可以代替它,反之亦然。但是这两个网络也存在着很多不同点,这里从网络结构、训练算法、网络资源的利用及逼近性能等方面对RBF神经网络和BP神经网络进行比较研究。  (1) 从网络结...

2018-03-29 21:16:44 4535

原创 matlab 连接mysql数据库

1、下载mysql的jdbc驱动,https://www.cr173.com/soft/45333.html,此链接jdbc亲测有用(解压的时候注意,会有很多附带的软件,记得把√取消掉)。2、将mysql-connector-java-5.1.44.jar复制到D:\Program Files\MATLAB\matlabR2010b\java\jar\toolbox文件夹下3、在D:\Progra...

2018-03-28 17:24:28 464

转载 matlab的二维卷积操作

matlab的二维卷积操作 MATLAB的conv2函数实现步骤(conv2(A,B)):其中,矩阵A和B的尺寸分别为ma...

2018-03-27 16:30:38 2032

原创 核函数的内积怎么计算,核函数的内积能干什么

2018-03-21 09:28:03 3957 1

原创 PCA实例

上篇解释了pca中要求方差最大,以及通过特征值和特征向量来确定最后降维的数据,下面是一个实例。

2018-03-20 14:25:35 545

转载 PCA &kernel-based PCA 学习笔记

纯属自己观看教程之后的学习笔记。解释了为什么要pca中需要使用特征值和特征向量。

2018-03-19 17:20:10 360

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除