ggwcr-CSDN博客

原创 MNIST的AlexNet实现

一些关键函数的介绍tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)参数说明：● data_format：表示输入的格式，有两种分别为：“NHWC”和“NCHW”，默认为“NHWC”● input：输入是一个4维格式的（图像）数据，数据的 shape 由

2017-10-08 21:02:28 2500 2

说明：本博客是学习线性模型的笔记，参考了周志华的《机器学习》，华校专、王正林的《Python大战机器学习》，孙亮、黄倩的《实用机器学习》，截图也来自上述书中，在此对他们表示感谢。1.1概述线性模型形式简单、易于建模，但却蕴含着机器学习中一些重要的基本思想，许多功能更为强大的非线性模型(nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得。1.2普通线性回归给定数据集D=

2017-10-08 10:20:20 951

原创 CART树回归

基于树的回归算法是一类基于局部的回归算法，通过将数据集切分成多份，在每一份数据中单独建模。与局部加权线性回归不同的是，基于树回归的算法是一种基于参数学习的算法，利用训练数据训练完模型后，参数一定确定，无需再改变。分类回归树(Classification And Regression Tree,CART)算法是使用比较多的一种树模型，CART算法既可以解决分类问题也可以解决回归问题。前面的博客随机森林

2017-10-07 23:29:59 804

转载 Factorization Machines 学习笔记（四）学习算法(转)

最近学习了一种叫做 Factorization Machines（简称 FM）的算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘法（ALS）法进行详细推导。相关链接：（一）预测任务（二）模型方程（三）回归和

2017-10-07 20:07:40 272

转载 Factorization Machines 学习笔记（三）回归和分类（转）

最近学习了一种叫做 Factorization Machines（简称 FM）的算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘（ALS）法进行详细推导。相关链接：（一）预测任务（二）模型方程（三）回归和分

2017-10-07 20:05:26 295

转载 Factorization Machines 学习笔记（二）模型方程(转)

最近学习了一种叫做 Factorization Machines（简称 FM）的算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘（ALS）法进行详细推导。相关链接：（一）预测任务（二）模型方程（三）回归和分

2017-10-07 20:03:11 216

转载 Factorization Machines 学习笔记（一）预测任务(转)

最近学习了一种叫做 Factorization Machines（简称 FM）的算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景；2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘法（ALS）法进行详细推导。相关链接：（一）预测任务（二）模型方程（三）回归和

2017-10-07 19:59:32 507

原创 Factorization Machine算法

说明：本博客是学习《python机器学习算法》赵志勇著的学习笔记，其图片截取也来源本书。在逻辑回归算法的模型中使用的是特征的线性组合，最终得到的是分隔超平面属于线性模型，其只能处理线性可分的二分类问题。现实生活中的分类问题是多种多样的，存在大量的非线性可分的分类问题。对逻辑回归算法的优化有两种： 1、对特征进行处理，如核函数方法，将非线性可分的问题转换成近似线性可分的问题； 2、对逻辑回归算法进

2017-10-07 19:54:57 1408 1

原创协同过滤算法

协同过滤(ccollaborative Filtering，CF)算法是最基本的推荐算法，CF算法是从用户的历史行为数据中挖掘出用户的兴趣，为用户推荐其感兴趣的项。根据挖掘方法的不同，协同过滤算法可以分为基于用户的(User-based)协同过滤算法和基于项的(Item-based)协同过滤算法。1、推荐系统的概述1.1、推荐系统在信息过载的时代，信息呈现出爆炸式增长，大量的信息给用户不断带来新

2017-10-07 19:20:47 778

原创 CART分类树算法与随机森林

CART分类树算法与随机森林对于一个复杂的分类问题，训练一个复杂的分类模型通常比较耗时，同时为了能够提高对分类问题的预测准确性，通常可以选择训练多个分类模型，并将各自的预测结果结合起来，得到最终的预测。集成学习(Ensemble Learning)便是这样一种学习方法，集成学习是指将多种学习算法，通过适当的形式组合起来完成同一个任务。在集成学习中，主要分为Bagging算法和boosting算法。随

2017-10-07 17:18:15 9159

原创 tensorflow图像数据预处理

tensorflow图像数据预处理图像的亮度、对比度等属性对图像的影响是非常大的，相同物体在不同亮度、对比度差别非常大。然而在很多图像识别问题中，这些因素都不应该影响最后的识别结果。通过对图像的预处理，可以尽量避免模型受到无关因素的影响。在大部分图像识别问题中，通过图像处理过程可以提高模型的准确率。Tensorflow图像处理函数Tensorflow提供了一种统一的格式来存储数据，这个格式就是TFR

2017-10-07 11:12:22 5932 1

原创使用Apriori算法进行关联分析

1、使用Apriori算法进行关联分析关联分析中最有名的例子是“尿布与啤酒”。据报道，美国中西部的一家连锁店发现，男人们会在周四购买尿布和啤酒。这样商店实际上可以将尿布与啤酒放在一块，并确保在周四全价销售从而获利。当然，这家商店并没有这么做。这是商家通过研究用户的清单来提高销量的一个典型的例子。这种从大规模数据中寻找物品间的隐含关系式十分耗时和复杂的，所需的计算代价也很高。因此需要更加智能的方法在合

2017-09-30 17:19:26 908

原创 AdaBoost分类器

本博客是基于《机器学习实战》中第七章的基础上加上个人理解所做的笔记，其中python程序的注释也是个人的理解，可能有不正确的地方，仅供参考。环境：win7 64位 python3.50、概述当做重要决定时，大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此？这就是元算法（meta-algorithm ) 背后的思路。元算法是对其他算法进行组合的一种方式，即可以将

2017-09-22 19:28:10 7931

原创 tensorflow训练线性函数

tensorflow一个简单的例子，训练一个 y = 0.1x+0.3的线性函数。主要学习目的是了解tensorflow训练模型的过程和模式，对以后训练其他模型有个大概的了解。tensorflow训练模型大致有以下几个步骤：1、数据处理（加载数据、创建数据）2、构建训练模型或网络3、损失函数计算与参数优化4、创建Session5、迭代训练环境： win7 64位 tensorflow-gpu1.3

2017-09-21 13:13:48 544

原创决策树ID3算法的python实现

决策树ID3算法的python实现环境：win7 64位 python3.5熵参考：http://blog.csdn.net/ggwcr/article/details/77964184import numpy as npfrom math import logimport operatordef createDataSet(): dataSet = [ [1, 1, '

2017-09-21 12:52:41 1466

原创 K-means的python实现

环境：win7 64位 python3.5import numpy as npimport matplotlib.pyplot as plt# 加载数据def loadDataSet(fileName): data = np.loadtxt(fileName,delimiter='\t') return data# 欧氏距离计算def distEcl

2017-09-21 12:29:39 825

原创 TensorFlow 基础知识笔记之队列和线程

TensorFlow 基础知识笔记之队列和线程和 TensorFlow 中的其他组件一样，队列（queue）本身也是图中的一个节点，是一种有状态的节点，其他节点，如入队节点（enqueue）和出队节点（dequeue），可以修改它的内容。例如，入队节点可以把新元素插到队列末尾，出队节点可以把队列前面的元素删除。环境：win7 64位 tensorflow1.3-gpu python3.5

2017-09-18 12:46:27 2118

原创 TensorFlow 基础知识笔记之一些概念

1、系统架构上图是TensorFlow 的系统架构，自底向上分为设备层和网络层、数据操作层、图计算层、 API 层、应用层，其中设备层和网络层、数据操作层、图计算层是TensorFlow 的核心层。(1)网络通信层包括 gRPC（google Remote Procedure Call Protocol）和远程直接数据存取（Remote Direct Memory Access， RDMA），这都是

2017-09-18 09:07:27 628

原创贝叶斯算法笔记

通常情况下，贝叶斯分类器最适合于解决一类问题：为了估计一个结果的总概率。从众多属性中提取的信息应该被同时考虑。尽管很多机器学习算法忽略了具有弱影响的一些特征，但是贝叶斯方法利用了所有可以获得的证据来巧妙的修正预测。如果有大量特征产生的影响较小，但将他们放在一起，它们的组合影响可能会很大。1、贝叶斯概率公式理解贝叶斯公式还要理解一些与贝叶斯相关的概念。先验概率：利用数据计算得到的先验

2017-09-15 11:12:27 706

原创贝叶斯分类之旧金山犯罪分类预测

贝叶斯分类之旧金山犯罪类型分类预测学习七月算法朴素贝叶斯分类器中项目的一个例子，这也是一个Kaggle比赛的例子。通过训练来预测犯罪类型。环境： win7 64位 python3.51、加载数据该数据是旧金山12年的犯罪记录，数据文件是一个csv文件可以使用pandas来加载数据，数据内容摘录： Dates,Category,Descript,DayOfWeek,PdDistrict,Resolu

2017-09-14 18:40:11 3049

原创信息量与熵笔记

主要是学习七月算法熵与信息量所作的一些笔记，当然也参考了一些博客，这里对他们表示衷心的感谢！自信息如果说概率p是对确定性的度量，那么信息就是对不确定性的度量。信息:I(x) = -log(p(x)) 如果两个事件X和Y独立，即p(xy)=p(x)p(y)，假定X和Y的信息量分别为I(x)和I(y)，则二者同时发生的信息量应该为I(x^y)=I(x)+I(y)

2017-09-13 12:08:26 4456

原创机器学习笔记--K-近邻算法（三）

手写识别系统0、说明环境：window7 64位 python 3.5与python2.7原文的代码有些不一样。本节我们一步步地构造使用k-近邻分类器的手写识别系统。为了简单起见，这里构造的系统只能识别数字0到9. 需要识别的数字已经使用图形处理软件，处理成具有相同的色彩和大小: 宽髙是32像素X32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用内存空间，但是为了方便理解，我们还是将图像转

2017-09-02 20:07:58 278 1

原创机器学习笔记--K-近邻算法（二）

使用K-近邻算法改进约会网站的配对效果我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选，但她没有从中找到喜欢的人。经过一番总结，她发现曾交往过三种类型的人：□ 不喜欢的人□ 魅力一般的人□ 极具魅力的人尽管发现了上述规律，但海伦依然无法将约会网站推荐的匹配对象归人恰当的分类。她觉得可以在周一到周五约会那些魅力一般的人，而周末则更喜欢与那些极具魅力的人为

2017-09-01 21:45:10 276

原创机器学习之PCA

1、PCA概述在很多实际数据中，通常涉及很多的变量。大量的变量不但增加了计算的复杂度，而且有些变量有可能是噪声，从而将数据中的主要数据“淹没”。此外虽然每一个变量都提供了相应的信息，但是很多变量可能存在一定的相关性。因此，我们希望从数据中提取主要变量信息，用较少的新变量来表达数据中的主要信息。在主成分分析 (pricipal component analysis,PCA)中，我们使用旧变量

2017-09-01 19:25:25 471

转载机器学习中的参数估计

1、最大似然估计MLE(maximum likelihood estimation)最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。首先回顾一下贝叶斯公式这个公式也称为逆概率公式，可以将后验概率转化为基于似然函数和先验概率的计算表达式，即最大似

2017-08-31 14:38:20 426

原创 tensorflow基础

环境：windows 7 tensorflow-GPU 1.3Numpy数组tensorflow的数据类型是基于numpy的数据类型。实际上，语句np.int32 == tf.int32的结果为True。对于数值类型和布尔类型，Tensorflow和Numpydtype属性完全一致。然而在Numpy中并无tf.string精确对应的类型，这是由于Numpy处理字符串的方式决定的。也就是

2017-08-23 21:04:40 1334

原创机器学习笔记--K-近邻算法（一）

机器学习实战这本书的例子很多也很好，问题导向型的，所以例子也是循序渐进。如果真要读懂，一遍是不够的，特别是我这种渣。其实写机器学习实战笔记的同时，我都或多或少的参考了《机器学习与R语言》这本书，相互借鉴，看看同样的问题表述，两者有什么区别。1. K-近邻算法的概述简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类。--《机器学习实战》 “物以类聚，人以群分”，相似的东西很有可能具

2017-08-10 13:25:42 797

原创机器学习笔记--机器学习的基础

机器学习的基础1. 何谓机器学习简单地说，机器学习就是把无序的数据转换成有用的信息。机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的专业知识。机器学习的主要任务就是分类。当决定使用某个机器学习算法进行分类是，首先需要做的是算法训练，即如何学习分类。通常为算法输入大量的已分类的数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合，

2017-08-10 10:45:30 295

原创 python的scipy学习笔记

Scripyscipy是世界上著名的python开源科学计算库，建立在Numpy之上。它增加的功能包括数值积分、最优化、统计和一些专用函数from scipy import io as spioimport numpy as npa = np.ones((3,3))aarray([[ 1., 1., 1.], [ 1., 1., 1.], [ 1., 1.,

2017-08-09 11:19:59 1172

原创 python的pandas学习笔记

import pandas as pdimport numpy as npfrom pandas import Series,DataFrameobj = Series(range(5),index=['a','a','b','b','c'])obj a 0 a 1 b 2 b 3 c 4 dtype: int64obj.

2017-08-09 11:01:10 555

原创 python基础学习--date

import timeticks = time.time()ticks1501728802.939序号属性值 0 tm_year 2008 1 tm_mon 1 到 12 2 tm_mda

2017-08-09 10:54:28 202

原创 python基础学习--字典

字典是另一种可变容器模型，且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割，每个对之间用逗号(,)分割，整个字典包括在花括号({})中 ,格式如下所示：d = {key1 : value1, key2 : value2 }字典是另一种可变容器模型，且可存储任意类型对象。字典的每个键值(key=>value)对用冒号(:)分割，每个对之间用逗号(

2017-08-09 10:27:32 260

原创 python基础学习--列表

In [1]:list = ['a','b','c',1997,2000]In [2]:list[1:5]Out[2]:['b', 'c', 1997, 2000]In [4]:listOut[4]:['a', 'b', 2000, 1997, 2000]In [5]:del list[2]In [6]:listOut[6]:['a', 'b', 199

2017-08-09 09:57:20 190

原创 python基础学习--元组

不知道怎样将python的notebook导入CSDN，直接负责粘贴了，做笔记备份。元组使用小括号，列表使用方括号。创建空元组 tup1 = (); 元组中只包含一个元素时，需要在元素后面添加逗号 tup1 = (50,)元组中的元素值是不允许修改的，但我们可以对元组进行连接组合，如下实例: In [1]:tup1 = (12,34,56)In [2]:tup2 = (‘abc’,’xy

2017-08-09 09:43:15 195

原创 spark1.6编译

spark编译有3种一.使用maven编译 mvn clean package \ -DskipTests-Phadoop-2.4 \ -Dhadoop.version=2.6.0 -Pyarn \ -Phive-0.13.1-Phive-thriftserver 二.使用 sbt编译（不做介绍）三.打包编译make-distribution.sh ./m

2017-05-18 11:28:23 287

原创 spark资源调度分配

一．任务调度与资源调度的区别 1.任务调度是通过DAGScheduler、TaskScheduler、SchedulerBackend等进行的作业调度 2.资源调度是指应用程序如何获得资源 3.任务调度是在资源调度的基础上进行的，没有资源调度那么任务调度就成了无源之水二．资源调度内幕 1.因为Master负责资源管理和调度，所以资源调度的方法schedul

2017-05-18 11:16:29 434

ggwcr的博客