星空记忆-CSDN博客

原创深度学习(九)--RNN

0. 传统神经网络缺点1）不能处理输入样本是连续序列且长度不统一的情况；2）网络不能共享(学习到的知识不能应用于后边的学习)1. RNN( 循环神经网络)1）特点：处理序列数据的神经网络(序列数据，指的是数据会随着时间、空间等某一维度，前后数据存在一定关联性)，网络可以处理单元之间存在的内部反馈连接，同时可以处理前馈连接；2）主要的RNN网络Hopfield网络、Elman...

2018-10-24 16:09:08 392

原创深度学习(八)--CNN

1. 全连接神经网络每个神经元与前后相邻层的神经元都有联系，输入特征值，输出预测值；存在的问题：在处理图像问题时，待优化的参数过多，容易导致模型过拟合；实际应用：对原始图像进行特征提取，把提取到的特征喂给全连接层，让全连接层网络计算分类评估值；2. 卷积有效提取图像特征的方法；优点：参数共享；稀疏连接(连接只与卷积核内的数据相关联)；平移不变(图像即使平移后，它最终的特征几...

2018-10-17 21:27:46 698 1

原创深度学习(七)-可视化

1. 为什么需要可视化？在训练庞大的深度神经网络，为了能够更好的理解运算过程，需要使用可视化的工具将其过程进行描述，在tensorflow中使用TensorBoard 来绘制图像生成的定量指标图以及附加数据；2. 主要流程TensorBoard 通过读取tensorflow的事件文件来运行，在事件文件中包含运行中设计的主要数据。(1) 创建tensorflow图，对节点进行汇总操...

2018-10-16 19:43:38 4347

原创 Python常用库之pandas

1. 作用可以处理关系型或带标签的数据，方便对数据进行处理、抽取和操作；2. 数据结构一维：Series多维：DataFrame索引：Index3. Series使用 3.1 数据定义# 1.1 普通定义s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])print(s1)# 1.2 numpy数组定义arr...

2018-10-15 21:53:51 254

原创 Python常用库之matplotlib

1. 作用：数据可视化提供一套表示和操作图形图像对象以及它的内部对象的函数和工具；2. 三层架构 Scripting(脚本)层、Artist(表现)层、Backend(后端)层3. 绘图3.1 颜色取值3.2 显示图形取值3.3 位置取值(图例)应用实例：# coding=utf-8# 0.导入绘图包import matplotlib ....

2018-10-12 10:44:04 969

原创深度学习(五)-代价函数

1.代价函数1.1 代价函数：任何可以衡量模型预测结果值与其真实值之间差异的函数，如果存在多个样本，代价函数统计结果应该为所有样本的差异之和；1.2 代价函数即模型误差，是反向传播中求梯度的基础，同时也是模型最终达到期望效果的衡量指标；1.3 主要的代价函数 a. 二次代价函数(均方误差)当A，B预测值是0.82,0.98，对应真实值为1时，A的梯度大，B的梯度小，...

2018-10-11 13:04:21 1181

原创深度学习(六)--优化

1. 优化器(tensorflow) 1.1 tf.train.GradientDescentOptimizer --梯度下降表达式： # 传入学习率，目标优化损失tf.train.GradientDescentOptimizer(learning_rate).minimize(loss) 1.2 tf.train.MomentumOptimizer...

2018-10-11 12:59:56 199

原创深度学习(四)--激活函数

1.什么是激活函数？在生物神经网络中，神经元通过树突接收来自其他神经元的信号，其中树突的权重称为突触权值，将和接收的信号相乘。来自树突的信号在细胞体内不断累积，如果信号强度超过特定阈值，则神经元向轴突传递信息。如未超过，则信号被该神经元"杀死"，无法进一步传播。参考生物神经网络，在人工神经网络的神经元上构造函数，负责将有效的神经元输入映射到输出端；2.为什么要用激活函数？增加神经网络...

2018-10-08 16:23:24 321

原创 Python常用库之numpy(二)

6. 高级操作 ① 连接数组(将两个数组拼接)# 4.1 垂直和水平入栈arr1 = np.ones((2,2))arr2 = np.zeros((2,2))arr1_v = np.vstack((arr1,arr2)) # 垂直入栈(栈垂直向下增长)print(arr1_v)arr1_h = np.hstack((arr1,arr2)) # 水平入栈(栈水平向右增长)...

2018-10-08 12:57:31 183

原创 python常用库之numpy(一)

Numpy库是Python的一种开源的数字拓展，可以用来存储和处理大型矩阵1. 优点 ① 多维数组ndarray,元素级计算，运算快； ② 数据读写方便；2. 特点 ① 数组定义的时候大小固定； ② 存储元素为同质(同种数据类型)；3. 数据的生成(numpy支持多种数据类型) a. 使用列表或元组数据构造# 1.1 列表arr...

2018-10-07 19:53:31 265

原创 tensorflow之逻辑回归

逻辑回归(1)手写数字介绍数据集下载网址：http://yann.lecun.com/exdb/mnist/ 数据分为训练集合测试集，数据对应有：特征及标签；为了方便实现分类，本文使用one-hot 编码方式；(2)手写数字识别加载手写数字集；分批次训练，定义批次大小；定义占位符，用于输入x和结果y；定义网络结构，预测，计算误差，梯度下降优化；开始训练，定义准...

2018-10-06 21:43:14 232

原创 java容器

1.为什么使用容器？ Java在保存数据时，如果是基本类型，且保存数据的数量(大小)确定，那么数组无疑是最好的选择；但是，如果保存的数据是对象或者其大小在使用之前无法准确定义，那么如何解决这样的问题呢？此时可以考虑使用容器；2.容器及其特点容器：一类保存数据(对象)的数据结构，可以实现基本的存储、检索等操作；特点：a.用于存储对象；b....

2018-09-29 14:50:36 221

原创 python之collections模块

collections是Python内置的集合模块，提供许多集合类，完成基本的集合操作；1.namedtuple作用：named：命名的，tuple：Python基本数据结构，元组，是不可变集合；即创建一个自定义的tuple对象，并规定其个数；可以用属性完成属性引用(等价于面向对象中对象的属性)# 1.namedtuplepoint = collections.namedtup...

2018-09-19 21:32:00 214

原创 tensorflow之线性回归

线性回归(1)简单线性回归(一元)定义输入变量x,输出变量y；初始化线性回归中的参数:w,b；根据公式给出预测结果，计算误差，使用梯度下降优化；不断的训练，直到达到最大的训练次数(或考虑达到最小的误差要求)，结束训练，输出最终的结果；# coding=utf-8'''tensorflow 完成简单的线性回归(隐藏层单神经元)'''import tensorflow ...

2018-09-17 13:55:59 457

原创 tensorflow相关概念

0.数据的基本形式标量：数值形式向量：一维标量矩阵：二维标量张量：多维标量1.什么是tensorflow？tensorflow是用于表示某种类型的计算抽象(计算图)的框架； tensor：N维矩阵； flow：基于数据流图的计算； tensorflow：张量从图的一端流到另一端；2.为什么要使用tensorflow？网络训练过程：在训练中，需要连续的将多批新数据输...

2018-09-16 10:34:13 228

原创什么是神经网络？

1.神经网络是什么？神经网络是一种计算模型，由大量的节点(或神经元)直接相互关联而构成；每个节点(除输入节点外)代表一种特定的输出函数(或者认为是运算)，称为激励函数；每两个节点的连接都代表该信号在传输中所占的比重(即认为该节点的“记忆值”被传递下去的比重)，称为权重；网络的输出由于激励函数和权重的不同而不同，是对于某种函数的逼近或是对映射关系的近似描述；说明：在部分网络中，存...

2018-09-15 20:29:19 29814 1

原创设计模式之单例模式

1.单例模式介绍1）定义：确保一个类最多只有一个实例，并提供全局访问点2）应用场景：有些对象只需要一个：线程池、缓存等；如果多个实例会造成冲突，导致结果的不一致；3）实现的思路：静态变量实现、程序员之间协商一个全局变量2.单例模式实现1）懒汉模式(在调用方法时创建对象)public class Singleton1 { private static Singleton1...

2018-09-14 21:37:53 99

原创设计模式之观察者模式

1、Internet 气象站项目提供温度、气压和湿度的接口测量数据更新时需实时通知第三方需要设计开放的API，便于其第三方公司也能接入气象站获取数据具体的实现流程：当主程序中发现数据变化时--->将值传给气象站-->气象站通知显示板-->显示板更新数据-->将更新的信息进行显示 setData()--->dat...

2018-09-14 21:34:24 120

原创设计模式之策略模式

1.需求：鸭子都有发出叫声和会游泳的特性，不同的鸭子有不同的显示设计实现：父类：Duck 子类：RedHeadDuck、GreenHeadDuck 共有的特性在父类中实现； public void swim(){//添加实现} public void quack(){//添加实现} 独有的特性子类中实现； publ...

2018-09-14 21:33:53 144 1

原创决策树

1.决策树 1）决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别； 2）决策树采用自顶向下的递归方法，基本思想是以信息熵为度量构造一颗熵值下降最快的树； 2.信息论 1）熵熵为信息的期望值，衡量数据的混乱程度，熵越大，混乱程度越高，也就是纯度越低；反之，熵越小，混乱程度越低，纯度越高；信息定义：其中，为选择该分类的概率...

2018-05-13 14:55:30 250

1.什么是逻辑回归? 逻辑回归本质上是线性回归，在特征得到结果的映射中加入一层函数映射，该函数将特征值线性求和的结果(连续值)映射到0和1上(离散值) 2.逻辑回归为什么选择sigmoid作为映射函数？ 1）对逻辑回归模型，目标是最大化条件似然度，对于给定已知x，表示其对应类标记y出现的概率p(y|x;w)，通常对于一个有效分类器，w，x代表数据属于正类y=1的置信度，函数(sigmoid)...

2018-05-07 14:51:23 589

原创线性回归

1.线性回归基本形式 1）单变量线性回归扩展至多维单变量：y = kx+b 多变量可以表示为两种形式 a.将偏置项参数放在参数矩阵中 b.将偏置项作为单独的参数处理其中：与均为矩阵形式； 2）如何求解多维线性回归的参数根据形式2，推导参数的表达式：其中独立同分布，服从均值为0，方差...

2018-05-06 21:13:57 648

原创数据库查询优化

1.如何构造大量数据用于数据库的操作？在mysql性能测试中需要产生大量数据，数据生成由软件TestDataBuilder完成；具体的使用细节参考： http://testdatabuilder.sourceforge.net/ 2.数据为什么需要查询优化？问题：减少数据查询所消耗的时间，提高查询效率；出发点：避免全表查询(尤其在使用笛卡尔积进行表连接时) 分析会导致全表扫描...

2018-05-06 16:49:58 732

原创 MySQL提高篇

一. 数据完整性 1.介绍作用：保证用户输入的数据保存到数据库中是正确的。实现：在创建表时给表中添加约束分类：①实体完整性、②域完整性、③引用完整性: 2.实体完整性 2.1 介绍实体：即表中的一行(一条记录)代表一个实体（entity）实体完整性的作用：标识每一行数据不重复。约束类型：主键约束（primar

2018-02-02 15:54:51 616 1

原创 MySQL基础篇

一.数据库简介数据库（DataBase，DB）：指长期保存在计算机的存储设备上，按照一定规则组织起来，可以被各种用户或应用共享的数据集合。(数据的文件系统) 数据库管理系统（DataBase Management System，DBMS）：指一种操作和管理数据库的大型软件，用于建立、使用和维护数据库，对数据库进行统一管理和控制，以保证数据库的安全性和完整性。用户通过数据库管理系统访问数据库中

2018-02-01 14:52:08 274

原创中医证型关联规则挖掘

1.目的借助患者病理信息，挖掘患者的症状与中医证型之间的关联关系，对治疗提供依据，挖掘潜在证素 2.挖掘方法与过程采用关联规则算法，挖掘各中医证素与乳腺癌分期之间的关系步骤：问卷采集数据，形成原始数据数据预处理(数据清洗、属性规约、数据交换)对数据采用关联规则算法，训练得到关系模型结果分析，应用实际3.数据预处理 (1)数据清洗：对数据进行有效性检查，整理成为原始数据 (

2017-12-04 23:13:31 3117 1

原创航空公司客户价值分析

1.目标分析根据客户数据和用户类别特征，对客户进行分类，从而针对不同用户制定相应的营销策略。 2.简单分析（1）识别客户价值的指标：最近消费时间间隔(Recency)、消费频率(Frequency)、消费金额(Monetary) 金额的衡量指标模糊(如在长途低等舱位用户和短途高等舱位的用户选择问题中)，将其分为飞行里程数(M)和折扣系数的平均值(C) ，再加上客户关系长度(客户入会时间

2017-12-03 15:41:14 3480 2

原创电力窃漏电用户自动识别

1.挖掘目标 1）归纳出窃漏电用户的关键特征，构建窃漏电用户的识别模型； 2）调用模型进行实时监测 2 分析方法与过程获取原始数据数据探索分析数据预处理构建专家样本构建识别模型调用模型进行实时诊断 3.获取原始数据数据内容：偷窃漏电用户有关数据和不同用户类别的正常用电数据，同时包含窃漏电标识； 4.数据探索分析（1）通过柱状图及用户标识得出非居民用户类别不存在窃漏

2017-12-02 13:39:24 2429

原创 windows+Anaconda下搭建Keras环境

学习深度学习和神经网络，搭建基本环境

2017-12-01 09:59:31 10838 1

原创数据挖掘简介

1.什么是数据挖掘？从大量数据(含文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的关系、工具和过程；2.数据挖掘能做什么？利用机器学习的方法，帮助企业提取数据中蕴含的商业价值，提高企业的竞争力；3.怎么做？（数据挖掘建模过程）3.1.定义挖掘目标考虑系统完后后能达到什么样的

2017-11-30 10:02:51 9283

原创 Kmeans算法

1.归类聚类(clustering)属于非监督学习(unsupervised learning)无类别标记 (class label)2.K-means算法1）Clustering中的经典算法，数据挖掘十大经典算法之一；2）算法接受参数K，然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高，而不同聚类中的对象相似度较小3）算法

2017-11-16 20:16:29 329

原创非线性回归（逻辑回归）

一.理论1.概率1）定义：对一件事发生的可能性的衡量；2）范围：03)计算方法：a.根据个人置信b.根据历史数据c.根据模拟数据4）条件概率定12.逻辑回归（Logistic Regression）1）在特定的场景中，线性回归不能正确的分类数据2）基本模型定2定33.Cost函数（代价最小化）线性回归：定4

2017-11-14 21:55:11 5124

原创 Hierarchical clstering 层次聚类

1.假设有N个待聚类的样本，对于层次聚类来说，步骤：1）（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度；2）寻找各个类之间最近的两个类，把它们归为一类（这样类的总数就少了一个）3）重新计算新生成的这个类与各个旧类之间的相似度；4）重复2和3直到所有样本点都归为一类，结束；2.整个聚类过程其实是建立一棵树，在建立的过程中，可以通过在第二步上设置

2017-11-14 16:37:39 268

原创多元回归分析

一.理论多元回归分析（multiple regression）1.与简单线性回归区别：多个自变量2.多元回归模型3.多元回归方程4.估计多元回归方程5.估计流程（与简单线性回归类似）6.估计方法使得min的值达到最小7.如果自变量有分类型变量(categorical data)，如何处理？1）原始数据2)处理

2017-11-13 19:09:16 4239

原创简单线性回归

一.理论篇1.监督学习：回归问题2.简单线性回归3.统计量：描述数据特征1）集中趋势衡量：均值（平均数）mean中位数(median)：将数据中的各个数值按照大小顺序排序，局域中间位置的变量；众数(mode)：数据中出现次数最多的数2)离散程度衡量方差：(variance)标准差：(standard deviation)4.常

2017-11-13 19:08:43 329

原创回归中的相关度和决定系数

1.皮尔逊相关系数（Pearson Correlation Coefficient）1)衡量两个值线性相关强度的量；2）取值范围:[-1,1]正向相关：>0，负向相关：3）定义2.R平方值1）定义：决定系数，反应因变量的全部变异能通过回归关系被自变量解释的比例；2）描述：如R平方为0.8，则表示回归关系可以解释因变量80%的变异；即如果自变量不变，则因变量的变异

2017-11-13 14:55:29 10381

原创神经网络

一.理论篇1.背景以人脑中中的神经网络为启发，历史上有很多版本最著名的算法是1980年的backpropagation2.多层向前神经网络（Multilayer Feed-Forward Neural Network）1)backpropagation被使用在多层先前神经网络上2)输入层(input layer)、隐藏层(hidden layer)、输出层(output l

2017-11-10 22:07:33 547

原创支持向量机（二）

一.理论1.总结1）训练好的模型的算法复杂度由支持向量的个数决定的，而不是由数据的维度决定的。所以SVM不太容易产生overfitting（过拟合）2）SVM训练出来的模型完全依赖于支持向量，即使训练集中所有非支持向量的点被去除，重复训练过程，结果仍然会得到完全一样的模型。3）一个SVM如果训练得出的支持向量个数比较少，SVM训练出的模型比较容易被泛化。2.线性不可分的情况

2017-11-04 19:10:36 353

原创支持向量机（一）

一.理论1.背景1）历史发展：1963年提出，目前的版本是1993年提出2）历史地位：深度学习出现之前（2012），倍认为最成功、表现最好的算法‘2.机器学习的一般框架训练集--->提取特征向量 --->结合一定的算法（分类器：比如决策树、KNN）--->得到结果3.介绍1）例子两类？那条线分割较好？2）SVM寻找区分两类的超平面(hyper plane

2017-11-02 22:58:32 1415

原创 KNN

一.理论 1.简介 1）最邻近规则分类KNN，是Cover和Hart在1968年提出了最初的临近算法； 2）分类算法 3）输入基于实例的学习，懒惰学习 2.例子 3.算法详述 1）步骤为了判别未知实例的类别，以所有已知类别的实例作为参照；选择参数K 计算未知实例与所有已知实例的距离选择最近K个已知实例根据少数服从多数的投

2017-10-31 18:50:17 4714 2

空空如也

空空如也