梵天的读书笔记-CSDN博客

原创数据分析方法论（6种方法，8个思路）

数据分析的流程在介绍数据分析方法论和思路之前，我们还是先不厌其烦地看一下数据分析的流程，简单来说分为以下六个步骤：1、明确分析的目的，提出问题。只有弄清楚了分析的目的是什么，才能准确定位分析因子，提出有价值的问题，提供清晰的指引方向。2、数据采集。收集原始数据，数据来源可能是丰富多样的，一般有数据库、互联网、市场调查等。具体办法可以通过加入“埋点”代码，或者使用第三方的数据统计工具。...

2020-02-26 17:23:05 39001 1

原创 Ubuntu的开机启动项

以root权限在/etc/init.d/目录下编写运行脚本，类似：#!/bin/bash### BEGIN INIT INFO# Provides: my.com# Required-Start: $local_fs $network# Required-Stop: $local_fs# Default-Start: 2 3 4 5# De...

2019-06-27 19:41:04 968

原创 Pandas基本用法

Pandas 数据结构Series 是一种一维数组，和 NumPy 里的数组很相似。事实上，Series 基本上就是基于 NumPy 的数组对象来的。和 NumPy 的数组不同，Series 能为数据自定义标签，也就是索引（index），然后通过索引来访问数组中的数据。创建一个 Series 的基本语法如下：上面的 data 参数可以是任意数据对象，比如字典、列表甚至是 NumPy...

2018-12-20 08:45:06 1175

原创 pip 安装过程的坑

pip 安装过程中如果出现 UnicodeDecodeError: 'utf-8' codec can't decode 错误说到底还是编码的问题，因为windows下dos的默认编码是gbk936，我们可以将dos的代码页进行更改，更改命令如下：chcp 65001 //换成65001代码页chcp 437 //换成美国英语我们执行chcp 437即可，然后再pip insta...

2018-07-12 10:08:03 1613

原创在win10自带Ubuntu16下搭建环境使用CLion2018进行C++开发

开发Linux下的C++应用，正好win10下有自带Ubuntu，又想用图形界面进行编码，选择Linux下的CLion，于是搭建环境如下：1. 安装Win10下的Ubuntu控制面板--程序--启动或关闭windows功能--适用于Linux的Windows子系统。设置--更新和安全--针对开发人员--开发人员模式进入“微软市场”搜索Ubuntu,选择安装16版本，安装完成后进入，...

2018-06-26 08:52:36 3308

1. 项目结构文件夹下的文件名要保持一致，但可以不同于文件夹。在app.json的pages里面设置新的page，IDE会自动生成该page目录即相关文件在app.json的pages里面第一个page默认为启动页面2. 页面组织结构[page_name].js：页面逻辑文件，用于创建页面对象，以及处理页面生命周期控制和数据处理[page_name].wxml：用于定义页面中元素结构，遵循xml语...

2018-04-26 19:33:32 568

原创用Flask构建站点基本框架和技术点

Flask作为Python在WEB建站的框架，比Djiango显得小巧灵活，使用也更加自由，笔者作为一个比较自由的使用者，偏好于Flask的适用，就此将其建站基本框架结构和其中部分技术点做简略描述。IDE：PyCharm数据库：MySQL1. 需要依赖的包Flask(Jinja, Werkzeug)Flask-MigrateFlask-MySQLdbFlask-SQLAlchemyFlask-Sc...

2018-04-25 16:16:03 1408

转载 git命令大全

本篇是转发的别人的，原文地址：http://www.ruanyifeng.com/blog/2015/12/git-cheat-sheet.html一般来说，日常使用只要记住下图6个命令，就可以了。但是熟练使用，恐怕要记住60～100个命令。下面是我整理的常用 Git 命令清单。几个专用名词的译名如下。Workspace：工作区Index / Stage：暂存区Repository：仓库区（或本地...

2018-04-10 14:08:56 253

原创 Python数据分析----数据预处理

数据预处理主要包括：数据清洗、数据集成、数据变换和数据规约。1. 数据清洗数据清洗主要是删除原始数据中的无关数据、重复数据，平滑噪音数据，筛选掉和挖掘主题无关的数据，处理缺失值和异常值。1.1. 缺失值处理处理缺失值数据方法有三类：删除记录、数据插补和不处理。其中数据插补方法如下：1）均值/中数值/众数插补：根据属性类型，用均值、中数值或众数进行插补。2）使用固定值：将缺失的属性值用一个常量替换。...

2018-04-04 15:36:23 2721 1

原创 Python数据分析----数据探索

1. 数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据：缺失值、异常值、不一致值、重复数据和含有特殊符号的数据。1.1. 缺失分析1）缺失的原因：有些信息无法获取或获取的代价过大有些信息是被遗漏属性值不存在2）缺失的影响数据挖掘建模将丢失大量有用信息数据挖掘模型所表现出的不确定性更加显著，模型中蕴含的规律更难把握包含空值的数据会使建模过程陷入混乱，导致不可靠的输出3）缺失值分析试用...

2018-04-04 09:23:24 1956

原创 Keras读书笔记----其他重要模块

1. 目标函数Objectives目标函数，或称损失函数，是编译一个模型必须的两个参数之一可以通过传递预定义目标函数名字指定目标函数，也可以传递一个Theano/TensroFlow的符号函数作为目标函数，该函数对每个数据点应该只返回一个标量值，并以下列两个参数为参数：y_true：真实的数据标签， Theano/TensorFlow张量y_pred：预测值，与y_true相同shape的Thea...

2018-03-30 21:38:33 2944

原创 Keras读书笔记----预处理

1. 序列预处理1.1. 填充序列pad_sequences将长为 nb_samples 的序列（标量序列）转化为形如 (nb_samples,nb_timesteps) 2D numpy array。如果提供了参数 maxlen ， nb_timesteps=maxlen ，否则其值为最长序列的长度。其他短于该长度的序列都会在后部填充0以达到该长度。keras.preprocessing.seq...

2018-03-30 20:53:36 1380

原创 Keras读书笔记----激活层、规范层、噪音层、包装器

1. 高级激活层1.1. LeakyReLU层LeakyRelU是修正线性单元（ Rectified Linear Unit， ReLU）的特殊版本，当不激活时， LeakyReLU仍然会有非零输出值，从而获得一个小梯度，避免ReLU可能出现的神经元“死亡”现象。keras.layers.advanced_activations.LeakyReLU(alpha=0.3)alpha：大于0的浮点数，...

2018-03-30 11:09:02 3214 1

原创 Keras读书笔记----递归网络层

1. 递归层Recurrent1.1. Recurrent层这是递归层的抽象类，请不要在模型中直接应用该层，所有的递归层（LSTM , GRU , SimpleRNN ）都服从本层的性质，并接受本层指定的所有关键字参数。keras.layers.recurrent.Recurrent(weights=None, return_sequences=False, go_backwards=False,...

2018-03-30 10:31:02 549

原创 Keras读书笔记----卷积层、池化层

1. 卷积层1.1. Convolution1D层一维卷积层，用以在一维输入信号上进行邻域滤波。当使用该层作为首层时，需要提供关键字参数 input_dim 或 input_shape 。keras.layers.convolutional.Convolution1D(nb_filter, filter_length, init='uniform', activation='linear', we...

2018-03-29 18:10:58 5355 1

原创 Keras读书笔记----网络层（Core常用层）

1. 所有层共有方法layer.get_weights() ：返回层的权重（ numpy array）layer.set_weights(weights) ：从numpy array中将权重加载到该层中，要求numpy array的形状与get_weights的形状相同layer.get_config() ：返回当前层配置信息的字典，层也可以借由配置信息重构from keras.utils.lay...

2018-03-29 11:33:10 5403

原创 Keras读书笔记----模型

1. 模型共有方法1.1. summary打印出模型概况1.2. get_config返回包含模型配置信息的Python字典。模型也可以从它的config信息中重构回去：Model.from_config(config)1.3. get_weights set_weights返回模型权重张量的列表，类型为numpy array从numpy array里将权重载入给模型，要求形状相同1.4. to...

2018-03-28 22:38:46 1558

原创 Matplotlib使用笔记----中文字体显示

1. 查询matplotlib系统中文字体from matplotlib.font_manager import fontManager import os fonts = [font.name for font in fontManager.ttflist if os.path.exists(font.fname) and os.stat(font.fname).st_size>1e...

2018-03-26 11:21:32 2373

原创 Matplotlib使用笔记----图像及布局

1. figurefigure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True)num:图像编号或名称，数字为编号，字符串为名称figsize:指定figure的宽和高，单位为英寸；dpi参数指定绘图对象的分辨率，即每英寸多少个像素，缺省值为80facecolor:背景颜色edgecol...

2018-03-26 10:49:37 499

原创 scikit-learn笔记----对数据分类

1. 决策树实现基本的分类from sklearn import datasetsX, y = datasets.make_classification(n_samples=1000, n_features=3, n_redundant=0)from sklearn.tree import DecisionTreeClassifierdt = DecisionTreeClassifier()...

2018-03-21 16:57:36 842

原创 scikit-learn笔记----使用距离向量构建模型

1. KMeans 对数据聚类from sklearn.datasets import make_blobsblobs, classes = make_blobs(500, centers=3)from sklearn.cluster import KMeanskmeans = KMeans(n_clusters=3)kmeans.fit(blobs)import matplotli...

2018-03-21 10:59:06 680

原创 scikit-learn笔记----处理线性模型

1. 线性回归模型from sklearn import datasetsfrom sklearn.linear_model import LinearRegressionboston = datasets.load_boston()# LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)...

2018-03-20 22:16:36 561

原创 scikit-learn笔记----预处理Preprocessing

1. 从外部获取样本数据scikit-learn的内置数据库在 datasets 模块里。datasets 模块主要有两种数据类型。较小的测试数据集在 sklearn 包里面，可以通过 datasets.load_*获取，另外一些数据集需要通过 datasets.fetch_* 下载。from sklearn import datasetsboston = datasets.load_bosto...

2018-03-19 20:40:06 976

原创 DStream----Spark Streaming操作

DStream 是随时间推移而收到的数据的序列。每个时间区间收到的数据都作为 RDD 存在，而 DStream 是由这些 RDD 所组成的序列（因此得名“离散化”）。 DStream 可以从各种输入源创建，比如 Flume、 Kafka 或者 HDFS。创建出来的 DStream 支持两种操作，一种是转化操作（ transformation），会生成一个新的DStream，另一种是输出操作（ ou...

2018-03-19 12:16:10 326

原创 Schema RDD（DataFrame）----Spark SQL操作

SchemaRDD是存放 Row 对象的 RDD，每个 Row 对象代表一行记录。 SchemaRDD 还包含记录的结构信息（即数据字段）。 SchemaRDD 看起来和普通的 RDD 很像，但是在内部， SchemaRDD 可以利用结构信息更加高效地存储数据。此外， SchemaRDD 还支持 RDD 上所没有的一些新操作，比如运行 SQL 查询。 SchemaRDD 可以从外部数据源创建，也...

2018-03-19 12:11:36 2142

原创 Pair RDD----键值对操作

Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为 pair RDD。 PairRDD 是很多程序的构成要素，因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。1. 创建Pair RDD很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的 pair RDD。此外，当需要把一个普通的 RDD 转为 pair RDD 时，可以调用 map() ...

2018-03-19 11:16:55 566 1

原创 Spark与机器学习----推荐引擎

推荐引擎很适合如下两类常见场景（两者可兼有）：可选项众多：可选的物品越多，用户就越难找到想要的物品。如果用户知道他们想要什么，那搜索能有所帮助。然而最适合的物品往往并不为用户所事先知道。这时，通过向用户推荐相关物品，其中某些可能用户事先不知道，将能帮助他们发现新物品。偏个人喜好：当人们主要根据个人喜好来选择物品时，推荐引擎能利用集体智慧，根据其他有类似喜好用户的信息来帮助他们发现所需物品。推荐模型...

2018-03-10 21:54:36 599

原创 Spark与机器学习----数据的获取、处理与准备

1. 数据获取常用公开数据集：UCL机器学习知识库：包括近300个不同大小和类型的数据集，可用于分类、回归、聚类和推荐系统任务。数据集列表位于： http://archive.ics.uci.edu/ml/。Amazon AWS公开数据集：包含的通常是大型数据集，可通过Amazon S3访问。相关信息可参见： http://aws.amazon.com/publicdatasets/。Kagg...

2018-03-10 19:09:09 1249

原创 RDD----Spark编程读书笔记

Spark 核心的概念是 Resilient Distributed Dataset (RDD)：一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs：第一种是在你的驱动程序中并行化一个已经存在的集合；另外一种是引用一个外部存储系统的数据集，例如共享的文件系统，HDFS，HBase或其他Hadoop 数据格式的数据源。1. 并行集合并行集合 (Parallelized collect...

2018-03-09 12:18:53 271

转载转载Pandas用法汇总

一、生成数据表 1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：import numpy as npimport pandas as pd2、导入CSV或者xlsx文件：df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))3、用p...

2018-03-06 15:13:04 250

转载用睡觉这件事玩转贝叶斯推断

贝叶斯推断的基本思想是通过更多数据，从而"犯少一点错误"。推断过程很直接：我们首先有一个初始信念，被称为先验，当我们获得额外的信息后可以对这个信念进行修正更新。虽然我们并不知道这个过程就是贝叶斯推断，但是我们一直都在使用这个技巧。举个例子，我们可能一开始认为我们有百分之五十的可能性会在本季度末升职。如果我们从经理那得到正面的反馈，那么我们就向上调整升职可能性，而相反地，如果我们把咖...

2018-03-05 10:51:05 478

原创部分基本数学概念记录

1. 统计学概念1.1. 数学期望数学期望就是平均值，描述的是样本集合的中间点1.2. 标准差描述的是样本集合的各个样本点到均值的距离之平均1.3. 方差方差就是标准差的平方1.4. 协方差标准差和方差一般是用来描述一维数据的，但现实生活中我们常常会遇到含有多维数据的数据集，协方差来度量各个维度偏离其均值的程度（公式参照方差定义）协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的（从协...

2018-03-03 20:04:31 193

转载协同过滤算法----隐语义模型

1. 协同过滤（CF）协同过滤分基于用户和基于物品的协同过滤，不管哪种方式，计算步骤如下：I. 收集用户偏好II. 找到相似的用户或物品III. 计算推荐所谓的用户偏好就是：用户与物品之间的联系，如评分、投票、转发、保存书签、标记标签等用户行为。所谓的相似用户（或物品）就是：计算向量间的相似度。举例如下：有用户ABCDE，以及他们对商品1和商品2的打分，建立笛卡尔坐标系，横轴是用户对商品1的评分，...

2018-03-03 10:45:57 3582

转载协同过滤算法总结

1. 推荐算法概述　　　　推荐算法是非常古老的，在机器学习还没有兴起的时候就有需求和应用了。概括来说，可以分为以下5种：　　　　1）基于内容的推荐：这一类一般依赖于自然语言处理NLP的一些知识，通过挖掘文本的TF-IDF特征向量，来得到用户的偏好，进而做推荐。这类推荐算法可以找到用户独特的小众喜好，而且还有较好的解释性。这一类由于需要NLP的基础，本文就不多讲，在后面专门讲NLP的时候再讨论。　　...

2018-03-02 22:30:14 703

原创 Scrapy框架----爬虫读书笔记

制作Scrapy爬虫，最基础的需要四步：新建项目scrapy startproject Movies 自动生成一个名为“Movies”的爬虫项目scrapy genspider getmovies movie.douban.com自动生成一个名为“getmovies”的爬虫整个项目目录结构如下：定义目标数据编辑items.py文件，定义需要获取数据的结构，该结构操作类似字典操作import...

2018-03-01 10:43:58 194

原创概述推荐系统----推荐系统读书笔记

1. 什么是推荐系统？ 1.1. 为了解决信息过载（Information overload） 1.2. 发掘物品的长尾（long tail）推荐系统就是自动联系用户和物品的一种工具，它能够在信息过载的环境中帮助用户发现他们感兴趣的信息，也能将信息推送给它们感兴趣的用户。2. 个性化推荐系统的应用 2.1. 电子商务 2.2. 电影和视频网站 2.3. 个性化音乐网络电台 2.4....

2018-02-26 23:25:26 326

原创支持向量机SVM----机器学习读书笔记

优点：泛化错误率低，计算开销不大，结果易解释。缺点：对参数调节和核函数的选择敏感，原始分类器不加修改仅适用于处理二类问题。适用数据类型：数值型和标称型数据。流程：(1) 收集数据：可以使用任意方法。 (2) 准备数据：需要数值型数据。 (3) 分析数据：有助于可视化分隔超平面。 (4) 训练算法： SVM的大部分时间都源自训练，该过程主要实现两个参数的调优。 (5) 测试算法：十分简单的计算过程就...

2018-02-25 10:23:37 208

原创 Logistic回归----机器学习读书笔记

优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。适用数据类型：数值型和标称型数据。线性回归，采用梯度上升优化，类似于单层BP神经网络（BP采用梯度下降法）实现代码如下：import numpy as npimport matplotlib.pyplot as plt#获取数据集def loadDataSet(): #假设回归线为y=0.5x+0.3,回归线上...

2018-02-12 20:29:58 225

原创朴素贝叶斯----机器学习读书笔记

优点：在数据较少的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备方式较为敏感。适用数据类型：标称型数据。使用朴素贝叶斯进行文档分类，步骤：获取原始数据集（语句）和相应标签（文档的分类）将原始数据集进行分词处理（英文以空格为分割），处理掉标点等其它符号，生成单词数组通过单词数组生成词汇表（统计所有单词，除去重复，并生成列表）将原始数据集通过词汇表转换为文档向量（向量长度为词汇表长度，语...

2018-02-11 17:47:48 192

原创决策树----机器学习读书笔记

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题。适用数据类型：数值型和标称型。步骤：收集原始数据集（数据向量及特征标签），数据向量最后一项为分类标签以分类标签为基准，计算该原始数据集的熵E0根据特征标签，分别计算按特征划分数据集后的子数据集的熵Ei，E0-Ei为该划分的信息增益，选择信息增益最大的划分（这表示该划分熵最小，最有序）...

2018-02-11 11:03:31 173

mp3剪切工具

dsoframer控件（在线编辑Office文档）

Photoshop抠图神器插件

TCP-IP详解卷三：TCP事务协议，HTTP，NNTP和UNIX域协议

TCP-IP详解卷二：实现

TCP-IP详解卷一：协议

空空如也