江流静一-CSDN博客

原创 mysql/hive实现lead()不同偏移量数据

由于MySQL中不带有LEAD()函数功能，因此，参考着一篇已有的文档实现了不同偏移量的功能原文链接地址：mysql的lag和Lead函数本文对比了hive和MySQL实现该功能的方式：Hive实现方法PS :空值处设置为NULLselect *from ( select orders as col_0, lead...

2020-02-06 17:09:02 1512

本文转自：点击打开链接Gradient boosting Decision Tree(GBDT)　　GB算法中最典型的基学习器是决策树，尤其是CART，正如名字的含义，GBDT是GB和DT的结合。要注意的是这里的决策树是回归树，GBDT中的决策树是个弱模型，深度较小一般不会超过5，叶子节点的数量也不会超过10。Xgboost　　Xgboost是GB算法的高效实现，xgboost中的基学习器除了可以...

2018-07-10 10:36:22 5042

转载 Python中Gradient Boosting Machine(GBM）调参方法详解

转载链接点击打开链接

2018-07-09 17:53:01 652

转载学习法之Stacking

本文转载自：详解stacking过程之前一直对stacking一知半解，找到的资料也介绍的很模糊。。所以有多看了几篇文章，然后来此写篇博客，加深一下印象，顺便给各位朋友分享一下。stacking的过程有一张图非常经典，如下：虽然他很直观，但是没有语言描述确实很难搞懂。上半部分是用一个基础模型进行5折交叉验证，如：用XGBoost作为基础模型Model1，5折交叉验证就是先拿出四折作为trainin...

2018-07-06 10:47:00 591

原创逻辑回归

逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。Sigmod函数优点输出范围有限，数据在传递的过程中不容易发散。输出范围为(0,1)，所以可以用作输出层，输出表示概率。sigmoid将一个real value映射到（0,1）的区间，用来做二分类。通过在线性回归模型中引入Sigmoid函数，将线性回归的不确定范围的连续输出值映...

2018-06-18 22:22:26 313

转载 bagging总结

Bagging主要关注降低方差，因此它在不剪枝决策树，神经网络等易受样本扰动的学习器上效用更为明显。Bagging基于自助采样法(bootstrap sampling)。给定包含m个样本的数据集，先随机取出一个样本放入采样集中，再把该样本放回初始数据集，使得下次采样时该样本仍有可能被选中。这样，经过m次随机采样操作，我们得到含m个样本的采样集，初始训练集中有的样本再采样集里多次出现，有的则从未出现...

2018-06-18 16:14:34 1293

转载 adaboost总结

本文参考文章算法分析　　该算法其实是一个简单的弱分类算法提升过程，这个过程通过不断的训练，可以提高对数据的分类能 Adaboost力。整个过程如下所示：　　 1. 先通过对N个训练样本的学习得到第一个弱分类器；　　 2. 将分错的样本和其他的新数据一起构成一个新的N个的训练样本，通过对这个样本的学习得到第二个弱分类器；　　 3. 将1和2都分错了的样...

2018-06-18 15:21:59 750

原创线性回归总结

假设，对于给定一个样本集现需要找到一条线去尽可能拟合这些点，对于某一点x(i),满足设这条线的方程是，：我们引入表示第个输入值，每个输入值有个数据，我们假设一共有个输入值，完整的输入值就是一个的矩阵，表示未知参数，表示输出值。因为输入值与输出值呈现一定的线性关系，所以：，其中是截距(误差项)。接着，我们假设所有的都服从期望为，方差为的正态分...

2018-06-17 21:46:05 434

原创 SVM总结

目标：对于给定的样本集，想办法使用一条线（二维）或者超平面将不同类别的样本尽可能分开。划分超平面具有最强的鲁棒性。即：以二分类为例，目标是找到距离最近的两类样本点距离最远的分割面。样本空间中，划分超平面：，该超平面可被w和b确定。其中：，是法向量，决定超平面的方向；b是位移项，决定了超平面和原点间的距离。1、考虑到正负样本，任意点x到超平面的距离为2、若能分类正确，表示对于...

2018-06-17 19:15:57 1292

原创 leetcode——442Find All Duplicates in an Array

题目链接：https://leetcode.com/problems/find-all-duplicates-in-an-array/description/Python解法# coding: utf-8# ### final-best# In[5]:# 方法一# bestclass Solution(object): def findDuplicates(self, nu...

2018-03-07 14:19:15 210

原创 leetcode——34search-for-a-range

题目链接：https://leetcode.com/problems/search-for-a-range/description/python实现本题以下有多种解法，各个解法差别不大，但是，运行效率有一些差别# 39.47% best这里的百分号表示效率class Solution(object): def searchRange(self, nums, target): ...

2018-03-07 14:15:34 315

原创 leetcode——17 Letter Combinations of a Phone Number

题目链接：https://leetcode.com/problems/letter-combinations-of-a-phone-number/description/Python实现class Solution(object): def letterCombinations(self, digits): dicts = {'0': [''], ...

2018-03-07 14:09:07 267

原创 leetcode——14longest-common-prefix

leetcode题目链接：https://leetcode.com/problems/longest-common-prefix/description/python实现方法一：class Solution(object): def longestCommonPrefix(self, strs): lens = len(strs) if lens==0: ...

2018-03-07 14:04:01 246

原创 python带权重的列表中随机取值

1 random.choicepython random模块的choice方法随机选择某个元素foo = ['a', 'b', 'c', 'd', 'e']from random import choiceprint choice(foo)2 random.sample使用python random模块的sample函数从列表中随机选择一组元素list = [1, 2, 3, 4, 5, 6,...

2018-03-07 13:57:34 9065 2

原创 python连接数据库及操作数据库

在数据分析过程中往往要操作较大的数据集，这就需要连接数据库进行操作import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom sqlalchemy import create_engineimport MySQLdb as msd# 先自定义函数将表格写入数据库里，以备操作过程中有些数据要写入数...

2018-02-27 17:02:08 7687

原创 python画图——如何在图上标注上具体数值

比如当前的表格数据是df['resultRate'].plot(style='-.bo')plt.grid(axis='y') #设置数字标签**for a,b in zip(df['num'],df['resultRate']): plt.text(a, b+0.001, '%.4f' % b, ha='center', va= 'bottom',fontsize=9)plt.s...

2018-02-23 21:34:14 60245 1

原创 kaggel_手写数字识别

本文是博主基于之前练手Kaggle上手写数字识别的入门分析而做的个人总结此案例是读者经过研究多个Kaggle上大神的kernel经验，加上个人的理解，再加入百分之一的运气得到的结果此案例的亮点在于数据降维部分，以及使用深度学习中的卷积神经网络模型亮瞎了博主的眼球~~~~本案例是博主两三个月前做的结果，当时排名进了5%，然鹅，长江后浪推前浪，现在估计掉下去了不少，但是本篇文章旨在分析总结经验，结果...

2018-02-23 21:29:16 788 1

原创 kaggle_房价预测

本文是博主基于之前练手Kaggle上泰坦尼克的入门分析而做的个人总结此案例是读者经过研究多个Kaggle上大神的kernel经验，加上个人的理解，再加入百分之一的运气得到的结果此案例的亮点在于特征工程部分，对于变量的处理及属性的构造的姿势值得学习~~~0 简介关于这个案例，具体的介绍及简介，见Kaggle官网上的数据，内容很全，唯一一个要必须提到的是，官网上的关于变量的解释均是英文的，作...

2018-02-23 10:30:51 26210 14

原创 kaggle_泰坦尼克分析

本文是博主基于之前练手Kaggle上泰坦尼克的入门分析而做的个人总结。此案例是读者经过研究多个Kaggle上大神的kernel经验，加上个人的理解，得到的结果此案例的亮点在于数据探索部分及后续的模型优化上，博主第一次见识到了数据探索时利用seaborn和go包画出的各种数据分析图像的美腻。话不多说~开始~0 简介关于这个案例，具体的介绍及简介，见Kaggle官网上的数据，内容很全，唯一...

2018-02-22 19:59:06 2594 2

原创自定义十折交叉验证

本文是《Python数据分析与挖掘》中第六章的补充代码# 1> 数据划分取20%做测试样本，剩下做训练样本import pandas as pdimport numpy as npdt = pd.read_excel('model.xls')simpler = np.random.permutation(len(dt))dt = dt.take(simpler) #导入随机...

2018-02-15 00:35:21 4579

原创欢乐颂小说的文本基础的数据处理工作

闲来无事写点小程序自己乐呵乐呵~~~~背景：欢乐颂2刚播出那会，每周更新的太慢，所以想起去翻看欢乐颂的小说，然后，三分钟热度，想起对欢乐颂中的数据进行处理一番，原来还假想可能会发现一些好玩的，后来因为某些原因不了了之了，但是，刚开始那份低热所学习到的东西倒是让我有着想要记录下来的念想。# -*-coding:utf-8-*-import reimport jiebaimport os...

2018-02-14 23:37:48 358

原创将多个txt中的文件读写到一个TXT文件中

闲来无事写点小程序自己乐呵乐呵~~~~背景：笔者去年暑假的时候为了督促自己学习，养成了使用TXT文件来记录每天的点滴，目的是提醒自己一直在努力，不要迷茫。但是暑假结束后，想要看看这个暑假自己一共做了啥，因此就想到了写一个小程序将这些日记都读到一个文件里面去，方便直观查看。为此，首先要解决的是——使用实现读取目录所有文件的文件名并保存到txt文件代码。通过查阅资料并总结有两种方法：...

2018-02-14 23:02:28 2089

原创《Python数据分析与挖掘实战》第15章——文本挖掘

本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。旨在回顾对评论文本数据的处理和建模方法。1 挖掘背景与目标对京东平台上的热水器评论进行文本挖掘分析，挖掘建模如下：1）分析某一个品牌热水器的用户情感倾向2）从评论文本中挖掘出该品牌热水器的优点和不足3）提炼不同品牌热水器的卖点2 数据探索与预处理2.1 数据筛选# -*- cod...

2018-02-14 10:51:22 4004 4

原创《Python数据分析与挖掘实战》第14章——层次聚类

本文是基于《Python数据分析与挖掘实战》的实战部分的第14章的数据——《基于基站定位数据的商圈分析》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码。在作者所给代码的基础上增加的内容包括： 1）探索了不同的method取值而画出的谱系聚类图的不同1 挖掘背景及目标从某通信运营商提供的特定接口解析得到用户的定位数据。利用基站小区的覆盖范围作为商圈区域的划分，归纳出商圈...

2018-02-14 10:14:15 2271

原创《Python数据分析与挖掘实战》第13章——回归+DNN

本文是基于《Python数据分析与挖掘实战》的实战部分的第13章的数据——《财政收入影响因素分析及预测模型》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码。在作者所给代码的基础上增加的内容包括： 1）探索了灰色预测的原理 2）画出预测结果图3）由于书中使用的是AdaptiveLasso，但是没有找到该函数，所以采用了其他变量选择模型1 挖掘背景及目标根据1994-20...

2018-02-14 09:58:04 5037 3

原创《Python数据分析与挖掘实战》第12章(下)——协同推荐

本文是基于《Python数据分析与挖掘实战》的实战部分的第12章的数据——《电子商务网站用户行为分析及服务推荐》做的分析。由于此章内容很多，因此，分为三个部分进行分享——数据探索（上）、数据预处理（中）、模型构建（下）本文是继前一篇文章，进行的工作。本文是“模型构建（下）”部分本文将介绍三种推荐：基于物品的协同过滤推荐、随机推荐、按照流行度推荐# 读取数据库数据——模型数据1——婚姻数据（1682...

2018-02-14 08:51:23 3890 9

原创《Python数据分析与挖掘实战》第12章(中)——协同推荐

本文是基于《Python数据分析与挖掘实战》的实战部分的第12章的数据——《电子商务网站用户行为分析及服务推荐》做的分析。由于此章内容很多，因此，分为三个部分进行分享——数据探索（上）、数据预处理（中）、模型构建（下）本文是继前一篇文章，进行的工作。本文是“数据预处理（中）”部分1 数据清洗1.1 查看各个需要删除的规则包含的信息# 删除规则1：统计中间类型网页（带midques_关键字）#...

2018-02-14 07:31:16 3141 7

原创《Python数据分析与挖掘实战》第11章——时间序列

本文是基于《Python数据分析与挖掘实战》的实战部分的第11章的数据——《应用系统负载分析与磁盘容量预测》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码；在作者所给代码的基础上增加的内容包括： 1)数据探索时画C盘/D盘已使用空间的时序图，并根据自相关和偏相关图判定平稳性，确定了所用模型是采用ARMA或者ARIMA，而不是AR或者MA；2)模型构建构建基于ARIMA或者A...

2018-02-11 23:24:44 12438 6

原创《Python数据分析与挖掘实战》第10章（下）——DNN

本文是基于《Python数据分析与挖掘实战》的实战部分的第10章的数据——《家用电器用户行为分析与事件识别》做的分析。接着前一篇文章的内容，本篇博文重点是处理用水事件中的属性构造部分，然后进行构建模型分析。1 属性构造由文中可知：需要构造的属性如下：热水事件起始数据编号、终止数据编号、开始时间（begin_time）、根据日志判断是否为洗浴（1表示是，0表示否）、洗浴时间点、总用水...

2018-02-11 22:17:01 2602 2

原创《Python数据分析与挖掘实战》第10章（上）——DNN

本文是基于《Python数据分析与挖掘实战》的实战部分的第10章的数据——《家用电器用户行为分析与事件识别》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码；另外，原文中的数据处理部分排版先后顺序个人感觉较为凌乱，在此给出梳理。在作者所给代码的基础上增加的内容包括： 1）在数据规约部分：书中提到：规约掉热水器"开关机状态"=="关"且”水流量”==0的数据，说明热水器不处于...

2018-02-11 14:25:46 3993 3

原创《Python数据分析与挖掘实战》第9章——svm

本文是基于《Python数据分析与挖掘实战》的实战部分的第9章的数据——《基于水色图像的水质评价》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码。在作者所给代码的基础上增加的内容包括： 1）数据预处理部分：切割图片、使用颜色矩方法进行特征提取 2）画混淆矩阵图备注：水质图像的下载链接：http://pan.baidu.com/s/1geRwH4v 密码：7n721 背景与目标...

2018-02-09 23:47:16 2764 6

原创《Python数据分析与挖掘实战》第8章——Apriori关联规则

本文是基于《Python数据分析与挖掘实战》的实战部分的第八章的数据——《中医证型关联规则挖掘》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码。主要有：1）将原始数据按照聚类结果进行标记类别1 背景与目标分析此项目旨在根据相关数据建模，获取中医证素与乳腺癌TNM分期之间的关系。2 数据预处理2.1 数据变换2.1.1 数据离散化datafile = 'data.xls...

2018-02-09 20:25:16 3133 1

原创《Python数据分析与挖掘实战》第7章——kmeans

本文是基于《Python数据分析与挖掘实战》的实战部分的第七章的数据——《航空公司客户价值分析》做的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码。 1）在数据预处理部分增加了属性规约、数据变换的代码2）在模型构建的部分增加了一个画出雷达图的函数代码1 背景与目标分析此项目旨在根据航空公司提供的数据，对其客户进行分类，并且比较不同类别客户的价值，为能够更好的为客户提供个性...

2018-02-09 20:17:03 5012 2

原创《Python数据分析与挖掘实战》第6章——LM+CART

本文主要是对《Python数据分析与挖掘实战》中的第6章——电力窃漏电用户自动识别数据进行的分析。旨在补充原文中的细节代码，并给出文中涉及到的内容的完整代码。1 背景与目标分析通过电力系统采集到的数据，提取出窃漏电用户的关键特征，构建窃漏电用户的识别模型。以实现自动检查、判断用户是否是存在窃漏电行为。2 数据探索分析及数据预处理2.1 数据特征分析根据文中表6-4及6-5的用电电量数据，进...

2018-02-09 13:42:28 3166 10

原创 Windows 10下keras+theano安装教程（极速）

Win10下keras+theano安装教程（极速）1 Keras简介：（1）Keras是一个高层神经网络API，Keras由纯Python编写而成并基于Tensorflow或Theano。Keras为支持快速实验而生，能够把你的idea迅速转换为结果，如果你有如下需求，请选择Keras：·简易和快速的原型设计（keras具有高度模块化，极简，和可扩充特性）·支持CNN和RNN，或

2017-07-13 10:52:03 9456 1

原创【利用Python进行数据分析——经验篇4】将多张DataFrame表写入到同一个Excel的不同sheet中

# 创建一个输出文件writer = pd.ExcelWriter('out.xlsx')data = pd.read_table('table_All_pivot.csv',sep=',')data.to_excel(writer,'table_All_pivot',index=False)sf_All = pd.read_table('sf_All.csv', sep=',' )sf_All....

2017-06-29 11:20:41 22512 8

原创【利用Python进行数据分析——经验篇3】如何操作DataFrame中的列的数据格式（转为百分数、保留4位小数）

本文中案例以【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战的实战数据为例备注：本文操作是使用ipython notebook进行的编译# 将DataFrame表中的浮点类型保留至小数点后四位# 自定义函数保留到小数点后四位f = lambda x: '%.4f' % x# 将aa 表的第21列到末尾的列的数据格式都保留到小数点后四位aa.ix[:,21:...

2017-06-28 20:21:07 10467 1

原创【利用Python进行数据分析——经验篇2】计算微博转发/评论/点赞h指数的Python代码

本文中记录了如何得出h指数的计算值微博转发/评论/点赞h指数：（定义），某博主如果他/她发表的N篇博文中有h篇每篇至少被h次转发/评论/点赞，而剩下的（N-h）篇博文中每篇被转发/评论/点赞次数均少于h次，则数值h则表示的是这个微博的转发/评论/点赞h指数。备注：本文中使用的是ipython交互式编辑器本文中案例以【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数...

2017-06-28 20:05:06 2730

原创【利用Python进行数据分析——经验篇1】将Excel表中几列合并到一列中

我们都知道，在Excel中可以很容易实现，采用‘A1&B1’ 或者利用CONCATENATE(A1&B1)方式可以实现，但是在Python的pandas包中，本人没有找到合适的用于连接表中两列的函数，因此本人使用了字符串连接的方式。本文中案例以【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战的实战数据为例首先查看该表格中各个列中的数据类型：...

2017-06-28 19:20:09 14657 1

原创【利用python进行数据分析——基础篇】利用Python处理和分析Excel表中数据实战

作为一个学习用Python进行数据分析的新手来说，通过本文来记录分享一些我在用Python中的pandas、numpy来分析Excel表中数据的数据清洗和整理的工作，目的是熟悉numpy以及pandas基础操作，所有操作利用Excel均可以方便实现。备注：本文中使用的是ipython完成的编辑数据来源及结构　　本文所分析的数据是通过爬虫抓取的微博数据。选取新浪微博为数据平台，选取我国34个省的旅游...

2017-06-28 15:09:32 130088 29

空空如也

空空如也