令狐公子-CSDN博客

转载 Python点滴(八)—pandas中的透视表

首先导入需要使用的numpy和pandas功能库，numpy用于数值计算，Pandas是基于numpy构建的用于科学计算的功能库，pandas.pivot_table是Pandas库(pd)中的函数。然后读取Lending Club数据，并生成名为lc的数据表。 1 2 3 importpandas as pd importnum...

2019-09-03 11:24:38 1147

原创 pandas之concat timestamp的使用

In [1]: import pandas as pdIn [2]: df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],'data1':range(7)})In [3]: df2 = pd.DataFrame({'key':['a','b','d'],'data2':range(3)})In [4]: df1Out[4]:...

2019-08-26 09:11:02 552

1、表：Hive中的表和关系型数据库中的表在概念上很类似，每个表在HDFS中都有相应的目录用来存储表的数据，这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置，这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上)，我们可以根据实际的情况来修改这个配置。如果我有...

2019-02-18 11:42:41 530

原创 MachineLearning—集成学习（Ensemble Learning）

集成学习是提高模型鲁棒性的重要方法，在数据、特征处理之后的阶段，如果在算法方面没有提升，可以尝试在模型集成方面发力，可以收到意想不到的结果。但并不是使用集成学习方法就一定会提高结果。例如stacking方法，理论讲其结果渐进等价于第一层最优子模型结果，使用stacking至少不会大幅度降低模型效果。一、投票方法常用的有软投票和硬投票两种，例如，支持向量机可以输出各个样本属于某一类的概率，将...

2019-02-13 17:44:50 1338 2

原创 Kaggle - Bike Sharing Prediction

import pylabimport calendarimport numpy as npimport pandas as pdimport seaborn as snfrom scipy import statsimport missingno as msnofrom datetime import datetimeimport matplotlib.pyplot as plt...

2019-02-13 17:43:18 558

原创 Pandas 速查

如果不归一化，各维特征的跨度差距很大，目标函数就会是“扁”的，图中椭圆表示目标函数的等高线，两个坐标轴代表两个特征。在进行梯度下降的时候，梯度的方向就会偏离最小值的方向，走很多弯路。归一化后，那么目标函数就变“圆”了，每一步梯度的方向都基本指向最小值，可以大踏步地前进，每一步梯度的方向基本都指向最小值，可以大踏步的前进。a="from.US.NY"print('-'.join(a.sp...

2019-02-13 17:39:48 411

原创使用sklearn - 特征工程

特征处理是特征工程的核心，sklearn提供了较为完整的特征处理方法！本文中使用sklearn中的IRIS数据集来对特征处理功能进行说明。IRIS包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。目标值为鸢尾花的分类（Iris Setosa（山鸢尾）...

2019-01-23 20:13:57 366

原创二分查找

def binary_search(list,item): low = 0 high = len(list)-1 while low<=high: mid = (low+high)/2 guess = list[mid] if guess>item: high = mid-1 ...

2018-08-24 16:04:48 768

原创 Linux下Anaconda的安装

安装文件可以在清华镜像上面直接下载，本文中使用的安装包如下所示：将工作路径切换到Anaconda3-4.4.0-Linux-x86_64.sh所在目录，执行命令bash Anaconda3-4.4.0-Linux-x86_64.sh之后...

2018-08-07 23:16:39 466

原创 Hive_SQL（四）

CREATE TABLE pi_cust_item_recommend8( > ADVISE_ID VARCHAR(30), > CUST_CODE VARCHAR(30), > CGT_CODE VARCHAR(30), > CRT_DATE VARCHAR(8), > NOTICE VARCHAR(3), >...

2018-08-01 22:58:45 1251

原创 Hive_SQL（三）

hive> SELECT pi_cust_item_recommend2.cust_id, pi_cust_item_recommend2.item_id, pi_cust_item_recommend2.advise_level,pi_cust_item_recommend3.cust_code FROM pi_cust_item_recommend2, pi_cust_item_rec...

2018-08-01 22:25:04 1763

原创 Hive_SQL（二）

hive> create table pi_cust_item_recommend2( > cust_id string, > item_id bigint, > advise_level double > ) > partitioned by( > ymday string) > ;O...

2018-08-01 22:03:36 1112

原创 Hive_SQL（一）

Last login: Tue Aug 29 09:11:12 2017 from 10.72.37.75[root@bdddev-agent-205 ~]# su hive[hive@bdddev-agent-205 root]$ cd[hive@bdddev-agent-205 ~]$ hive2017-08-30 08:56:44,327 WARN [main] conf.Hiv...

2018-08-01 21:05:49 813

原创 Vim_Linux指令_Git

cp /usr/inspur/2.5.0.0-1245/spark2/python/spark_recommend.py /usr/inspur/2.5.0.0-1245/spark2/python/pysparkYou have mail in /var/spool/mail/root用vim写代码时，经常遇到这样的场景，复制多行，然后粘贴。这样做：1. 将光标移动到要复制的...

2018-07-24 23:10:31 441

原创 SQL-结构化查询语言

数据库语言分类：根据功能不同，可以将数据库系统提供的语言分成三种类型：1）数据定义语言（DDL），用于定义数据库模式；2）数据操纵语言（DML），用于对数据库进行查询和更新；3）数据控制语言（DCL），用于对数据进行权限管理。数据库模式：根据数据的不同抽象层次，数据库有三级模式：物理模式（内模式）在物理层描述数据库中全体存储结构和存取方法，而逻辑模式（概念模式）则在逻辑层描述数据...

2018-07-24 16:27:53 4651 2

转载 MachineLearning—Singular Value Decomposition(SVD)

奇异值分解(SVD)原理与在降维中的应用　　　　奇异值分解(Singular Value Decomposition，以下简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。 1. 回顾特征值和特征向量...

2018-07-18 23:49:07 499

原创 MachineLearning—Random Forest实现 python

在scikit-learn中，RandomForest的分类类是RandomForestClassifier，回归类是RandomForestRegressor，需要调参的参数包括两部分，第一部分是Bagging框架的参数，第二部分是CART决策树的参数。Bagging框架的参数和GBDT对比，GBDT的框架参数比较多，重要的有最大迭代器个数，步长和子采样比例，调参起来比较费力。但是RF则...

2018-07-18 11:15:27 1065

原创 MachineLearning—随机森林(Random Forest)

　　随机森林（Random Forest，简称RF）到底是怎样的一种算法呢？如果读者接触过决策树（Decision Tree）的话，那么会很容易理解什么是随机森林。随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”...

2018-07-18 11:02:37 1481

原创 MachineLearning—CART分类回归树python应用实现

# -*- coding: utf-8 -*- from numpy import * import numpy as np import pandas as pd from math import log import operator import re from collections import defaultdictimport itertools...

2018-07-18 10:53:12 843

原创 MachineLearning—Decision Tree(DT)

决策树模型主要分为分类树和回归树两类，这里我们首先主要介绍分类树。它是一种描述对实例进行分类的树形结构，决策树由结点和有向边组成，而结点分为内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。决策树学习的本质是从训练数据集上归纳出一组分类规则，是特征空间的一个划分，决策树学习的损失函数通常是正则化的极大似然函数，但是基于损失函数最小化找到全局最优决策树是NP完全问题，所以实际使用的...

2018-07-18 10:06:04 856

原创 MachineLearning—L1、L2正则化介绍

防止过拟合，也是为了限制模型的复杂度，避免将噪声也学习进去，通常考虑如下方法来限制惩罚模型： 0范数，向量中非零元素的个数最小，|W|01范数(L1正则)，为绝对值之和最小。2范数(L2正则)，就是通常意义上的模。正则化Regularization，常用的机器学习损失函数后面都会多一个项，这个惩罚项目的是为了对损失函数中的某些参数做一些限制（防止过拟合有时也会从减小W=(...

2018-07-18 09:53:33 1542

原创 MachineLearning—GBDT实践及参数

import pandas as pdimport numpy as npfrom sklearn.ensemble import GradientBoostingClassifierfrom sklearn import cross_validation, metricsfrom sklearn.grid_search import GridSearchCVimport matplo...

2018-07-18 09:45:43 495

原创 MachineLearning—AdaBoost算法代码应用实现

AdaBoost包含分类和回归两类，即AdaBoostClassifier和AdaBoostRegressor，其中分类使用了两种算法即SAMME和SAMME.R，在对AdaBoost算法进行调参时，主要包括两个部分。第一个是AdaBoost框架调参，另一个是对我们选择的弱分类器进行调参。下面以分类算法为例讲解。 base_estimator：弱学习器，默认一般是CART分类回归树，即De...

2018-07-18 09:35:48 568

原创 MachineLearning—Adaboost原理与Gradient Boost Decision Tree梯度提升树

Adaboost通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合来提高分类的性能。其基本思想是将多个专家的判断进行适当的综合所得到的判断比单个专家的判断结果更优。在日常的算法应用场景中，发现弱学习算法通常要比发现强学习算法容易的多，那么如何有效提升这些弱学习算法的性能便成为了重点研究课题。对于分类问题，给定一个训练样本集，首先求得一些粗糙的分类规则即弱分类器，然后通过反复学习...

2018-07-18 09:11:55 1118

原创 tSNE—高维数据降维可视化（实践部分）-Kmeans聚类

零售户聚类

2018-07-03 22:28:25 20477 2

原创 C++学习之路（二）

C++

2018-07-03 17:24:03 749 1

原创 C++学习之路（一）

using name space;std::cout std::endl 名称空间std short的范围是【-32768,32767】 unsigned short范围【0,65535】注意上下溢出cout.setf(ios_base::fixed,ios_base::floatfield); //setf()主要用来修改结果的显示方式ios_base::fixed是设置cout为定点输出格式ios_base::floatfield是设置输出时按浮点格式，小数点后有6位数字；注意

2018-07-03 17:21:45 8011 1

原创 tSNE—高维数据降维可视化（理论部分）

t-SNE是一种降维方法，PCA主成分分析、LDA等属于线性降维，t-SNE属于非线性降维，是一种流形学习方法（Manifold Learning）。如图所示的曲面上，两点之间的欧式距离为红色虚线所示，蓝色实线为两点之间的测地线距离，第二张图为KNN图，展开后如第三张图所示。两点之间的最短距离为蓝色实线所示，但实际应用中，真实最短距离较难获得，一般通过构造KNN图寻找最短路径作为近似。构建二维空间...

2018-07-03 14:53:25 17451 2

原创矩阵的秩、矩阵分解概念

首先来想一个问题，最初的那个人为什么为什么要叫他为“秩”，为什么不叫“猪”“牛”“马”？举个例子就很容易理解，大家排队买票。如果大家互相不认识，那就会一个排一个，非常有秩序。然而，如果突然来了一个与队伍前面的人认识的人，这个人又不自觉，非要插队。那后面的人肯定要有意见了，说你要是这样我前面还有认识的人呢，你插我也插，这样整个队伍就乱掉了，谁也买不成。通过这个例子，可得以下结论：彼此不认识，那就

2018-07-03 12:05:10 3569

原创 Dask-大规模数据存储与读取、并行计算

在进行大规模的数据分析时，本机的内存往往不够，同时又不想使用spark等大数据工具的话，Dask是一个不错的替代选择。而且它的api使用跟pandas很相似，对于从pandas数据分析过渡来的使用起来非常方便。下面我们基于亚马逊用户音乐评论数据，使用Dask读取操作数据，画用户评论词云。#-------Dask解决方案-------#import dask.bag as dbimport uj...

2018-07-02 16:19:42 14984

原创海量数据处理相关算法简介

https://www.jianshu.com/p/c862130f322d dask词云https://juejin.im/entry/5aa79a55518825558453ac10#dask.dataframe.DataFrame.apply dask numba加速https://blog.csdn.net/xiaopihaierletian/artic...

2018-06-20 20:46:12 565

转载机器学习算法应用场景实例

2018-05-25 09:39:32 7123

原创 NLP—文本相似度算法BM25

BM25算法，通常用来做检索相关性评分。首先对一个查询Query进行分词得qi，对每个搜索结果文档d，计算qi与文档d的相关性得分。最后将所有的qi进行加权求和，从而得到查询Query与文档d的相关性得分。公式中，Q表示查询Query，qi表示查询被解析得到的分词qi，d表示搜索结果文档d，Wi表示分词qi的权重，R(qi，d)表示分词qi与文档d的相关性得分。定义一个词与文档相关性的权重方法有很...

2018-05-20 22:39:41 3370

原创 NLP—TextRank算法获取文本关键词和摘要

https://blog.csdn.net/kamendula/article/details/51756552 Text Rank算法抽取关键词和摘要https://blog.csdn.net/kamendula/article/details/51756396 https://blog.csdn.net/pure2007/article/details/6607022 ...

2018-05-20 22:37:46 11750 3

原创 NLP—word2vec词向量简介

NLP处理的数据都是文字，而文字是无法直接被计算机计算的，于是人们想出了使用独热编码的方式来表示单词。浙江 [0,0,0,0,0,0,0,1,0,......0,0,0,0,0,0,0]江苏 [0,0,0,0,1,0,0,0,0,......0,0,0,0,0,0,0]安徽 [0,0,0,1,0,0,0,0,0,......0,0,0,0,0,0,0]天津 [0,0,0,0,0,0,0,0,...

2018-05-20 22:35:47 5463 2

原创 NLP—词频特征向量

词向量、TF-IDF值词向量都没有考虑单词的上下文关系，而仅仅考虑词的权重，即单词出现的频率。虽然丢失了一部分语义信息，但是在面临聚类、分类等问题时，这种词向量方法表现也不错。下面代码例子中，首先利用docs中出现的单词构建字典，然后把每句话转化为词向量形式。有些单词"I"、"is"属于停用词，不参加词频统计。同时词向量中包含大量0值，所以我们的矩阵通常是十分稀疏的。当词向量特征矩阵十分巨大时可以...

2018-05-20 22:33:27 4784

原创 Hadoop（一）基础知识记录

本文主要介绍Hadoop基本知识，对Hadoop做一个简单的学习介绍，记录点滴，与大家一起分享，共同进步；O(∩_∩)O~核心组成： HDFS分布式文件系统，存储海量数据 MapReduce并行处理框架，实现任务分解和调度低成本高扩展性 Hive 将sql语句转化为任务执行Hbase 提供数据的随机读写和实时访问安装环境Ubuntu centOS都可以安装JDKUnitedStack配置云主机

2018-05-18 21:28:58 224

原创 Spark大数据分析——pyspark（三）

Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.0 /_/>>> from pyspark.sql import HiveContext&...

2018-05-12 14:08:41 1168

原创 Hive问题

Last login: Fri Jan 19 16:33:16 2018 from 10.115.27.2[root@bjycbd-agent-23 ~]# cd etc/security/keytabs-bash: cd: etc/security/keytabs: No such file or directory[root@bjycbd-agent-23 ~]# pwd/ro

2018-05-11 21:29:03 207

原创 Machine Learning中的数据不平衡问题

在机器学习问题中，经常会遇到数据分布不平衡的问题。例如在垃圾邮件分类问题中，只有少数的样本属于垃圾邮件，大多数样本都是非垃圾邮件，这样训练出来的分类模型对垃圾邮件检测率往往较低。这里介绍一些解决思路，以供大家参考！我们约定：多数类样本使用Large表示，少数类样本使用Small表示，r=S/L。Weighted loss function：加权损失函数，在sklearn中，通过调节class_we...

2018-04-23 14:24:12 877

机器学习-多伦多大学研究生教材

多伦多大学的机器学习教材，原版英文，深入浅出，易于理解，可以选择性的看一看，有助于机器学习的进一步理解，欢迎下载；

2016-09-15

各个学术研究领域的国际顶级会议和期刊杂志

研究生博士生研究人员去哪里找相关的会议期刊杂志呢，这里面包含了各个学术研究领域的国际顶级会议和期刊杂志，可以用来跟踪不同行业的学术前沿，科技进展，了解大牛们都在做什么。

2016-05-13

大数据挖掘数据分析数据科学家进修书单

如何才能成为大数据工程师，数据科学家和数据分析师，如何进门机器学习，MachineLearning，data mining，data scientist还有knowledge mining这些高大上的行业，那就准备开始看这些书吧！

2016-04-15

《概率论与数理统计》第四版-浙江大学-pdf高清版

概率论与数理统计第四版浙江大学课本PDF高清版

2016-04-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人