ju22-CSDN博客

原创 python中 merage函数与concat函数的用法

每次都不能很好的使用merge和concat这两个函数，本次做一个搬运工从前人那边搬来一些信息，希望自己熟练掌握其使用方法一、meragepandas提供了一个类似于关系数据库的连接(join)操作的方法<Strong>merage</Strong>,可以根据一个或多个键将不同DataFrame中的行连接起来，语法如下： 1 2 3 ...

2020-02-25 17:57:31 4065

原创 pandas 一些常用的数据分析技巧

数据类型：查看数据中各个变量的列名和它们的数据类型：df.dtypes 获得每个数据类型的列数：df.get_dtype_counts() 数据缺失与重复统计缺失占比：df.isna().sum()/len(df) 缺失填补：df.fillna(method='各种方法') 查找重复行，删除重复行：df.duplicated() ; df.drop_duplicates(...

2020-02-25 17:39:18 368

原创 python中字符串和文本的处理技巧

python字符串

2020-02-25 12:33:02 393

原创 python 中字典使用的一些小技巧

本文简单的记录了 python中字典使用的一些技巧一、从字典中提取子集prices = {'ACME': 45.23,'AAPL': 612.78,'IBM': 205.55,'HPQ': 37.20,'FB': 10.75}##下面使用字典推导式来取值大于200或者键在一个列表中的子集## Make a dictionary of all prices ove...

2020-02-24 17:40:18 312

转载 SQL计算两个字段或者三个字段的最大值

原文链接：http://qiang106.iteye.com/blog/693335SQL计算两个字段或者三个字段的最大值 MAX是一个对单列数据进行操作，选择最大值，但是对于要选择同一行中两行值中较大一列，这样在sql中是没法使用的，考虑如下数据,要得到x,y中较大的一个 SQL中的MAX是不能直接使用的，但利用以下公式可以达到相应的目的， max(x,y)=(x+y+ABS(x-y))...

2018-04-02 18:08:42 31113 1

原创 Hive中where 语句的“不等于”的陷阱

hive 中‘不等于’不管是用！或者<>符号实现，都会将空值即null过滤掉，此时要用where （white_level<>'3' or white_level is null）或者 where (white_level!='3' or white_level is null ) 来保留null 的情况。以下知识点来源于：https://blog.csdn.net...

2018-03-29 11:07:07 49229

原创《Hands-on Machine Learning with Scikit-Learn and TensorFlow》读书笔记

import pandas as pdimport numpy as npimport matplotlib.pyplot as plthousing=pd.read_csv('D:\\pythondata\\housing.csv') housing.plot(kind="scatter", x="longitude", y="latitude")housing.plot(ki

2018-01-18 14:58:44 3459 1

转载 python进阶学习笔记（一）——高阶函数

filter():filter()函数接收一个函数 f 和一个list，这个函数 f 的作用是对每个元素进行判断，返回 True或 False，filter()根据判断结果自动过滤掉不符合条件的元素，返回由符合条件元素组成的新list。例如，要从一个list [1, 4, 6, 7, 9, 12, 17]中删除偶数，保留奇数，首先，要编写一个判断奇数的函数：

2018-01-16 09:53:53 246

转载从boost到Adaboost再到GBRT-GBDT-MART

原文链接：https://www.cnblogs.com/xiangzhi/p/4626179.html本文是要配合《统计学习方法》才能看懂的，因为中间有些符号和定义是直接使用书本中的先弄明白以下三个公式：1）Boost（提升法）=加法模型（即基函数的线性组合）+前向分步算法+损失函数2）Adaboost=Boost+损失函数是指数函数（基函数可以任意）

2018-01-05 17:22:01 364

转载统计学习方法--提升树模型（Boosting Tree）与梯度提升树（GBDT）

原文链接 http://www.cnblogs.com/daguankele/p/6557328.html1、主要内容　　介绍提升树模型以及梯度提升树的算法流程2、Boosting Tree　　提升树模型采用加法模型（基函数的线性组合）与前向分步算法，同时基函数采用决策树算法，对待分类问题采用二叉分类树，对于回归问题采用二叉回归树。提升树模型可

2018-01-04 18:18:25 582

转载统计学习方法--提升方法adaBoost算法（集成学习）

原文链接 http://www.cnblogs.com/daguankele/p/6554973.html1、主要内容　　介绍集成学习，然后讲述boosting和bagging的区别与联系，同时对adaBoost进行推导然后进行gbdt的推导，最后比较随机森林和gdbt的区别和联系。2、集成学习　　集成学习（ensamble learning）通过构建

2018-01-04 18:17:38 495

转载信用评分模型诊断指数

原文链接：http://blog.csdn.net/lihui6636/article/details/467385571. 一般统计量均值、方差、最小值、最大值、1%分位数、5%分位数、 10%分位数、25%分位数、 50%分位数、75%分位数、90%分位数、 95%分位数、 99%分位数。一般要将数据排序后才能求得分位数。1.1 对每个Model(SEG_A、SEG_B、SEG_C、ALL)

2018-01-02 13:41:01 2057

转载 python中的import，reload，以及import

在执行代码时对模块进行修改后再次import，还是会报错，最终发现重复import 并不会更新原文件，要用reload()函数重新加载，为了纪录，转载了这篇文章。原文地址：http://blog.csdn.net/turkeyzhou/article/details/8846527import作用：导入/引入一个python标准模块，其中包括.py文件、带有__init__

2017-12-07 17:08:59 692

原创 pandas中的groupby函数的分组结果怎么保存成DataFrame

在使用pandas进行数据统计分析时，作为一个小白纠结了好久如何保存groupby函数的分组结果，本打算放弃了，一个偶然的机会看前人分享的代码才发现了可以通过reset_index()函数将groupby()的分组结果转换成DataFrame对象。代码举例：total = df.groupby(['al_m6_id_notbank_allnum'])['target_cpd']

2017-12-06 11:17:08 47534 4

转载 Python pandas 数据框的str列内置的方法详解

原文地址：http://www.datastudy.cc/article/6ba9ae82e0fb2fbc2eb3d57cb68e22a2?from=csdn 在使用pandas框架的DataFrame的过程中，如果需要处理一些字符串的特性，例如判断某列是否包含一些关键字，某列的字符长度是否小于3等等这种需求，如果掌握str列内置的方法，处理起来会方便很多。

2017-11-30 15:09:39 9671

转载 pandas使用get_dummies进行one-hot编码

原文地址： http://blog.csdn.net/lujiandong1/article/details/52836051离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:

2017-11-20 17:53:25 1349

转载平均数编码：针对高基数定性特征（类别特征）的数据预处理/特征工程

文章原网址： https://zhuanlan.zhihu.com/p/26308272前言读完sklearn.preprocessing所有函数的API文档之后，基础的特征工程就可以算是入门了。然而，进阶的特征工程往往依赖于数据分析师的直觉与经验，而且与具体的数据有密切的联系，比较难找到系统性的“最好”的特征工程方法。在这里，我希望能向大家分享一种极其有效

2017-11-20 13:39:36 11841 3

转载初识python中的类与对象

原文链接：http://www.cnblogs.com/Eva-J/p/5009377.html这篇博客的路线是由深入浅，所以尽管图画的花花绿绿的很好看，但是请先关注我的文字，因为初接触类的小伙伴直接看类的实现可能会觉得难度大，只要耐着性子看下去，就会有一种“拨开迷雾看未来”的感觉了。一、python中类和对象的概念首先，我们先来说说什么是类。看了很

2017-11-17 10:31:03 612

转载 Python数据分析之pandas学习

Python数据分析之pandas学习原文链接:https://www.cnblogs.com/nxld/p/6058591.htmlPython中的pandas模块进行数据分析。接下来pandas介绍中将学习到如下8块内容：1、数据结构简介：DataFrame和Series2、数据索引index3、利用pandas查询数据4、利用pandas的

2017-11-16 10:02:21 683

转载经典排序算法总结与实现

原文地址：http://wuchong.me/blog/2014/02/09/algorithm-sort-summary/经典排序算法在面试中占有很大的比重，也是基础，为了未雨绸缪，在寒假里整理并用Python实现了七大经典排序算法，包括冒泡排序，插入排序，选择排序，希尔排序，归并排序，快速排序，堆排序。希望能帮助到有需要的同学。之所以用Python实现，主要是因为它更接近伪

2017-11-15 16:32:29 221

转载 Vintage分析和迁移率模型在信用卡业务中的应用

随着中国金融业对外开放程度的加大,国内信用卡产业的竞争愈演愈烈,信用卡市场营销的费用也越来越高.如何利用有限的营销资源为发卡机构创造最大利润,实现信用卡营销和风险的精细化管理已成为信用卡产业发展的热门话题.本文通过对国外商业银行在信用卡业务中常用的Vintage分析和迁移率模型的介绍,以期有助于国内业界人员从多维度思考和对模型的灵活组合应用,实现信用卡营销和风险的精细化管理。一、

2017-11-13 14:33:24 14267

原创 python简单的笔记

# append方法用于在列表末尾追加新的对象lst=[1,2,3]lst.append(4)# extend方法可以在列表的末尾一次性追加另一个序列中的多个值。即可以用新列表扩展原有的列表a=[1,2,3]b=[4,5,6]a.extend(b)# pop 方法会移除列表中的一个元素（默认是最后一个），并且返回该元素的值x=[1,2,3]x.pop(

2017-09-22 14:02:39 201

转载 scikit-learn 梯度提升树(GBDT)调参小结

原文网址 http://www.cnblogs.com/pinard/p/6143927.html　在梯度提升树(GBDT)原理小结中，我们对GBDT的原理做了总结，本文我们就从scikit-learn里GBDT的类库使用方法作一个总结，主要会关注调参中的一些要点。1. scikit-learn GBDT类库概述　　　　在sacikit-learn中，GradientBoo

2017-08-31 11:13:46 2290

转载梯度提升树(GBDT)原理小结

本文系转载，原文地址为 http://www.cnblogs.com/pinard/p/6140514.html　在集成学习之Adaboost算法原理小结中，我们对Boosting家族的Adaboost算法做了总结，本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称，

2017-08-31 11:10:57 364

转载 scikit-learn Adaboost类库使用小结

本文系转载，原文链接为 http://www.cnblogs.com/pinard/p/6136914.html　　在集成学习之Adaboost算法原理小结中，我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结，重点对调参的注意事项做一个总结。1. Adaboost类库概述　　　　

2017-08-31 11:03:26 975

转载集成学习之Adaboost算法原理小结

本文转自刘建平Pinard 原文链接http://www.cnblogs.com/pinard/p/6133937.html　在集成学习原理小结中，我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类，第一个是个体学习器之间存在强依赖关系，另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中， Ad

2017-08-31 10:58:24 3117

转载集成学习原理小结

本文转自刘建平Pinard 原文链接http://www.cnblogs.com/pinard/p/6131423.html集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成，回归问题集成，特征选

2017-08-31 10:54:25 259

转载 python—pandas中DataFrame类型数据操作函数

Python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数。 1）查看DataFrame数据及属性df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各行的数据格式 df_obj[‘列名’].astype(int)#转换某列的

2017-08-07 11:34:35 843