你欲何为R-CSDN博客

原创 Java SE笔记

java常用关键字abstract continue for new switch assert default if package synchronized boolean do goto private this break double implements protected ...

2019-12-16 14:56:13 132

原创 hive笔记

学习和使用hive过程中的一些笔记、心得hive中变量和属性命名空间命名空间使用权限描述 hivevar 可读/可写 hive v0.8.0以及之后版本，用户自定义变量 hiveconf 可读/可写 hive相关的配置属性 system 可读/可写 Java定义的配置属性 env 只可读 Shell环境(...

2019-03-19 14:33:15 1002

数学运算：mo，isodd，iseven，count，counta，countblank，sum，sumif，sumifs，average，averagea，averageif，averageifs，stdev，round，sqrt，trunc，int，randbetween，rand，product，sumproduct，sumsq，sumx2py2，sumx2my2，sumxmy2，max，min，row，column，offset，subtotal；游标对象（创建对象、对象的方法、对象的属性）；

2023-09-26 09:41:46 106

原创一起啃西瓜书

机器学习西瓜书笔记

2023-09-25 10:00:00 90

原创《机器学习实战》笔记

《机器学习实战》笔记及相关python代码

2023-09-22 11:00:22 238

原创《消费金融真经》笔记

产品规划（目标市场，分类，客户来源，产品条款）；经济衰退历史（过去经济衰退时期的消费信贷趋势，不同经济周期的核销率，全国经济衰退的管理，区域衰退）；规划与实施（问题定位，规划措施，实施计划，衰退时期评分，业务回溯改进）；管理信息（管理指标构建原则）；组织架构管理（组织架构，产品型组织架构，职能型组织架构，风险经理及其独特责任，风险管理培训）。基于单一产品的全生命周期利润分析（按产品计算利润，产品生命周期，风险定价和风险调整后收益）；评分系统建设（评分系统规划，开发，实施，评测和监控）；催收系统和拨号系统；

2023-09-22 10:00:00 116

原创风控红宝书《信用评分工具》笔记

风控红宝书笔记

2023-09-21 10:00:00 99

原创风控蓝宝书《消费信用模型定价、利润与组合》笔记

风控蓝宝书笔记，只记录了前面几章的内容，后面越看越复杂，没办法再看下去了

2023-09-20 09:23:11 205 2

原创 Python 基础合集 2023-08-01

python语法基础

2023-08-01 19:16:03 158

原创【Python 面试题】判断两个圆环是否相同--腾讯2020数据分析校招

题目：有一个环上面有6个点，一个点都有一个数字，对于两个环来说，若6个数完全一致（顺序可以随机，只要数相同即可）则说明这两个圆环是一样的。现在有n个圆环，想问你这里面有没有一样的两个圆环，若有输出YES，否则输出NO。"""题目：有一个环上面有6个点，一个点都有一个数字，对于两个环来说，若6个数完全一致（顺序可以随机，只要数相同即可）则说明这两个圆环是一样的。现在有n个圆环，想问你这里面有没有一样的两个圆环，若有输出YES，否则输出NO。"""...

2020-09-08 11:54:02 426

原创通过手机号解析出手机号归属地的省、市、运营商、邮编、区号

首先需要pip安装 phone 第三方模块通过 phone.Phone.find() 函数解析from phone import Phonedef get_mobile_location(phoneNum): """ """ info = Phone().find(phoneNum) try: province = info['province'] city = info['city'] zip_code

2020-08-21 16:38:39 1109

原创 hive常用字符串处理函数

以下的字符串都可以用字段名表示，顺序索引，从1开始，逆序索引，从-1开始1.字符串长度：length语法：length(string A)返回值：int（字符串A的长度）hive> select length('abcde') from table_name;return:5select length(gid) from db_name.table_name gro...

2019-12-17 10:50:29 949

原创【概念】Hadoop、MapReduce、HBase

Hadoop 和 MapReduce Hadoop 生态系统就是为了处理大数据集而产生的一个合乎成本效益的解决方案。Hadoop 实现了一个特别的计算模型，也就是MapReduce，其可以将计算任务分割成多个处理单元然后分散到一群家用的或服务器级别的硬件机器上，从而降低成本并提供水平伸缩性。这个计算模型的下面是一个被称为Hadoop分布式文件系统。...

2019-12-16 14:21:35 384

原创【python 笔记】高阶函数 map、reduce、filter

高阶函数是在Python中一个非常有用的功能函数，所谓高阶函数就是一个函数可以用来接收另一个函数作为参数，这样的函数叫做高阶函数。常用的python内置高阶函数为：map、reduce、filter 这三个（个人用得比较多的也就这三个），使用高阶函数可以极大的提升代码可读性，简化代码结构。map map函数接收的是两个参数，一个函数，一个序列，其功能是将序列中...

2019-12-11 17:08:26 312

原创【python 可视化】2 seaborn笔记

Seaborn 基于matplotlib且数据结构与pandas统一的统计制图库功能：计算多变量间关系的面向数据集接口可视化类别变量的观测与统计可视化单变量或多变量分布并与其子数据集比较控制线性回归的不同因变量并进行参数估计与作图对复杂数据进行易行的整体结构可视化对多表统计图的制作高度抽象并简化可视化过程提供多个内建主题渲染matpotlib的图像样式提供调色板...

2019-12-09 20:27:29 1054 1

原创 Python使用pymysql存储和读取文件

不会BB，直接两开花就好了......#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = 'yangshijin'# coding=utf-8""" 测试代码（mysql存储文件）---读取的时候可以按照id或描述信息来获取 """import pymysql # TODO 需要z自行替换的字段DBName =...

2019-12-02 19:22:46 615

原创 python dataframe分箱操作一：cut分箱

1.等宽分箱# ===========================方法一===============================def binnings(data_res, b_for_filename): a = 'bins_by' # 分箱依据 b = 'used_to_count' # 分箱之后用来统计数量的字段 test_result_out = ...

2019-12-02 19:22:03 1242

原创读取json，做日志解析

# -*- coding: utf-8 -*-"""Created on Fri Feb 15 14:38:09 2019@author: yangshijin"""import pandas as pdimport numpy as npimport mathimport osimport json# 警告处理import warningswarnings.filte...

2019-12-02 19:21:53 251

原创【python 时间】datetime、time、date

import timeimport datetimefrom dateutil.relativedelta import relativedeltaimport pytzimport pandas as pd国际时间、本地时间"""国际时间和本地时间utc time: 国际时间(伦敦格林威治时间)lacaltime: 本地时间(北京时间)"""# 国际时间ti...

2019-12-02 17:49:28 420

原创【python 列表】list() 和中括号[] 的区别

先定义一个列表ls_src = ['Baidu', 'Alibaba', 'Tenxun', 'Jingdong']列表生成式中使用列表[list(i) for i in ls_src]列表生成式中使用中括号[][[i] for i in ls_src]可以看到list()会把字符串拆分成一个列表，字符串中的每一个元素就是新列表的元素，而中括号【】则是把整...

2019-11-29 17:51:28 8818 3

原创【数据预处理标准化】StandardScaler中的std参数和pandas中的std计算方式上的区别

StandardScaler把所有数据归一到均值为0方差为1的分布中。适用于没有明显边界的情况；有可能存在极端数据值。计算公式：其中S标准差的计算方式是numpy中的std方法，可以查看一下StandardScaler的文档StandardScaler??Init signature: StandardScaler(copy=True, with_mean=...

2019-11-28 12:34:29 2814

原创【集成学习】lightgbm中文文档

lightgbm中文文档：html:http://lightgbm.apachecn.org/cn/latest/index.htmlgithub:https://github.com/apachecn/lightgbm-doc-zh

2019-11-28 10:24:32 334

原创【python groupby】分组聚合groupby的用法

对dataframe进行groupby之后得到的是一个groupby对象，不能直接打印输出，但可以对这个对象进行各种计算df = pd.DataFrame({'key1':['a','a','b','b','a'], 'key2':['one','two','one','two','one'], 'data1':np...

2019-11-26 16:46:25 7060 2

原创【python pandas】重塑、透视、交叉：stack，unstack，pivot，pivot_table，crosstab

使用多层索引进行重塑stack、unstackdf = pd.DataFrame(np.arange(6).reshape((2,3)), index=pd.Index(['ohio','colorado'], name='state'), columns=pd.Index(['one','two','three'...

2019-11-25 19:20:13 740

原创【python 正则】

查找 findall, match, searchimport redef re_match_common(pattern, string, mathod, flags = re.I|re.M): """正则查找通用函数 :param pattern: 正则表达式 :param string: 可用于查找的字符串 :param mathod: 查找...

2019-11-25 17:46:01 122

原创【python】创建路径、excel同时写入多个sheet表

创建路径import osdef create_path(pre_path): """创建目录 eg:'D:/pingfen/result' """ folder = os.path.exists(pre_path) # 判断是否存在文件夹如果不存在则创建为文件夹 if not folder: # makedirs ...

2019-11-25 15:45:25 2488

原创【python小技巧】分块读取大文件、读取数据内容带引号的文本文件

# ===================== 逐块读取文本文件 ===========================nrows = 10 # 只读取一定行数的数据chunksize = 4 # 分块读取，返回一个可迭代对象TextFileReaderiterator = True # 返回一个可迭代对象，使用df.get_chunk(10)查看数据# ===============...

2019-11-25 15:00:26 909

原创【python 面试题】如何从数组中找出满足a+b=c+d的两个数对

"""给定一个数组，找出数组中是否有两个数对(a,b)和(c,d),使得a+b=c+d,其中,a、b、c、d是不同的元素。如果是多个答案,打印任意一个即可。例如给定数组[3,4,7,10,20,9,8],可以找到连个数组(3,8)和(4,7),使得3+8=4+7"""# 用来存储数对class pair: def __init__(self, first, second):...

2019-11-20 23:31:52 615

原创【python 面试题】如何从一堆车票信息中找到旅程(dict)

# 如何从车票中找到旅程def print_result(inputs): # 用来储存inputs的键与值调换之后的信息 reverse_input = dict() for k,v in inputs.items(): reverse_input[v] = k start = None # 找到起点 for ...

2019-11-19 08:59:06 173

原创 IPython魔法命令

1 粘贴代码块： %paste和%cpaste%paste 解决复制代码到Ipython解释器时出些的缩进错误问题%cpaste 打开一个交互式多行输入提示，可以在这个提示下粘贴并执行一个或多个代码块2 执行外部代码：%run%run 需要执行的外部代码块(.py)3 计算代码运行时间：%timeit%timeit 自动计算接下来一行的python...

2019-07-17 11:27:32 397

原创 python 判断路径是文件还是文件夹、判断是否存在、获取文件大小

判断是文件夹还是文件import osif os.path.isdir(path): print "it's a directory"elif os.path.isfile(path): print "it's a normal file"else: print "it's a special file(socket,FIFO,device file)"判...

2019-04-01 16:11:26 1484

原创 python实现数据导入导出mysql

导入需要的python包import pymysqlimport tracebackimport pandas as pdfrom sqlalchemy import create_engineimport osimport numpy as np将sql查询结果导出文件def mysql_to_file(path_file,sql, host, user, passwo...

2019-03-19 12:09:16 4516

原创多个series合并成dataframe

import pandas as pddf = pd.DataFrame(list(zip(series_1, series_2)))

2019-01-30 19:12:39 19003 2

原创 mysql给表格字段设置唯一性索引

在建表时设置CREATE TABLE 't_user' (`Id` int(11) NOT NULL AUTO_INCREMENT,`username` varchar(18) NOT NULL unique,`password` varchar(18) NOT NULL,PRIMARY KEY (`Id`)) ENGINE=InnoDB AUTO_INCREMENT=1018 D...

2019-01-15 10:43:27 3792

原创 pandas dataframe 提取行和列

import pandas as pddata = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})提取列单列data['a']多列data[['a', 'b']]使用 .loc或者 .iloc 提取第一个参数是行，第二个参数为列.loc为按标签提取， .iloc为按位置索引提取data...

2019-01-11 11:27:09 152640 6

原创 pandas修改列名

pandas读取数据之后经常需要修改列名，那么该怎么修改呢？？import pandas as pda = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})1.简单粗暴a.columns = ['第一列', '第二列', '第三列']a 2.温柔一点的上面的方法修改列名必须是修改所有列名，在列比较少的情况下...

2019-01-11 10:25:53 8880 2

原创 pandas set_index和reset_index

1.set_indexDataFrame可以通过set_index方法，可以设置单索引和复合索引。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) append添加新索引，drop为False，inplace为True时，索引将会还原为列df_a = p...

2019-01-10 11:26:48 542

原创 pandas.DataFrame.columns.format()和pandas.DataFrame.columns的区别

import pandas as pddf_a = pd.DataFrame(data=[['A', 'B', 'C'], ['A1', 'B1', 'C1']])df_a.columnsdf_a.columns.format()

2019-01-10 11:01:35 3017

原创 pandas合并数据

1.mergepd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False)...

2019-01-09 19:30:07 158

原创 pandas操作数据库

使用sqlite3# 从数据库中读取数据。import sqlite3# sqlite3连接参数指定的数据库。如果数据库不存在，则会创建该数据库，然后再进行连接。# 存在则直接进行连接。该方法返回数据库的连接。con = sqlite3.connect("ttd.db")# 通过数据库连接对象的execute方法执行sql语句。con.execute("create table ...

2019-01-09 19:18:52 3045 1

空空如也

空空如也