自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

henbile的博客

快乐工作,认真生活

  • 博客(44)
  • 收藏
  • 关注

原创 python matplotlib 画的多张图,合并写入同一pdf

参考: 知乎题主问答(非常感谢)和mpl官方网站例子https://www.zhihu.com/question/68489126/answer/334893776和https://matplotlib.org/examples/pylab_examples/multipage_pdf.html知乎题主说比较复杂,我觉得还挺方便的,可能我的图是写好函数以后根据变量名字循环生成的,所以比较简单。本来...

2018-04-17 14:16:15 13076

原创 python绘制双Y轴时间序列数据曲线图

花了一天摸索出来的,在python上面画双Y轴的时间序列数据的曲线图。网上大多数绘制双Y轴曲线图的不是时间序列曲线图。我这里用到两个包,pandas和matplotlib.pyplot包。画时间序列的时候,用pandas包的method,结合plt包使用,这个就需要我的数据以pd.Series或者pd.DataFrame形式保存。series 或者 dataframe 可能需要有日期作为index...

2018-03-09 15:56:42 5883 2

原创 pyspark learning

【代码】pyspark learning。

2023-04-21 16:05:12 116

原创 word下划线,间距调大方式

word下划线,间距调大方式

2022-04-13 17:30:00 648

原创 hive检查特定分区

hive检查特定分区;show partitions table_name partition(ds = '20220224')

2022-03-09 15:56:21 2576

原创 pandas根据条件赋值

pandas根据条件赋值:常用条件,多条件并行、是否相等、字符串是否包含、是否为nan等。

2022-01-24 19:46:54 7985

原创 mysql日期转为周数

select stat_date, weekday(stat_date), if(weekday(stat_date) = 6 , date_add(stat_date, INTERVAL 1 DAY) , date_sub(stat_date, INTERVAL (weekday(stat_date)) DAY) ) from table_namewhere subject_type = '不限'group by stat_date, weekday(stat_da.

2021-12-29 16:59:54 3941

原创 基尼系数,excel计算方法

我真的是个计算基尼系数的小能手,在excel、python、hive上都凑齐了。。。excel如下图所示:第一行显示的是,该列标黄色框内的公式。

2021-01-30 18:41:11 12052

原创 定价思考

成本:马先生总结的哇,价格绕着成本上下波动;各方面的成本都要考虑,用材、用人;目前的成本要考虑,未来的成本也要考虑,是否要让目前的价格cover掉;成本多少不确定,可以参照相似品。 供需:供不应求,价格可以定高;反之亦然。 未来能产生的价值:如果交易在未来的收益高,目前价格可以低一点。 本阶段目的:是亏本也要参与价格战、还是大力度优惠也要让交易产生、还是要保障商业收入 竞争对手的价格:...

2021-01-28 23:19:07 109 1

原创 数据波动归因分析

排除工程原因:数据采集、数据传输、数据统计、数据演示等过程 时间和空间上的定位:从哪天开始有波动、哪个模块上波动比较厉害 结合业务思考外部因素(我们不能影响)的贡献,如重大事件、竞争对手的动作等。 如果是绝对量数据,考虑该绝对量在业务中所处的环节是哪里,其上游是什么,上游数据以及转化率上有哪些波动;整体去观察、同时可以在关键维度上拆分,去观察这两个指标。 如果是相对数据,分别观察分子、分母一起,有了什么样的变化趋势导致咱们的占比数据有了波动;其中占比数据(转化率)可以拆分到多个维度上。...

2021-01-28 23:06:31 1809

原创 pandas数据处理函数汇总

获取unique_values:pd.unique(data['col']) 建立透视表格:data.pivot_table(index='date',columns='group_id',values='rate') 排序:data.sort_values(by = ['date', 'group_id']) 分组统计:data[['rate', 'group_id', 'date']].groupby(['group_id']).mean() 筛选样本:data[(data['date'] ..

2021-01-26 15:42:28 621

原创 SQL:从入门到“精通”

SQL:从入门到“精通”

2021-01-26 15:37:04 191

原创 我掌握的统计学浅谈

随手写。统计学statistics,主要两方面;descriptive statistics,描述性统计和statistical inference,统计推断。 前者基于数据观察,描述数据;后者基于数据观察,得到数据总体相关的一些结论;后者主要包括两个方面,hypothesis testing,假设检验和estimate,估计。 假设检验,通俗讲,就是说我们看到了(抽样、或者仅仅是观察到)这样的数据,这种情况下,总体的参数等于某个值这个假设是否成立、多大置信度上成立、百分之多少的情况下,这个假...

2020-10-16 21:11:39 332

原创 hfds下的文件导入hive表格

目的:每天向hive表格导入hfds下的文件结果:整个文件夹下的文件均能导入到该表格中;不管总文件夹下生成了多少个小文件-- table_name、columns_name、path_name、partition_name需要自己定义create external table -- external 必需`table_name`(`uid` bigint,`freq` double) partitioned by (`dt` string)row format delimite..

2020-07-20 21:07:00 229

原创 hive grouping sets的正确打开方式

-- 为了偷懒想使用grouping sets,但是正确打开该函数,还是有难度的-- 1. 不可以有多个表格相同列名的情况;如果多表格列名相同的,需更改;uid、col_a、col_b都需要改成不同的名字-- 2. 不可以在select之后有表格别名的情况,比如a.col_a_1是不允许的;但是因为列名都不同,没有关系-- 3. select之后用来aggregate(聚合)的字段,不可以进入计算;所以需要新加入col_b_1_1,而不是直接使用 col_b_1-- 4. tips:如果不想有聚.

2020-07-20 21:04:50 544

原创 特征处理:least frequent value 代码实现

训练集df_train, 测试集df_test离散型特征集cat_features = [a, b, c, d, e, f, g]策略:"unseen labels": df_test里的未见的离散型特征的value值请取代成 df_train里相同特征里的最不常见的值 least frequent value代码实现:import pandas as pdimport numpy as npdf_train = pd.DataFrame([['a', 'b', 'a', 'a',

2020-07-18 15:30:07 144

原创 10 simple and useful hive functions you should know first

1. show databases;Usually your tables are stored in some databases and with this line of code, you could get the names of the databases you have access to.And all your sql or hive codes should end w...

2019-01-31 16:55:02 209

原创 python排序、得出序号各类方法大全 numpy pandas

整理了一下一行数据的排序和得出序号的各类方法,包括正序和倒序。当然还有pandas包的sort_value和sort_index两个method没有包含在这里。如果是多维的数据,需要将axis=0或者1包含进去。import numpy as npimport pandas as pd# ================================================...

2019-01-09 11:28:25 18712 1

原创 python 画图 2维和3维图上加点 matplotlib

有时候可能需要在做好的图上加入一些特别的点,方法如下。import matplotlib as mplimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D# 3维图上加(1,1,1)点ax = plt.subplot(111, projection='3d')ax.plot([1, ],[1,...

2019-01-08 17:36:42 4373 1

原创 python(pandas)分为点,多个分为点

分为点的函数是pandas中的quantile。如果dataframe的名字是df,那么df.quantile?就可以看到函数的解释。如果后面是一个数字,就是一个分为点;如果要多个分为点,那么要加入一个array。 # 假设df是dataframe名字df.quantile(0.5)#df各个列的中位数数据df.quantile([0,25,0.5,0.75])#...

2018-12-26 17:47:07 1916 1

原创 基尼系数近似计算:sql (hive)实现 简单高效

通过近似的方法,如何在sql中计算基尼系数。如何在python中实现基尼系数计算的两种方法,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。如果想加深对基尼系数计算的逻辑:可查看文章http://www.cnblogs.com/longwind09/p/8047539.html。本文中采用的近似方法,如何建立近似计算公式、如何简化推导公式可查看文章,本文基于这篇文章进行注...

2018-11-14 11:02:58 979

原创 基尼系数计算的两种方法:python实现 简单高效

使用两种方法,通过python计算基尼系数。在sql中如何计算基尼系数,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。文章中方法1的代码来自于:(加入了一些注释,方便理解)。为精确计算。如果对于基尼系数概念不太清楚,可以看原文的第一部分。http://www.cnblogs.com/longwind09/p/8047539.html方法2和3借鉴资料:方法2和3...

2018-11-14 11:00:50 3681

原创 如何对加密pdf进行注释 后来

下载了某券商研究报告后发现不可注释,很气,脑子灵机一动,发现可以这样做,而且能解决问题~~ 加密的PDF拖到浏览器里面,360浏览器之类的浏览器就会以打开PDF的形式打开PDF。(就是我们有时候下载PDF之前可以在浏览器上预览PDF的时候的那种形式) 然后点击Ctrl+p进行打印。 打印的时候不要连接打印机,打印设置里面选成:另存为PDF。 通过另存为PDF的形式下载到本地来。(如果是下到...

2018-11-14 10:58:03 314

原创 如何对加密PDF进行注释(图文详解)

精简文字版请访问 https://blog.csdn.net/henbile/article/details/79539434 。首先打开加密pdf所在的文件夹,并打开任意浏览器。 将pdf拖到浏览器中。 拖完就可以看到浏览器已经打开了这个本地文件。 右击点打印或者ctrl(cmd)+p打开打印页面。在打印机设置中选成另存为pdf。点击保存。 点击保存后将文件保存在想保存的文件夹...

2018-11-12 18:42:28 2721 2

原创 hive(sql)命名新生成表格未命名列(字段)

hive中有时候create table新生成表格时候忘记命名一些通过函数计算之后生成的列。如果没有命名,hive会帮忙取一个列名,名字我这里是`_c0`这样的格式。c后面的数字应该是说这个未命名的列是第几列,目测是从0开始的。阔起来的符号是 撇号,英文叫apostrophe,在我的键盘上的位置是:1左边的键。change后面跟上要改的那个列,可以先desc一下看一下hive给取了什么...

2018-10-11 15:59:43 3723 1

原创 python画热力图(相关系数矩阵图)

使用热力图的形式展示包括相关系数矩阵图的二维矩阵的方法,目前发现有两个:首先是使用pandas包的函数,但是pandas包的目测,不能显示数字?如果想试一下,可以参考https://zhuanlan.zhihu.com/p/26100511所以研究了一下第二种方法,就是用seaborn包画。参考了https://blog.csdn.net/a19990412/article/details/793...

2018-05-08 16:40:00 110153 15

原创 python 计算股市技术分析PSY指标

PSY,心理线,百度百科链接:https://baike.baidu.com/item/PSY%E6%8C%87%E6%A0%87/3083493?fr=aladdin价格上涨可以通过两种方式判定:第一种是当日收盘价格高于前日收盘价格;第二种是当日收盘价格高于当日开盘价格。这里用的是第一种方法。import numpy as npdef getPSY(priceData, period): ...

2018-04-18 11:04:08 3770

原创 python matplotlib 柱状图x轴xsticks固定顺序(升序、降序)

参考了:https://www.jianshu.com/p/ea0a63a73ffa# -*- coding: utf-8 -*-"""Created on Mon Apr 16 18:12:46 2018@author: Administrator"""import numpy as npimport pandas as pdimport matplotlib as mpl...

2018-04-16 18:32:18 31775 2

原创 python计算滚动方差(标准差)talib和pd.rolling函数差异

# -*- coding: utf-8 -*-"""Created on Thu Apr 12 11:23:46 2018@author: henbile"""#计算滚动波动率可以使用专门做技术分析的talib包里面的函数,也可以使用pandas包里面的滚动函数。#但是两个函数对于分母的选择,就是使用N还是N-1作为分母这件事情上是有分歧的。#另一个差异在于:talib包计算基于...

2018-04-12 11:41:03 13930 1

原创 python技巧:变量值互换;四舍五入;设置成np.nan

python一些简单,但是很强大的函数:import numpy as np#变量的值的互换,如a,b两个向量的值互换,不能用a = b, b=a完成,需要中间变量#但是python里面用tuple也很容易的实现a = 3b = 4(a,b) = (b,a)print(b)print(a)a,b = b,aprint(a)print(b)#四舍五入round(3.45...

2018-04-11 15:01:16 1243

原创 python 每周第一天和最后一天

后续详细。def getFirstLastDayListWk(dateSeries): weekNum = pd.to_datetime(dateSeries).strftime("%W") weekNum = weekNum.astype(int) weekNum0 = np.argwhere(weekNum == 0) #assuming the first d...

2018-04-04 18:15:41 5062 1

原创 python 查询周数 week number

python里面查询某一天所处的周数week number时,有比较多的方法,自己觉得下面这个方法特别棒,在一些方面的处理非常合理。每年的最后一天必然是12月31日,是12月的最后一天,但这天不一定是这年最后一个周的最后一天,不一定是周日。如果去年最后一天是周中某一天,那么今年第一天是连续着去年最后一个周的。matlab里面的week number函数将每年的第一天的week number都设置成...

2018-04-04 11:18:39 9877

原创 Python OLS模型

OLS模型#OLS ordinary least square modelimport numpy as npimport statsmodels.api as sm#.api不能省x = np.arange(-10, 10)#假设y与x之间关系如下y = 2*x + np.random.normal(size=len(x))#python包中的ols模型默认没有常数项,如果要加,需...

2018-04-02 16:49:37 17171 3

原创 python 得到时间序列的每年、每月最后一天和第一天在序列中的位置

2018.03.30大概的函数是这个样子,里面提到的问题,未来一一解决。持续更新。def getFirstLastDayMth(dateSeries): #dateSeries is like 2018-03-09 #my date series is from 2017.1.1 till now 2018.03.30 #import pandas as pd, impor...

2018-03-30 16:52:45 7682

原创 python pandas VS numpy

两个包都有类似的数据分析工具,但是就细节上有时候也有差别。所以在切换时候需要注意。两个包的函数methods在np.nan的处理上有区别。如果是np的methods,比如我们要计算标准差,如果array里面有nan缺失值,那么返回的是nan。但是如果我们是对于dataFrame求标准差,如果有nan,返回的是去掉nan之后序列中其他数字的标准差。std函数本身也有一个差异:np.std里面有一个参...

2018-03-14 10:38:54 542

原创 python pandas学习笔记

df假设是我们要进行计算的data frame。有些是函数,比如说pd.isnull(),而有些是methods,比如说df.drop()。df.drop():删除行或者列。这样生成一个新的data frame,但可以设置参数,选择是否在原df也删除行或者列。axis=1表示,删除的是列;默认不改变原来的df,但是加上inplace = True会删除在原df中的行或者列。df.shift(i):...

2018-03-06 17:55:06 480

原创 Python wind导入数据问题总结

python如何从wind导入一个时间序列数据并进行保存的方法在上一个博文里面。这里面主要讨论从wind导入数据时候遇到的各种问题与解决方案。本文会持续更新。正文百分比数据都是不带百分号的,导下来如需要使用其计算,需要乘以0.01。wind导入到excel的数据,数据的最后面有多余的两行文字,需要删除的。...

2018-03-05 14:32:43 4055

原创 python注释

每次用spyder打开新的python文件.py时候,最上面自动会出现如下语句:# -*- coding: utf-8 -*-"""Created on Mon Mar 05 11:47:46 2018@author: Administrator"""我一直不知道'''起的是什么作用,还是用Ctrl+1加上#。但其实不需要,因为这两个符号表示的都是注释。#是单行注释。而使用一对儿三个单引...

2018-03-05 11:50:49 272

转载 AS I BEGAN TO LOVE MYSELF 当我开始爱自己 卓别林

As I began to love myselfI found that anguish and emotional suffering are only warning signs that I was living against my own truth.当我真正开始爱自己,我才认识到,所有的痛苦和情感的折磨,都只是提醒我:活着,不要违背自己的本心。Today, I know, this ...

2018-03-02 16:30:52 3253

原创 python从wind导入数据

从wind导入到的数据的格式是instance。如下载一系列资产在某一段时间的收盘价格。一系列资产保存在list里面,一并下载。日期格式为“2018-02-28”。一个数字串儿表示的日期,记得也可以使用。导入数据结果中,如果数据是缺失的,python中显示为nan。如果没有其他参数,用“”表示,跟matlab导入wind不一样。from WindPy import *w.start()impo...

2018-03-01 18:07:06 23586 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除