自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 资源 (1)
  • 收藏
  • 关注

原创 【读书】2022年阅读记录

一、闲情1.《论自由》;[英] 约翰·穆勒,孟凡礼 译;只看懂了30%左右,可过几年再看看;2.《人兽鬼》;钱钟书;钱老真是个骂人不吐皮的人精;

2022-01-05 22:34:07 436 1

原创 【Windows】外接USB键盘报“无法找到驱动”——手动指定驱动

记录和分享一次笔记本外接USB键盘时,报“无法找到驱动”的解决过程(win7系统):1、检查硬件是否损坏:(1)usb鼠标/键盘在其它电脑上是否能正常使用 ----可以(2)电脑的usb接口是否能正常使用 ----可以2、在“设备和打印机”中手动为设备指定驱动(人体学输入设备-usb输入设备)(1)“设备和打印机”--设备属性--硬件属性(2)驱动程序--更新驱动程序(3)选择“浏览计算机以查找驱动程序软件”--从计算机的设备软件程序列表中选择--人体学输入设备--...

2021-06-23 10:47:05 13043

原创 《应用商务统计分析》第八章 自回归

一、目的二、数据来源和相关说明1、数据来源2、数据信息3、变量信息三、描述性分析1、描述统计2、单因素分析四、数据建模1、全模型分析2、模型选择3、模型预测和评估五、总结...

2021-05-21 20:17:09 687

原创 《应用商务统计分析》第七章 生存分析模型

一、目的医生在诊断骨髓癌这种致命疾病时,常常需要做一个判断,即病人还能生存多长时间,或者哪些因素影响着病人的生存时间。合理回答该问题对医生和相关研究者的帮助甚大。基于对该问题的正确回答,医生能够给病人制定更合理的治疗方案,研究者可以对相关课题进行更为精确的研究。本报告试图通过对相关临床数据的分析找出影响患者生存时间的因素,并根据分析结果提出有意义的结论和建议。二、数据来源和相关说明1、数据来源来源于Krall、Uthoff、Harley收集的关于骨髓癌患者的生存数据。import o.

2021-05-11 10:28:30 1509

原创 《应用商务统计分析》第六章 泊松回归

一、目的从超市会员消费记录中找出规律,并判断会员次月光顾超市的次数。二、数据来源和相关说明1、数据来源来源于某家超市部分会员的详细消费记录。import osimport numpy as npimport pandas as pdfrom matplotlib import pyplot as plt# 参数设置plt.rcParams['font.sans-serif']=['SimHei'] #中文plt.rcParams['axes.unicode_minus']

2021-05-06 10:20:14 937 3

原创 《应用商务统计分析》第五章 定序回归

一、目的1、对手机的某些功能在不同的功能组合中所起的作用的分析;2、找出哪些因素在影响消费者对手机的偏好程度,以及其影响程度。二、数据来源和相关说明1、数据来源对不同款手机的偏好程度调查(来自北京大学光华管理学院的MBA学生和高级经理培训班的学员)。df_raw = pd.read_csv(open(os.path.join(filePath, fileName)))2、数据信息1451条样本,8个变量。print(df_raw.shape)3、变量信息(1

2021-04-29 15:05:09 1788

原创 【Python】有序回归相关包

1、mord包mord.LogisticITmord.LogisticATmord.OrdinalRidgemord.LADmord.MulticlassLogistic

2021-03-30 14:17:06 1415

原创 《应用商务统计分析》第四章 0-1变量的回归模型

目录一、目的二、数据来源和相关说明三、描述性分析四、数据建模五、总结# import相关包import osimport numpy as npimport pandas as pdfrom matplotlib import pyplot as pltimport statsmodels.api as smimport statsmodels.formula.api as smf from scipy.stats import chi2from sklearn

2021-03-10 15:38:12 4246

原创 【Hive】MapRedTask报错处理记录

实例1:场景:跑日分区表3年历史数据,SQL为日数据 left join 基本信息的结构。问题:stage-1的reduce跑不动暴力解决方案,直接把reduce tasks的数调大set mapred.reduce.tasks=1000; --可多试几个数值...

2021-01-28 16:52:42 1803

原创 《应用商务统计分析》第三章 协方差分析

本章意在通过教学评估数据分析的案例,介绍协方差分析统计回归模型的原理和应用。一、目的(1)找出影响最终教学评估成绩的因素;(2)提出一个合理的绩效考核标准;二、数据来源和相关说明(1)数据来源:北京大学光华管理学院的教学评估记录(2)数据信息:时间范围:2002~2004年数据量:340(3)变量信息自变量 自变量/解释性变量:教员职称/title:助理教授、副教授、正教授教员性别/gender:女、男...

2021-01-25 17:45:13 733

原创 【读书】2021年阅读记录

一、跑步 / 健身 / 户外1.《跑步运动解剖学》;[意]乔·普莱奥,[英]帕特里克·米尔罗伊;

2021-01-15 11:16:48 286

原创 【Hive】删除含有特殊符号的分区

一、问题描述由于操作失误,生成了一些含有特殊字符的分区,如:-- 1.插入数据insert overwirte table test partition(dt)select col, '%(data_date)s' as dtfrom src_test;-- 2.查看分区show partitions test;dt=%25(data_date)sdt=2020-08-10dt=2020-08-01...当尝试删除它们的时候,发现怎么也不奏效:-- 尝试1alte

2020-08-10 16:41:58 2066

转载 【Hive】生成动态日期序列

一、问题描述已知开始日期和结束日期,动态生成此范围内的日期序列。具体如下:二、解决方案1.原始表 testcreate table test asselect 'A' as id, '2019-01-07' as begin_date, '2019-01-10' as end_dateunion allselect 'A' as id, '2019-01-01' as begin_date, '2019-01-04' as end_dateunion allselect

2020-07-23 17:59:40 3749

转载 【Pregsql】多列间横向去重

一、问题选出5列中非空唯一值大于等于2的行,数据如下,目标行为第1行:二、解决1.此问题可看做多列间的横向去重,主要思路:(1)通过array()函数将列变成数组;再通过unnest()把array类型展开成多行;(2)通过子查询语法封装上述数据,进行非空筛选和唯一值统计;代码如下:select *from ( select '1' as col1, '2' as col2, ' ' as col3, '1' as col4, '3' as col5 un

2020-07-16 09:03:46 470

原创 【HIVE】UDAF之截尾均值

一、背景 最近在做分析时,一旦数据含有极端值,均值常常异常,对此,试图通过截尾均值解决此问题。 于是提出:在hive中新建一个UDAF(聚类函数),计算一组数值的截尾均值。二、方案 参考percentile()函数MR计算逻辑,通过截尾比例计算出有效数据区间,对有效数据区间求均值。三、实现1.函数源码:UDAFTrimAvg.javaim...

2020-04-28 17:40:02 979

转载 【Python】使用CGI编写简单Web表单

一、问题折腾了大半天,终于搞定。被网上各种模模糊糊Apache关于CGI 配置弄得心力交瘁。最终是通过python 3 中http.server搞定本地服务器。二、方案1.脚本前端网页friends.html<HTML> <HEAD> <TITLE>Friends CGI Demo (static scr...

2020-03-15 15:07:16 579

原创 【Python】使用pip命令为PyCharm安装第三方包

一、问题1.背景:Win10,先安装Anaconda后,再装的PyCharm(使用anaconda的python.exe)。2.问题:使用常规方法为PyCharm安装第三方包时(File>Settings>Project: pyPrograms>Project Interpreter),经常有些包找不到 或 安装失败。二、解决1.说明:在终端中使用pip命令...

2020-03-11 17:12:53 1917

转载 【数据仓库】简介

一、背景前段时间刚好从事相关的工作,趁着有空,将相关搜集的资料整合记录分享一下,欢迎大家补充。二、概念数据仓库(Data Warehouse)是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。[参考]1.十问十答,带你了解数据仓库2.大数据环境下该如何优雅地设计数据分层三、分层架构1.概念(1)数据仓...

2020-02-04 17:05:48 250

转载 【Hadoop】VM虚拟机上搭建Hadoop集群

一、背景 这件事做了N次,每次因为各种原因失败(比如,环境配置,hadoop参数设置),终于在春节前夕搞定。 主要流程参照TMH_ITBOY的文章进行,再结合个人需求进行调整。 在此记录和分享一下。二、部署规划三、流程【Step 1】 VMware新建虚拟机补充:(1)VMware 15.0.3下载(2)虚拟机存储位置改...

2020-01-23 13:15:00 1249

原创 【读书】2020年阅读记录

一、运动训练1.《你可以跑得更快》; 徐国峰; 跑步技术指导;2.《强风吹拂》; 三浦紫苑; 跑者精神粮食;二、方法1.《目的》; 艾利•高德拉特; TOC制约和精益生产;2.《OKR工作法:谷歌、领英等顶级公司的高绩效秘籍》;克里斯蒂娜·沃特克;三、金融1.《聪明的投资者》; 格雷厄姆; 价值投资;四、经济学1.《牛奶可乐经济学》; 罗伯特·...

2020-01-07 08:57:51 495

原创 【HIVE】窗口函数中数据窗口BUG

一、问题1. 单独使用窗口函数sum() over() 计算rows between 1 following and 3 following(假设当前行为x, 数据框应为[x+1, x+3])时,计算结果错误。sum(value) over(partition by name order by sortcol rows between 1 following and 3 followin...

2019-12-06 15:03:36 455

原创 【Hive】使用str_to_map代替过长的case when

问题描述:在使用case when 解析身份证前2位户籍地址时,觉得语句太长了(占用行数较多)。于是尝试使用“字典”的概念去替代,即通过str_to_map()将户籍信息写成KV的字典形式。如:(户籍信息太长了,只列出部分)~1. 使用case whenselect case substr(idcard,1,2) when '11' th...

2019-11-22 11:21:19 882

原创 【观影】2019年观影记录

主要记录个人今年的观影情况(按大致的时间顺序)。如果有好电影,请给我分享快乐哦~观影工具:电影院、腾讯视频备注:电影的类型会很随意,按心情来~但是,最爱的是迪士尼的动画片!!!【Finish】流浪地球 夺命金 追龙 X战警:黑凤凰 宠物大作战1 何以为家 玩具总动员4 白蛇缘起 哪吒 西葫芦的生活 垫底辣妹 反叛的童谣 自闭历程 徒手攀岩 人再...

2019-11-21 12:08:26 416

原创 【读书】2019年阅读记录

主要记录个人今年的阅读情况,以及部分带有强烈主观思想的读书笔记输出(按大致的时间顺序)。如果有好书,请给我分享快乐哦~阅读工具:微信阅读(90%)、Kindle(最近拾起,并在家使用)备注:什么心情看什么书,所以,前半年金融类的书占比较大,后面全是心灵修炼的书,o(╥﹏╥)o,岁月沧桑,我还是少年!看书一时爽,整理读书笔记痛一天!(读书笔记有空再传)【看完】(备注:红色为...

2019-11-08 18:42:37 550

原创 【Hive】快速查看表的行数

发现一个查看表行数的方法,即利用EXPLAIN命令,通过查看查询的执行计划中的TableScan操作中的Statistics得知数据量。例如:[IN]explainselect * from test_tab;[OUT]...

2019-10-09 09:39:18 11551 2

原创 【Hive】连续几日的计算逻辑

1.问题计算员工日销量大于500元的连续天数。2.解决2.1 思路step1:对全量数据排序,得到序号rn1;step2:对满足条件的数据排序,得到序号rn2;step3:求两个序号的差值,即rn1-rn2(若为连续,则为等差,且差值相等);step4:group by 序号的差值,得到连续天数;2.2 代码select emp_no, sale,...

2019-09-12 15:22:24 854

原创 【Hive】查看表的基本信息(comment,created_at,creator, transient_lastDdlTime)

1.前言原本只是想简简单单查一下表的基本信息(如表的注释、创建时间等),然后汇总一下便于查看。结果搜索加尝试了半天,要么就desc tablename只能看表结构,desc formatted tablename 的comment中文乱码。后面终于找到解决我需求的方法↓↓↓2.解决SHOW TBLPROPERTIES table_name;...

2019-08-29 17:27:34 7707 3

原创 【Hive】生成K-V格式的数据

1.方法一map函数[input]select map('key1','value1', 'key2','value2')[out]{'key1':'value1', 'key2':'value2'}附属函数还有:str_to_map,map_keys,map_values,size2.方法二:用concat、concat_ws拼接...

2019-08-20 17:43:51 834

原创 【其他】融资融券

【参考】1.中国证券金融股份有限公司http://www.csf.com.cn/publish/main/index.html2.融资融券WIKIhttps://wiki.mbalib.com/wiki/%E8%9E%8D%E8%B5%84%E8%9E%8D%E5%88%B8

2019-08-06 13:13:10 396

原创 【Python】将statsmodels库训练好的模型OLS保存本地

【参考】1.https://ask.helplib.com/python/post_128509272.https://blog.csdn.net/qq_33363973/article/details/77881168【代码】1.因为文件的类型是字节bytes型的, 所以写入的模式必须是'wb',读取是'rb'。import statsmodels.api as sm...

2019-07-30 15:19:51 2707 1

原创 【Spark】def函数中参数为RDD

【参考】1.Scala定义函数的5种方式2.Spark RDD如何作为参数传递给函数3.scala函数定义与使用1.说明 最近在学习Spark(scala),在使用def自定义函数时,遇到传入RDD[String]类型报错,在此记录和分享一下我的解决方法。 data为从txt读入的多组年龄数据(格式为序号+年龄),Average函数的任务是解析出...

2019-07-24 14:10:40 1430

转载 【机器学习】回归树

【参考】1.机器学习算法—Regression Tree 回归树:https://juejin.im/post/5a7eb1f06fb9a0636108710a2.回归树(Regression Tree):https://www.cnblogs.com/wuliytTaotao/p/10724118.html3.GBDT(MART) 迭代决策树入门教程 | 简介:https://blo...

2019-07-19 09:49:17 156

转载 【excel】对双引号转义

【参考】1.Excel函数中引号字符转义【方法】两个"的方式进行转义,例如(拼接key和value):=""""&A2&""":"&B2&","

2019-07-09 18:01:57 25980 1

原创 《应用商务统计分析》第二章 方差分析(代码)

广州市商品房价格影响因素分析报告一、数据采集链家网房价数据爬虫(github)二、分析流程(github)0.参数设置import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport statsmodels.api as smfrom statsmodels.formula....

2019-07-03 18:44:23 525

原创 《应用商务统计分析》第二章 方差分析(报告)

说明:本报告仅供学习娱乐,不代表任何实操建议。同时欢迎各位大佬指点交流~报告地址:因为博客里面的编辑界面不太友好(本人懒),所以将报告上传至了github;...

2019-07-03 18:23:24 415

转载 【python】常用参数设置

(以免老是忘记,重复去搜索)1.Pandas 打印时,显示的行数/列数import pandas as pdpd.set_option('display.max_columns', 500) # 最多打印500列,若为None,则为不限制pd.set_option('display.max_rows', 500) # 最多打印500行,若为None,则为不限制2.不以...

2019-07-03 13:44:06 480

原创 【python】计算动态时点的百分位数

【说明】1.动态时点:每次计算的数据框为截止于当前行的数据,即累计行(多次计算);2.静态时点(当前时间):计算的数据框为所有行(一次计算);【代码】test = pd.DataFrame(np.random.randint(1, 10, size=10), columns=['value']) # 生成[1,10]的随机整数test['pct_sf'] = test....

2019-07-02 17:00:56 1362

转载 【其他】对数转换的作用

【参考】1.在统计学中为什么要对变量取对数?2.为何经常通过取对数来消除异方差性?【总结】结合个人理解,对上述参考资料中关于“对数转换的作用”的相关观点进行如下总结:1.缩小数据的绝对数值大小。如:企业资产;2. 将乘法计算转换称加法计算。即,logx-logy=log(x/y),logx+logy=log(xy);3.某些情况下,在数据的整个值域中的在不同区间...

2019-07-01 13:56:12 8429

转载 【Python】DataFrame获取列名

【参考】1.从pandas DataFrame列标题中获取列表假定有数据集df,格式为dataframe,现想获取其列名,列举以下几种方法:1. df.columns返回的是array格式。2. list(df)返回list格式。(最近获知,非常方便,原理待探究)3. df.keys()...

2019-06-26 13:34:51 72348 1

原创 《应用商务统计分析》第一章 线性回归(报告)

说明:本报告仅供学习参考,不代表任何投资建议。同时欢迎各位大佬指点交流~报告地址:因为博客里面的编辑界面不太友好(本人懒),所以将报告上传至了github;...

2019-06-04 11:21:31 634

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除