a useful man-CSDN博客

实证分析中，我们经常需要控制各个维度的个体效应，以便尽可能减轻遗漏变量导致的偏误。在最常用的二维面板数据中，我们通常会采用xtreg y x i.year, fe的形式来控制公司个体效应和年度效应。然而，在有些情况下，我们需要对三维甚至更高维度的数据进行分析 (例如，公司-年度-高管，省份-城市-行业-年度)，此时，一方面要考虑估计的可行性，另一方面还需兼顾计算速度问题。...

2022-07-31 10:48:04 31282 3

原创 Writing Tools I Use To Get More Views And Engagement On My Post

You can access all the tools here —HemingwayEffie(Must)ProWritingAidThesaurusHeadline Analyser

2022-07-31 10:46:49 252

Default probability is the likelihood over a specified period, usually one year, that a borrower will not be able to make scheduled repayments. It can be applied to a variety of differentrisk managementor credit analysis scenarios.

2022-07-30 16:32:31 291

原创 Zotero配置

Zotero配置

2022-06-17 11:15:39 12345 3

原创 Weighted distance in sklearn KNN

Weighted distance in sklearn KNN我正在制定一种遗传算法来查找权重，以便将其应用于sklearn KNN中的欧几里得距离，试图提高分类率并删除数据集中的某些特征(我通过将权重更改为0来实现)。我正在使用Python和sklearn的KNN。这就是我的使用方式：def w_dist(x, y, **kwargs): return sum(kwargs["weights"]*((x-y)*(x-y)))KNN = KNeighborsClassifier(n_ne

2022-03-24 16:33:59 1466

原创 sklearn计算两个向量之间的距离

from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.metrics.pairwise import euclidean_distancesfrom sklearn.feature_extraction.text import TfidfVectorizerimport jieba def seg_word(sentence): """对句子分词""" seg_list = jieba.cut

2022-03-24 16:31:54 469

原创 scikit-learn库中聚类算法自定义距离度量方式

scikit-learn是非常漂亮的一个机器学习库,在某些时候,使用这些库能够大量的节省你的时间,至少,我们用Python,应该是很难写出速度快如斯的代码的. scikit-learn官方出了一些文档,但是个人觉得,它的文档很多东西都没有讲清楚,它说算法原理的时候,只是描述一下,除非你对这种算法已经烂熟于心,才会对它的描述会心一笑,它描述API的时候,很多时候只是讲了一些常见用法,一些比较高级的用法就语焉不详,虽然有很多人说,这玩意的文档写得不错,但是我觉得特坑.所以这篇博文,会记录一些我使用这个库的时.

2022-03-24 16:28:40 1047

原创《系统工程理论与实践》Latex 模板使用教程

模板下载地址：http://www.sysengi.com/CN/column/column199.shtml 能得到一个 model2019.tex 文件。按期刊官网的要求，要使用 CTeX（重装 N 次后，我终于明白 Tex Live 无法解决这个模板），因此首先要安装 CTeX。 CTeX 官网：http://www.ctex.org/CTeXDownload 我们下载 Full 版本，安装即可。安装成功后，可以在最近添加那里找到 TeXWorks，运行这个软件，打开从期

2022-02-14 12:37:59 1351 3

原创车辆贷款违约预测挑战赛

2021科大讯飞-车辆贷款违约预测挑战赛--方案简介车贷违约预测问题，目的是建立风险识别模型来预测可能违约的借款人。预测结果为借款人是否可能违约，属于二分类问题。偏数据挖掘的比赛，关键点是如何基于对数据的理解抽象归纳出有用的特征。站在大佬的视角，尝试学习总结，站在巨人的肩膀上，也许看得会更远一些。直接进入主题，开始学习套路，芜湖~特征工程1、常用库、数据导入import pandas as pdimport numpy as npimport lightgbm as lgbimport xgboost

2022-02-13 11:20:50 2553

原创 windows10 LTSC转换成pro

前提为了提前体验win11,需要把电脑从ltsc转为普通专业版操作如下下载windows附件包，解压到C盘根目录 https://pan.baidu.com/s/19uSU1TXJORBoLJn9tGsNkw 管理员身份运行命令提示符，输入并回车运行以下命令： dism /NoRestart /online /add-package /packagepath:C:\Pro-LTSC\x64.cab 注意：如果是32位，请改成x86.cab 然后继续运行激活命令：

2022-01-31 03:04:43 2752

原创 MATLAB实现偏最小二乘回归PLS

这一定是一篇真正的傻瓜攻略，原理为根，算法为骨，应用为肉，傻瓜为皮。本文主要介绍偏最小二乘回归的基本实现，主要内容基于司守奎《数学建模算法与应用》第11章，在其基础上进行优化。偏最小二乘回归分析偏最小二乘回归是回归分析方法的一种，其可以进行多对多线性回归建模，特别当两组变量的个数很多，且都存在多重相关性，而观测数据的数量（样本量）又较少时，用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。偏最小二乘回归分析在建模过程中集中了主成分分析、典型相关分析和线性回归分析方法的特点，因

2022-01-25 15:20:46 5812 1

原创 Python时间戳转时间

要将时间戳转化为北京时间，这里涉及一个时区的问题，由于Python默认只有时间戳转化为UTC时间的函数，所以这里要引入pytz这个库首先安装pytz模块，使用pip install pytzimport timeimport datetimeimport pytztz = pytz.timezone('Asia/Shanghai') #东八区t = datetime.datetime.fromtimestamp(int(time.time()), pytz.timezone('Asia/Sh

2022-01-20 20:50:46 9910

原创 Stata回归结果输出

1. 问题在实证分析中，我们经常需要在模型中加入行业虚拟变量、年度虚拟变量等，以便控制不可观测的行业个体效应或年度个体效应。然而，在正式报告结果时，我们无需报告这些虚拟变量的系数，否则结果表格会变得非常冗长。简言之，在估计模型时，我们需要加入这些虚拟变量，而在最终呈现结果时，只在表格中进行标注，说明我们已经控制了这些虚拟变量，而受限于篇幅，没有呈现这些变量的估计系数。 2. 解决方法 1事实上，Stata 里有多个命令可以帮我们处理这种情形。这里以 esttab 命令为例进行说明。2.1

2022-01-11 17:42:03 25778 1

原创用Python学数学之Sympy代数符号运算

在我们初、高中和大学近10年的学习时间里，数学一直占据着非常大的分量，但是回忆过去可以发现，我们把大量的时间都花在反复解题、不断运算上，计算方法、运算技巧、笔算能力以及数学公式的记忆仿佛成了我们学习数学的全部。这些记忆和技巧没几年就忘掉了，但很多人甚至还记得那份阴影；笔算与解题在AI、图形图像、数据分析等上被软件所取代。那我们学生时代的数学还剩下什么呢？计算器与数学说起数学计算器，我们常见的是加减乘除四则运算，有了它，我们就可以摆脱笔算和心算的痛苦。四位数以上的加减乘除在数学的原理上其实并不难，但是如果

2022-01-11 00:20:39 1125

转载 MATLAB符号计算

（1）sym函数sym函数用来建立单个符号量，例如：符号变量名=sym（符号字符串）x=sym(‘x’)（2）syms函数定义格式为：syms x y z w z 注意：各个变量之间要用空格，不要用“，”隔开。（3）提取分子与分母利用numden函数来进行提取符号表达式中的分子分母,[n,d]=numden(s)，其中n为分子，d为分母。例如：[n,d]=numden(sym(1/2))（4）因式分解与展开factor(x)：对x进行分解因式；expand(x)：对x进行展开；coll

2022-01-11 00:19:02 218

原创 Quantile Regression，python

这里写目录标题1. 分位数回归的数学原理2. 分位数回归的求解原理3 python 分位数回归1. 分位数回归的数学原理一般的回归方法是最小二乘法，即最小化误差的平方和：其中，yiy_iyi是真实值，而 y^i\hat{y}_iy^i是预测值。而分位数的目标是最小化加权的误差绝对值和：其中， τ\tauτ 是给定的分位数。决策变量是y^i\hat{y}_iy^i，可以证明，使上面表达式最小化的y^i\hat{y}_iy^i 就是给定分位数 τ\tauτ 对应的分位点（将上面式子转

2022-01-06 22:44:04 262

原创最优风险资产组合-Python

最优风险资产组合-Python笔记丁立在简书关注赞赏支持最优风险资产组合-Python笔记最近研究了下最优风险资产组合这个题目。本小白在金融领域是个纯粹的初学者，开始的时候，有点不知所措。后来在网上找了下计算最优风险资产组合、有效边界、资本市场线的资料以及程序实现。发现资料虽然不少，但是系统的讲解还是不多。也有系统讲解的书，但是感觉并不是很通俗，需要预先打好基础。所以，经过了一段时间的学习，归纳了参考书的内容，觉得很有必要做下总结笔记，温故而知新。本文为学习笔记，肯定会有错误或者主观臆想之处，请多多包

2022-01-03 21:12:34 6832 3

原创多分类神经网络原理

一. 线性多分类问题 1 提出问题我们解决了公元前的楚汉相争的问题，现在看一下公元220年前后的三国问题。在数据集中一共有140个样本数据，分类标签值的含义： 1.魏国城池：标签为1，下图中蓝色点 2.蜀国城池：标签为2，下图中红色点 3.吴国城池：标签为3，下图中绿色点问题： 1.经纬度相对值为（5,1）时，属于哪个国？ 2.经纬度相对值为（7,6）时，属于哪个国？ 3.经纬度相对值为（5,6）时，属于哪个国？ 4.经纬度相对值为（2,7）时，属于哪个国？ 2 多分类学习策略

2022-01-03 21:07:11 5063

原创 matlab保存到excel

angle = [-180 -165 -150 -135 -120 -105 -90 -75 -60 -45 -30 -15 0 15 30 45 60 75 90 105 120 135 150 165 180];CFX = [0.043011 0.055914 0.11613 0.24086 0.42581 0.62366 0.75699 0.7914 0.64946 0.4172 0.20215 0.08172 0.060215 0.13763 0.33978 0.61935 0.84301 0.9

2021-12-10 14:34:58 459

原创 zillow房价预测

数据介绍该项目是Data Castle上的美国King County房价预测训练赛，用到的数据取自于kaggle datasets，由@harlfoxem提供并分享，但是只选取了其中的子集，并对数据做了一些预处理使数据更加符合回归分析比赛的要求。数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。数据分为训练数据和测试数据，分别保存在kc_train.csv和kc_test.csv两个文件中。其中训练数据主要包括10000条记录，14个字段，主要

2021-12-03 11:29:57 395

原创 matplotlib画图中文显示

import matplotlib.pyplot as plt# 支持中文plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号

2021-12-01 15:08:25 228

原创 XGBoost输出特征重要性以及筛选特征

XGBoost输出特征重要性以及筛选特征 1，梯度提升算法是如何计算特征重要性的？使用梯度提升算法的好处是在提升树被创建后，可以相对直接地得到每个属性的重要性得分。一般来说，重要性分数，衡量了特征在模型中的提升决策树构建中的价值。一个属性越多的被用来在模型中构建决策树，它的重要性就相对越高。属性重要性是通过对数据集中的每个属性进行计算，并进行排序得到。在单个决策树中通过每个属性分裂点改进性能度量的量来计算属性重要性。由节点负责加权和记录次数，也就是说一个属性对分裂点改进性

2021-12-01 14:54:14 6876

原创用随机森林分类器和GBDT进行特征筛选

一、决策树（类型、节点特征选择的算法原理、优缺点、随机森林算法产生的背景）1、分类树和回归树　　由目标变量是离散的还是连续的来决定的；目标变量是离散的，选择分类树；反之（目标变量是连续的，但自变量可以是分类的或数值的），选择回归树；　　树的类型不同，节点分裂的算法和预测的算法也不一样；　　分类树会使用基于信息熵或者gini指数的算法来划分节点，然后用每个节点的类别情况投票决定预测样本的分类；回归树会使用最大均方误差来划分节点，然后用每个节点中样本的均值作为测试样本的预测值；2、决策树的算法：ID3

2021-12-01 14:48:14 2451

原创 GBDT指标重要性计算

集成学习因具有预测精度高的优势而受到广泛关注，尤其是使用决策树作为基学习器的集成学习算法。树的集成算法的著名代码有随机森林和GBDT。随机森林具有很好的抵抗过拟合的特性，并且参数（决策树的个数）对预测性能的影响较小，调参比较容易，一般设置一个比较大的数。GBDT具有很优美的理论基础，一般而言性能更有优势。关于GBDT算法的原理请参考我的前一篇博文《GBDT算法原理深入解析》。基于树的集成算法还有一个很好的特性，就是模型训练结束后可以输出模型所使用的特征的相对重要度，便于我们选择特征，理解哪些因素是对预测

2021-12-01 10:23:47 1975

原创 kmeans聚类选择最优K值python实现

Kmeans算法中K值的确定是很重要的。下面利用python中sklearn模块进行数据聚类的K值选择数据集自制数据集，格式如下： ①手肘法手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐

2021-11-29 16:16:27 1296

原创 Python去除字符串前后空格

其实如果要去除字符串前后的空格很简单，那就是用strip()，简单方便 >>> ' A BC '.strip()'A BC' 如果不允许用strip()的方法，也是可以用正则匹配的方法来处理。 >>> s1 = ' A BC'>>> s2 = 'A BC '>>> s3 = ' A BC '>>> s4 = 'A BC'>>> def trim(s):... import

2021-11-29 10:00:19 9136

原创 spss数据分析--信度效度分析

信度和效度分析在问卷分析中大多都会用到的，即使是成熟的问卷，一般也是需要做的，在本科和研究生的论文中均适用。信度和效度相当于是对于问卷质量的一个前置条件，如果问卷的信度和效度比较好，证明问卷的数据可靠性比较高，问卷数据内部一致性比较高，所以可以用来做后续的建模分析，相反，如果信度和效度不高，可能就需要重新设计问卷，发放问卷。信度分析在spss的分析中，最主要的Cronbach’s alpha系数。操作步骤为：点击分析-标度-可靠性分析-选择项-确定，只需要把问卷中的题目放到信度分析的选项框中就可以：得到的结

2021-11-28 16:40:36 26977 2

SAS University Edition：Windows安装指南.pdf

SAS下载及安装指南，可劲薅。。。SAS engages industry analysts for their recommendations on our software, messaging and other market and competitive information. Analyst firms offer advice and research, through their publications, events and consulting projects, to companies that are evaluating technology purchases.

2020-07-15

尚硅谷MySql核心技术.txt

工具、视频、代码、笔记 MySQL是一个关系型数据库管理系统，由瑞典MySQL AB 公司开发，目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一，在 WEB 应用方面，MySQL是最好的 RDBMS (Relational Database Management System，关系数据库管理系统) 应用软件之一。 MySQL是一种关系数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样就增加了速度并提高了灵活性。 MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策，分为社区版和商业版，由于其体积小、速度快、总体拥有成本低，尤其是开放源码这一特点，一般中小型网站的开发都选择 MySQL 作为网站数据库。由于其社区版的性能卓越，搭配 PHP 和 Apache 可组成良好的开发环境。

2019-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人