haozhepeng-CSDN博客

原创 pyspark

# groupby 取最大值最小值中位数偏度峰度最后尝试成功的方案---from pyspark.sql.functions import first, collect_list, mean,stddev, skewness, kurtosis,min,max,exprdf.groupBy("pass_stop_id").agg(min("pts_num"),max("pts_num"),mean("pts_num"),expr('percentile_approx(pts_num, 0.5)'),fi

2021-09-22 18:17:14 133

原创 git 命令

git 命令git status 查看本地变动的目录git add 目录提交目录（git add -A 提交所有变化，-u 提交被修改(modified)和被删除(deleted)文件，不包括新文件(new)，.提交新文件(new)和被修改(modified)文件，不包括被删除(deleted)文件）git commit -m "备注" 提交git statusgit push origin master 在本地向远程提...

2021-04-23 14:46:24 115

转载 mac GBK编码转UTF-8编码

转https://www.jianshu.com/p/ac6aa4c09595iconv -f GBK -t UTF-8 /Users/wangyingjing/Downloads/SQL课程数据源/2.4/订购明细20110901.txt > /Users/wangyingjing/Desktop/订购明细20110901.txt作者：ENGINE_129a链接：https://www.jianshu.com/p/ac6aa4c09595来源：简书著作权归作者所有。商业转..

2020-07-09 17:14:59 701

原创道格拉斯-普克算法

道格拉斯-普克算法(Douglas–Peucker algorithm，亦称为拉默-道格拉斯-普克算法、迭代适应点算法、分裂与合并算法)是将曲线近似表示为一系列点，并减少点的数量的一种算法。该算法的原始类型分别由乌尔斯·拉默（Urs Ramer）于1972年以及大卫·道格拉斯（David Douglas）和托马斯·普克（Thomas Peucker）于1973年提出，并在之后的数十年中由其他学者予...

2020-05-06 11:39:13 1296

转载异常波动识别算法

张若雪：自动识别金融市场异常波动——机器学习的一个应用2019-09-23糖儿p7tz6...转自挑燈看劍r7w...修改打开今日头条，查看更多图片文/中国人民银行上海总部张若雪金融市场一直处于波动之中。大部分时间市场波动都是正常的，但有一些波动，源于突然发生的外部冲击或者未被预期的其它因素，从而表现出不同于正常模式的异常状态。这些异常波...

2019-09-23 11:26:24 4271

转载关联规则挖掘

转https://www.cnblogs.com/lsqin/p/9342926.htmlPython机器学习算法 — 关联规则（Apriori、FP-growth）关联规则 -- 简介关联规则挖掘是一种基于规则的机器学习算法，该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现，而非预测...

2019-09-16 15:59:45 1757

转载 Linux 添加自定义命令

Linux 添加自定义命令前一阵子更换Linux衍生版的频率有点高 -_-|||，各个衍生版的Linux Shell命令还是又一些差异的，例如有的衍生版会有ll，la等等这些命令，其实这些东西基本都是在Shell的初始化脚本中做的。一般来说，Shell的初始化脚本分为2种：一种是全局默认的，一种是用户自己的。全局默认的路径为/etc/profile在profile中，它默认会再加载/etc...

2019-09-12 16:15:12 163

原创 shell 参数

$0 这个程式的执行名字$n 这个程式的第n个参数值，n=1..9$* 这个程式的所有参数,此选项参数可超过9个。$# 这个程式的参数个数$$ 这个程式的PID(脚本运行的当前进程ID号)$! 执行上一个背景指令的PID(后台运行的最后一个进程的进程ID号)$? 执行上一个指令的返回值 (显示最后命令的退出状态。0表示没有错误，其他任何值表明有错误)$- 显示shell使用的当前选项...

2019-09-10 15:30:43 85

转载 find,locate,whereis,which命令

1. findfind是最常见和最强大的查找命令，你可以用它找到任何你想找的文件。查找hzp 目录下第一级中有没有包含hh 的目录find ./hzp -maxdepth 1 -type d -name "*hh*"find的使用格式如下：　　$ find <指定目录> <指定条件> <指定动作>　　- <指定目录>：所...

2019-09-06 18:18:51 169

原创 Linux PATH 作用以及查看和修改方法

目录PATH作用查看PATH修改PATHPATH作用PATH说简单点就是一个字符串变量，当输入命令的时候LINUX会去查找PATH里面记录的路径所以，path 配置的路径下的文件可以在任何位置执行，并且可以通过which 可执行文件命令来找到该文件的位置查看PATHecho $PATH使用env命令显示所有的环境变量：$ env使用set命令...

2019-09-06 18:10:07 26532

原创常用快捷键（vi ,iterm,chrome）

目录iterm快捷键vi快捷键chrome 快捷键command+D 并列分屏新开窗口command+shift+D 上下分屏新开窗口command+回车全屏切换command + t 新建标签command + w 关闭当前标签command + shift + h 查看剪贴板历史command + r 清屏vi快捷键dd: 删除当前行n...

2019-09-06 14:19:01 142

转载 sklearn特征工程总结

总结：sklearn机器学习之特征工程0.6382017.09.25 15:40:45字数 6064阅读 71130 关于本文主要内容和结构框架由@jasonfreak--使用sklearn做单机特征工程提供，其中夹杂了很多补充的例子，能够让大家更直观的感受到各个参数的意义，有一些地方我也进行自己理解层面上的纠错，目前有些细节和博主再进行讨论，修改部分我都会以删除来表示，读者可以自...

2019-09-05 17:51:59 1387

转载计算广告中的lookalike是如何实现的？

计算广告中的lookalike是如何实现的？2019.03.04 17:16:16字数1372阅读1968什么是lookalikelookalike算法是计算广告中的术语，不是单指某一种算法，而是一类方法的统称。其目的就是为了实现人群包扩充。简单场景广告主需要对100w人投放，但是，从选取的基础数据包中，只有30w，那么如何满足100w的投放需求，这时，就需要通过lookali...

2019-09-03 15:09:44 1130

转载 matplotlib 绘图

python使用matplotlib绘制折线图教程转https://www.cnblogs.com/onemorepoint/p/7482644.htmlMatplotlib是一个Python工具箱，用于科学计算的数据可视化。借助它，Python可以绘制如Matlab和Octave多种多样的数据图形。下面这篇文章主要介绍了python使用matplotlib如何绘制折线图的方法教程，需要的...

2019-08-29 18:22:20 141

原创数据结构算法

LCShttps://www.cnblogs.com/LCCRNblog/p/4321398.html背包问题https://www.cnblogs.com/yun-an/p/11037618.html

2019-08-12 07:38:28 84

原创面试-数据结构

1.快排 :https://www.cnblogs.com/KuJo/p/8544775.html图文解释https://www.cnblogs.com/aishangJava/p/10099832.html代码https://github.com/asunnybaby/Base_Algorithms代码2.排列组合求比它小的数中的最大的从右向左，如果遇到当前数字...

2019-07-24 13:29:59 192

原创 wor2vec

word2vec语言模型有两种，CBOW和skip-gram,优化方式有两种hierarchical softmax (huffman 树)，negative sample (负采样)其中 skip-gram 和hierarchical softmax 对罕见词有利，CBOW和负采样速度快，CBOW对常见词和低纬向量有利https://www.cnblogs.com/pinard/p/72...

2019-07-24 13:05:55 113

转载处理缺失值

处理缺失值主要有以下几种方法：1.当某个变量或者某个样本中缺失值占比过大时，那么我们可以认为这一变量或者样本没有意义，可以直接删除。2.用平均值、中值、分位数、众数、随机值等替代。效果一般，因为等于人为增加了噪声。3.用其他变量做预测模型来算出缺失变量。效果比方法2略好。有一个根本缺陷，如果其他变量和缺失变量无关，则预测的结果无意义。如果预测结果相当准确，则又说明这个变量是没必要加入建...

2019-07-14 08:58:22 831

转载特征工程

转https://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾3...

2019-07-13 23:59:28 100

原创如何解决样本不均衡问题

转：https://zhaokv.com/machine_learning/2016/01/learning-from-imbalanced-data.html这几年来，机器学习和数据挖掘非常火热，它们逐渐为世界带来实际价值。与此同时，越来越多的机器学习算法从学术界走向工业界，而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的，但绝对是最重要的问题之一。一、数据不平衡在学术研究与...

2019-07-13 23:52:22 490

转载归一化和标准化

转自：https://www.cnblogs.com/nxf-rabbit75/archive/2019/04/11/10688593.html一、是什么？1.归一化　　是为了将数据映射到0~1之间，去掉量纲的过程，让计算更加合理，不会因为量纲问题导致1米与100mm产生不同。　　归一化是线性模型做数据预处理的关键步骤，比如LR，非线性的就不用归一化了。　归一化就...

2019-07-13 23:50:46 245

转载特征降纬PCA，LDA

参考：https://www.jianshu.com/p/6a9db201cb13当特征选择完成后，可以直接训练模型了，但是可能由于特征矩阵过大，导致计算量大，训练时间长的问题，因此降低特征矩阵维度也是必不可少的。但不要盲目降维，当你在原数据上跑到了一个比较好的结果，又嫌它太慢的时候才进行降维，不然降了半天白降了。常见的降维方法有主成分分析法（PCA）和线性判别分析（LDA），线性判别分析...

2019-07-13 23:22:04 153

转载批量梯度下降，随机梯度下降，小批量梯度下降

转https://www.cnblogs.com/lliuye/p/9451903.html批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解梯度下降法作为机器学习中较常使用的优化算法，其有着三种不同的形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下...

2019-07-13 19:43:55 598

原创 8-5 lightGBM

参考&引用：https://blog.csdn.net/huacha__/article/details/81057150&https://blog.csdn.net/qq_24519677/article/details/82811215&https://blog.csdn.net/u010242233/article/details/79769950&原始论文...

2019-07-09 17:19:10 262

原创 8-4 XGB

参考&引用：陈天奇论文，ppt等(已上传https://download.csdn.net/download/haozhepeng/11287103) &https://blog.csdn.net/qq_22238533/article/details/79477547目录一、原理1.Bias-Variance(偏差方差思想)2.XGB过程推导XGB过程简述...

2019-07-09 15:54:22 480

转载异常点检测算法

转自：https://www.cnblogs.com/pinard/p/9314198.html异常点检测，有时也叫离群点检测，英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法，这里就对异常点检测算法做一个总结。1.异常点检测算法使用场景　　　　什么时候我们需要异常点检测算法呢？常见的有三种情况。一是在做特征工程的...

2019-07-08 11:58:24 2606

原创 8-3 GBDT

引用&参考文章GDBT原始文章（已上传https://download.csdn.net/download/haozhepeng/11287103)）https://blog.csdn.net/qq_22238533/article/details/79185969&https://www.cnblogs.com/massquantity/p/9174746.html...

2019-07-06 19:27:01 269

原创 8-2 boosting &Adaboosting

boosting 也是一种集成方式，目前比较火的有 GDBT，XGB，LGBM，Adaboosting等。它通过最小化误差的思路，来串行的集成多个弱分类器。即个体学习器间存在强依赖关系、必须串行生成的序列化方法。下面内容参考引用https://blog.csdn.net/u012258999/article/details/42457577和https://blog.csdn.net/Lia...

2019-07-05 14:36:13 821

原创 8-1 bagging & 随机森林

目前常见的集成（ensemble）学习方法：bagging,RF(采用了bagging 思想)，boosting(adaboosting, GBDT,XGB,LGBM)。两者不同在于 bagging是集成多个强分类器，思路是最小化方差。个体学习器间不存在强依赖关系、可同时生成的并行化方法。而boosting 是串行集成多个弱分类器，思路是最小化误差，下一个分类器需要依赖上一个的结果，多...

2019-07-05 13:57:36 173

原创 8-1决策树

一、熵 entropy表示随机变量不确定性，熵越大，不确定性越大。1.联合熵两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)2.条件熵：H(Y|X) = H(X,Y) - H(X)根据互信息定义展开得到H(Y|X) = H(Y) - I(X,Y)3. 对偶式H(X|Y)= H(X,Y) - H(Y)H(X...

2019-07-05 13:32:46 274

转载 anaconda python 版本更新

https://www.cnblogs.com/alicia-Programming/p/7076394.html

2019-06-18 17:45:45 2336

转载 hmm

https://www.cnblogs.com/pinard/p/7001397.html

2019-06-18 17:00:20 70

转载 Anaconda安装hmmlearn

https://www.zuozuovera.com/archives/938/在将一份python2.x的代码转到python3.6的时候发生的车祸现场。主要也因为最近将整个python的开发和学习环境迁移到了Anaconda上，然后在遇到hmmlearn这个包的时候，发现Anaconda安装这个包好像翻车了很多人。进入正题。报错现场from hmmlearn import h...

2019-06-18 16:02:16 4634 4

转载面试题链接

https://www.cnblogs.com/tornadomeet/p/3395593.htmlhttps://www.cnblogs.com/zuochongyan/p/5407053.html

2019-06-18 11:51:30 113

转载基于PostGIS的高级应用(1)--PgRouting百万级别路网查询优化

基于PostGIS的高级应用(1)--PgRouting百万级别路网查询优化转发https://www.jianshu.com/p/42e74122b9ac?utm_campaign=maleskine&utm_content=note&utm_medium=reader_share&utm_source=weibo前文《基于PgRouting的GIS网络分析-...

2019-05-17 15:14:42 1080

转载使用pgrouting进行最短路径搜索

转载https://www.cnblogs.com/weiweictgu/p/8280285.html PgRouting是基于开源空间数据库PostGIS用于网络分析的扩展模块，最初它被称作pgDijkstra，因为它只是利用Dijkstra算法实现最短路径搜索，之后慢慢添加了其他的路径分析算法，如A算法，双向A算法，Dijkstra算法，双向Dijkstra算法，tsp货郎担算法等，...

2019-05-17 14:59:05 677

转载 L1,L2

正则化项L1和L2的区别转https://www.cnblogs.com/lyr2015/p/8718104.htmlhttps://blog.csdn.net/jinping_shi/article/details/52433975https://blog.csdn.net/zouxy09/article/details/24971995一、概括：L1和L2是正则化项，又叫做...

2019-05-07 15:36:59 236

转载 AutoML

转自：https://zhuanlan.zhihu.com/p/48642938今天刚刚看到在arXiv上出现了一篇关于AutoML的比较全面的综述，于是赶紧略读了一下，第一时间做个简要的分享。论文地址：https://arxiv.org/abs/1810.13306。这是一篇来自第四范式(4Paradigm)公司的关于AutoML的综述文章。第四范式是目前国内关于AutoML研究较早...

2019-04-24 14:48:56 143

转载关于java中assert(断言)的使用讲解

引用https://www.cnblogs.com/niejianqiang/p/6551465.html1.eclipse、myeclipse开启assert(断言)，默认是关闭，如下：说白了就是设置一下jvm的参数，参数是-ea或者-enableassertions 2.assert格式（1）assert [boolean 表达式]如果[boolean表达式]...

2019-02-16 16:21:50 1100

原创 List、Set、Map的contains方法查找效率

1、Hash 类集合，在存储时会存以hash 值为数组下标的数组hash 11 AA,BB 22 CC 这样contains 时只用判断数组对应位置是否有值，没有直接返回，有的话再用equals 判断内容是否相等。所以 contains 的效率是o(1) 的，需要注意的是HashMap 对value 的查找是o(n) 的。HashSet底层其...

2019-01-29 17:13:47 5858

jahmm.rar，HMM google 开源 jar 包和source 文件

GBDT原始论文+XGB原始论文+陈天奇 ppt

get-pip.py

matplotlib-win64_py2.7.exe

scipy-win64-py27.exe

日期选择器js

OA种子软件管理系统前台

tomcat环境配置

空空如也