自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 资源 (8)
  • 收藏
  • 关注

原创 pyspark

# groupby 取最大值最小值中位数偏度峰度最后尝试成功的方案---from pyspark.sql.functions import first, collect_list, mean,stddev, skewness, kurtosis,min,max,exprdf.groupBy("pass_stop_id").agg(min("pts_num"),max("pts_num"),mean("pts_num"),expr('percentile_approx(pts_num, 0.5)'),fi

2021-09-22 18:17:14 133

原创 git 命令

git 命令git status 查看本地变动的目录git add 目录 提交目录(git add -A 提交所有变化 ,-u 提交被修改(modified)和被删除(deleted)文件,不包括新文件(new),.提交新文件(new)和被修改(modified)文件,不包括被删除(deleted)文件)git commit -m "备注" 提交git statusgit push origin master 在本地向远程提...

2021-04-23 14:46:24 115

转载 mac GBK编码转UTF-8编码

转https://www.jianshu.com/p/ac6aa4c09595iconv -f GBK -t UTF-8 /Users/wangyingjing/Downloads/SQL课程数据源/2.4/订购明细20110901.txt > /Users/wangyingjing/Desktop/订购明细20110901.txt作者:ENGINE_129a链接:https://www.jianshu.com/p/ac6aa4c09595来源:简书著作权归作者所有。商业转..

2020-07-09 17:14:59 701

原创 道格拉斯-普克算法

道格拉斯-普克算法(Douglas–Peucker algorithm,亦称为拉默-道格拉斯-普克算法、迭代适应点算法、分裂与合并算法)是将曲线近似表示为一系列点,并减少点的数量的一种算法。该算法的原始类型分别由乌尔斯·拉默(Urs Ramer)于1972年以及大卫·道格拉斯(David Douglas)和托马斯·普克(Thomas Peucker)于1973年提出,并在之后的数十年中由其他学者予...

2020-05-06 11:39:13 1296

转载 异常波动识别算法

张若雪:自动识别金融市场异常波动——机器学习的一个应用2019-09-23糖儿p7tz6...转自挑燈看劍r7w...修改 打开今日头条,查看更多图片 文/中国人民银行上海总部张若雪 金融市场一直处于波动之中。大部分时间市场波动都是正常的,但有一些波动,源于突然发生的外部冲击或者未被预期的其它因素,从而表现出不同于正常模式的异常状态。这些异常波...

2019-09-23 11:26:24 4271

转载 关联规则挖掘

转https://www.cnblogs.com/lsqin/p/9342926.htmlPython机器学习算法 — 关联规则(Apriori、FP-growth)关联规则 -- 简介关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现,而非预测...

2019-09-16 15:59:45 1757

转载 Linux 添加自定义命令

Linux 添加自定义命令前一阵子更换Linux衍生版的频率有点高 -_-|||,各个衍生版的Linux Shell命令还是又一些差异的,例如有的衍生版会有ll,la等等这些命令,其实这些东西基本都是在Shell的初始化脚本中做的。一般来说,Shell的初始化脚本分为2种:一种是全局默认的,一种是用户自己的。全局默认的路径为/etc/profile在profile中,它默认会再加载/etc...

2019-09-12 16:15:12 163

原创 shell 参数

$0 这个程式的执行名字$n 这个程式的第n个参数值,n=1..9$* 这个程式的所有参数,此选项参数可超过9个。$# 这个程式的参数个数$$ 这个程式的PID(脚本运行的当前进程ID号)$! 执行上一个背景指令的PID(后台运行的最后一个进程的进程ID号)$? 执行上一个指令的返回值 (显示最后命令的退出状态。0表示没有错误,其他任何值表明有错误)$- 显示shell使用的当前选项...

2019-09-10 15:30:43 85

转载 find,locate,whereis,which命令

1. findfind是最常见和最强大的查找命令,你可以用它找到任何你想找的文件。查找hzp 目录下第一级中 有没有包含hh 的目录find ./hzp -maxdepth 1 -type d -name "*hh*"find的使用格式如下:  $ find <指定目录> <指定条件> <指定动作>  - <指定目录>: 所...

2019-09-06 18:18:51 169

原创 Linux PATH 作用以及查看和修改方法

目录PATH作用查看PATH修改PATHPATH作用PATH说简单点就是一个字符串变量,当输入命令的时候LINUX会去查找PATH里面记录的路径所以,path 配置的路径下的文件可以在任何位置执行,并且可以通过which 可执行文件 命令来找到该文件的位置查看PATHecho $PATH使用env命令显示所有的环境变量:$ env使用set命令...

2019-09-06 18:10:07 26532

原创 常用快捷键(vi ,iterm,chrome)

目录iterm快捷键vi快捷键chrome 快捷键command+D 并列分屏新开窗口command+shift+D 上下分屏新开窗口command+回车 全屏切换command + t 新建标签command + w 关闭当前标签command + shift + h 查看剪贴板历史command + r 清屏vi快捷键dd: 删除当前行n...

2019-09-06 14:19:01 142

转载 sklearn特征工程总结

总结:sklearn机器学习之特征工程0.6382017.09.25 15:40:45字数 6064阅读 71130 关于本文​ 主要内容和结构框架由@jasonfreak--使用sklearn做单机特征工程提供,其中夹杂了很多补充的例子,能够让大家更直观的感受到各个参数的意义,有一些地方我也进行自己理解层面上的纠错,目前有些细节和博主再进行讨论,修改部分我都会以删除来表示,读者可以自...

2019-09-05 17:51:59 1387

转载 计算广告中的lookalike是如何实现的?

计算广告中的lookalike是如何实现的?2019.03.04 17:16:16字数1372阅读1968什么是lookalikelookalike算法是计算广告中的术语,不是单指某一种算法,而是一类方法的统称。其目的就是为了实现人群包扩充。简单场景广告主需要对100w人投放,但是,从选取的基础数据包中,只有30w,那么如何满足100w的投放需求,这时,就需要通过lookali...

2019-09-03 15:09:44 1130

转载 matplotlib 绘图

python使用matplotlib绘制折线图教程转https://www.cnblogs.com/onemorepoint/p/7482644.htmlMatplotlib是一个Python工具箱,用于科学计算的数据可视化。借助它,Python可以绘制如Matlab和Octave多种多样的数据图形。下面这篇文章主要介绍了python使用matplotlib如何绘制折线图的方法教程,需要的...

2019-08-29 18:22:20 141

原创 数据结构算法

LCShttps://www.cnblogs.com/LCCRNblog/p/4321398.html背包问题https://www.cnblogs.com/yun-an/p/11037618.html

2019-08-12 07:38:28 84

原创 面试-数据结构

1.快排 :https://www.cnblogs.com/KuJo/p/8544775.html图文解释https://www.cnblogs.com/aishangJava/p/10099832.html代码https://github.com/asunnybaby/Base_Algorithms代码2.排列组合求比它小的数中的最大的从右向左,如果遇到当前数字...

2019-07-24 13:29:59 192

原创 wor2vec

word2vec语言模型有两种,CBOW和skip-gram,优化方式有两种hierarchical softmax (huffman 树),negative sample (负采样)其中 skip-gram 和hierarchical softmax 对罕见词有利,CBOW和负采样速度快,CBOW对常见词和低纬向量有利https://www.cnblogs.com/pinard/p/72...

2019-07-24 13:05:55 113

转载 处理缺失值

处理缺失值主要有以下几种方法:1.当某个变量或者某个样本中缺失值占比过大时,那么我们可以认为这一变量或者样本没有意义,可以直接删除。2.用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。3.用其他变量做预测模型来算出缺失变量。效果比方法2略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建...

2019-07-14 08:58:22 831

转载 特征工程

转https://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3...

2019-07-13 23:59:28 100

原创 如何解决样本不均衡问题

转:https://zhaokv.com/machine_learning/2016/01/learning-from-imbalanced-data.html这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与...

2019-07-13 23:52:22 490

转载 归一化和标准化

转自:https://www.cnblogs.com/nxf-rabbit75/archive/2019/04/11/10688593.html一、是什么?1.归一化  是为了将数据映射到0~1之间,去掉量纲的过程,让计算更加合理,不会因为量纲问题导致1米与100mm产生不同。  归一化是线性模型做数据预处理的关键步骤,比如LR,非线性的就不用归一化了。  归一化就...

2019-07-13 23:50:46 245

转载 特征降纬PCA,LDA

参考 :https://www.jianshu.com/p/6a9db201cb13当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。但不要盲目降维,当你在原数据上跑到了一个比较好的结果,又嫌它太慢的时候才进行降维,不然降了半天白降了。常见的降维方法有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析...

2019-07-13 23:22:04 153

转载 批量梯度下降,随机梯度下降,小批量梯度下降

转https://www.cnblogs.com/lliuye/p/9451903.html批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解  梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下...

2019-07-13 19:43:55 598

原创 8-5 lightGBM

参考&引用:https://blog.csdn.net/huacha__/article/details/81057150&https://blog.csdn.net/qq_24519677/article/details/82811215&https://blog.csdn.net/u010242233/article/details/79769950&原始论文...

2019-07-09 17:19:10 262

原创 8-4 XGB

参考&引用:陈天奇论文,ppt等(已上传https://download.csdn.net/download/haozhepeng/11287103) &https://blog.csdn.net/qq_22238533/article/details/79477547目录一、原理1.Bias-Variance(偏差方差思想)2.XGB过程推导XGB过程简述...

2019-07-09 15:54:22 480

转载 异常点检测算法

转自:https://www.cnblogs.com/pinard/p/9314198.html异常点检测,有时也叫离群点检测,英文一般叫做Novelty Detection或者Outlier Detection,是比较常见的一类非监督学习算法,这里就对异常点检测算法做一个总结。1.异常点检测算法使用场景    什么时候我们需要异常点检测算法呢?常见的有三种情况。一是在做特征工程的...

2019-07-08 11:58:24 2606

原创 8-3 GBDT

引用&参考文章GDBT原始文章 (已上传https://download.csdn.net/download/haozhepeng/11287103))https://blog.csdn.net/qq_22238533/article/details/79185969&https://www.cnblogs.com/massquantity/p/9174746.html...

2019-07-06 19:27:01 269

原创 8-2 boosting &Adaboosting

boosting 也是一种集成方式,目前比较火的有 GDBT,XGB,LGBM,Adaboosting等。它通过最小化误差的思路,来串行的集成多个弱分类器。即个体学习器间存在强依赖关系、必须串行生成的序列化方法。下面内容参考引用https://blog.csdn.net/u012258999/article/details/42457577和https://blog.csdn.net/Lia...

2019-07-05 14:36:13 821

原创 8-1 bagging & 随机森林

目前常见的集成(ensemble)学习方法:bagging,RF(采用了bagging 思想),boosting(adaboosting, GBDT,XGB,LGBM)。两者不同在于 bagging是集成多个强分类器,思路是最小化方差。个体学习器间不存在强依赖关系、可同时生成的并行化方法。而boosting 是串行集成多个弱分类器,思路是最小化误差,下一个分类器需要依赖上一个的结果,多...

2019-07-05 13:57:36 173

原创 8-1决策树

一、熵 entropy表示随机变量不确定性,熵越大,不确定性越大。1.联合熵两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)2.条件熵:H(Y|X) = H(X,Y) - H(X)根据互信息定义展开得到H(Y|X) = H(Y) - I(X,Y)3. 对偶式H(X|Y)= H(X,Y) - H(Y)H(X...

2019-07-05 13:32:46 274

转载 anaconda python 版本更新

https://www.cnblogs.com/alicia-Programming/p/7076394.html

2019-06-18 17:45:45 2336

转载 hmm

https://www.cnblogs.com/pinard/p/7001397.html

2019-06-18 17:00:20 70

转载 Anaconda安装hmmlearn

https://www.zuozuovera.com/archives/938/在将一份python2.x的代码转到python3.6的时候发生的车祸现场。主要也因为最近将整个python的开发和学习环境迁移到了Anaconda上,然后在遇到hmmlearn这个包的时候,发现Anaconda安装这个包好像翻车了很多人。进入正题。报错现场from hmmlearn import h...

2019-06-18 16:02:16 4634 4

转载 面试题链接

https://www.cnblogs.com/tornadomeet/p/3395593.htmlhttps://www.cnblogs.com/zuochongyan/p/5407053.html

2019-06-18 11:51:30 113

转载 基于PostGIS的高级应用(1)--PgRouting百万级别路网查询优化

基于PostGIS的高级应用(1)--PgRouting百万级别路网查询优化转发https://www.jianshu.com/p/42e74122b9ac?utm_campaign=maleskine&utm_content=note&utm_medium=reader_share&utm_source=weibo前文《基于PgRouting的GIS网络分析-...

2019-05-17 15:14:42 1080

转载 使用pgrouting进行最短路径搜索

转载https://www.cnblogs.com/weiweictgu/p/8280285.html PgRouting是基于开源空间数据库PostGIS用于网络分析的扩展模块,最初它被称作pgDijkstra,因为它只是利用Dijkstra算法实现最短路径搜索,之后慢慢添加了其他的路径分析算法,如A算法,双向A算法,Dijkstra算法,双向Dijkstra算法,tsp货郎担算法等,...

2019-05-17 14:59:05 677

转载 L1,L2

正则化项L1和L2的区别转https://www.cnblogs.com/lyr2015/p/8718104.htmlhttps://blog.csdn.net/jinping_shi/article/details/52433975https://blog.csdn.net/zouxy09/article/details/24971995一、概括:L1和L2是正则化项,又叫做...

2019-05-07 15:36:59 236

转载 AutoML

转自:https://zhuanlan.zhihu.com/p/48642938今天刚刚看到在arXiv上出现了一篇关于AutoML的比较全面的综述,于是赶紧略读了一下,第一时间做个简要的分享。论文地址:https://arxiv.org/abs/1810.13306。这是一篇来自第四范式(4Paradigm)公司的关于AutoML的综述文章。第四范式是目前国内关于AutoML研究较早...

2019-04-24 14:48:56 143

转载 关于java中assert(断言)的使用讲解

 引用https://www.cnblogs.com/niejianqiang/p/6551465.html1.eclipse、myeclipse开启assert(断言),默认是关闭,如下:说白了就是设置一下jvm的参数,参数是-ea或者-enableassertions 2.assert格式(1)assert [boolean 表达式]如果[boolean表达式]...

2019-02-16 16:21:50 1100

原创 List、Set、Map的contains方法查找效率

1、Hash  类集合,在存储时 会存以hash 值为数组下标的数组hash   11 AA,BB 22 CC 这样contains 时 只用判断  数组对应位置是否有值,没有直接返回,有的话再用equals 判断内容是否相等。所以 contains 的效率是o(1) 的,需要注意的是HashMap 对value 的查找是o(n) 的。HashSet底层其...

2019-01-29 17:13:47 5858

jahmm.rar,HMM google 开源 jar 包和source 文件

HMM的java 版本开元jar 和source HMM的java 版本开元jar 和source HMM的java 版本开元jar 和source

2019-07-05

GBDT原始论文+XGB原始论文+陈天奇 ppt

GBDT原始论文+XGB原始论文+陈天奇 ppt

2019-07-05

get-pip.py

pip get-pip.py

2016-11-07

matplotlib-win64_py2.7.exe

matplotlib-win64_py2.7.exe

2016-11-07

scipy-win64-py27.exe

scipy-win64-py27.exe

2016-11-07

日期选择器js

12306 的日期选择器js 可以直接用

2013-05-11

OA种子软件管理系统前台

OA种子软件管理系统前台代码 可以直接用

2013-05-11

tomcat环境配置

配置tomcat的方法

2012-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除