自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wtt561111的专栏

有点痴

  • 博客(295)
  • 资源 (12)
  • 问答 (1)
  • 收藏
  • 关注

原创 word2vector

参考文献https://www.jianshu.com/p/1405932293ea用途====================将语料库中的词转化为向量,方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示,单词i和单词j同时出现的次数这种方法存在3个问题:每个单词的向量都很稀疏。虽然可以通过SVD降维,但是这个降维过程需要的计算量也很大;向量没有包含单词的语义内容,只是简单的数量统计;当有新的单词加入后,整个向量

2020-05-14 10:17:07 300

原创 spark之coalesce和repartition

如果需要将分区数量减少,需要调用coalesce方法。比如,上层数据很大,你只选取部分数据进行处理,并且要落地。如果不进行充分区,那么接下来有人使用这个数据的时候,分区数量很大,读取的很慢。如果需要将分区数量增加,需要调用repartition方法。加入需要了数据倾斜,或者并行度不够,就需要将数据的分区数量增加。从原理上将,repartition方法就是调用coalesce,但是将s...

2019-12-11 14:45:22 439

原创 spark性能优化

参数优化https://blog.csdn.net/xwc35047/article/details/71038581

2019-11-07 19:38:59 324

原创 fp-growth算法原理与代码实践

原理https://www.cnblogs.com/datahunter/p/3903413.html代码 import org.apache.spark.mllib.fpm.{FPGrowth, FPGrowthModel} import org.apache.spark.rdd.RDD import spark.implicits._ import com...

2019-10-13 18:14:36 503

原创 RF GBDT LR调参

https://zhuanlan.zhihu.com/p/56940098调参对于随机森林来讲,不会发生很大的波动,即使采用默认值,也可以保持不错的效果。对于随机森林,比较重要的参数有2个:决策树数量;每个决策树最多使用多少特征。对于决策树数量参数:决策树数量越多,效果越好越稳定。但是要在合理范围内,当决策树数量增大到一定数量后,效果基本保持不变。但是随着决策树数量的增...

2019-08-06 15:29:13 843

原创 boost VS adaboost VS 提升树 VS GBDT VS cart树 VS RF

参考文献:李航的统计学习方法Boosting(提升)方法:在分类任务中,通过改变训练样本的权重,学习多个分类器,并将这些分类器线性组合,提升分类的性能。这里提升的意思是指,将弱学习算法提升为强学习算法。这里就涉及到两个问题:如何修改样本的权重;如何将多个弱分类器整合成一个强分类器;Adaboost:针对上面提出的两个问题,adaboost是这样解决的:提高被分错样本的权重,降低分对...

2019-07-29 16:37:34 306

原创 特征工程常见问题

1 不均衡问题--类别不均衡如果是类别分布不平衡,有很多方法解决,比如重采样,使用决策树模型(树模型对样本不均衡问题不敏感),样本加权完成,修改损失函数。但是特征分布不均衡,应该怎么做?类别不平衡处理方法https://www.cnblogs.com/JZ-Ser/p/7508531.html1.0 重采样过采样。复制小众类样本的数量,或者利用smote生成。下采样。...

2019-07-17 17:21:17 773

原创 python与GIL锁

python与GIL,并没有直接的关系,和GIL有直接关系的是Cpython解释器,而大多数的python默认解释器是Cpython(底层用C++实现),所以很多人把python与GIL画上等号。但是除了Cpython,解释器还有Jpython,是用java写的,没有GIL。在Cpython中,如果多个线程同时对内存进行操作,难以保持数据的同步和一致性,因此要求一个进程同时只能执行一个线程,每...

2019-07-05 14:50:31 181

原创 归一化 正则化 标准化

标准化是对列进行归一化操作,主要包括:standardScaler: 将特征标准化为单位标准差或是0均值,或是0均值单位标准差。minmaxScaler:将特征的值缩放到[0,1]范围。x=(x-min)/(max-min)MaxAbsScaler:将特征的值缩放到[-1,1]范围。x=x / max|x|为什么要进行标准化操作?在现实生活中,一个目标变量(y)可以认为是...

2019-07-01 18:25:41 1279

原创 常见的机器学习分类模型

Spark mllib包含的分类模型有:逻辑回归,决策树,随机森林,梯度提升树,多层感知机,线性SVM,朴素贝叶斯。回归模型有:线性回归,决策树回归,随机森林回归,梯度提升树回归,生存回归,保序回归。在spark mllib库外,还有一个比较常见的模型:KNN。决策树==================非线性分类模型https://blog.csdn.net/tuntun...

2019-06-30 17:30:17 14555

原创 常见机器学习聚类算法

聚类最常见的,应该是kmeans。对于spark mllib,除了支持kmeans外,还支持GMM,主题模型LDA。比较常用的聚类模型还有:DBSCAN(密度聚类);层次聚类;K-Means聚类================1.首先,我们选择一些类/组来使用并随机地初始化它们各自的中心点。要想知道要使用的类的数量,最好快速地查看一下数据,并尝试识别任何不同的分组。中心点是与每个...

2019-06-30 15:35:34 716

原创 word2vecotr

用途====================将语料库中的词转化为向量,方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示,单词i和单词j同时出现的次数这种方法存在3个问题:每个单词的向量都很稀疏。虽然可以通过SVD降维,但是这个降维过程需要的计算量也很大;向量没有包含单词的语义内容,只是简单的数量统计;当有新...

2019-06-28 14:37:49 265

原创 CNN卷积神经网络的网络结构和学习原理

卷积神经网络,主要是对图片进行处理。假如需要对一个1000*1000的图片进行分类,如果用传统的机器学习或者DNN,如要输入1000000个特征,当然也可以提前用一些方法进行降维,但是处理还是不方便。有人提出,人类对于图像的判断,也是通过对图像进行多层抽象完成。于是就提出了卷积的概念。图中是一个图形识别的CNN模型。可以看出最左边的船的图像就是我们的输入层,计算机理解为输入若干...

2019-06-27 15:37:33 1380

原创 RNN循环神经网络的物理结构以及工作原理

基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元和建立连接(红线箭头指向部分)。输入层的权值为U,各层之间的权值W,隐藏层到输出层的输出层的权值为V。权值是共享的。非输出层的激活函数一般为tanh函数,即:h=tanh(Ux+Wh+b)输出层不需要激活函数 o=Vh+c最终模型的输出为y’=softmax(o)Softmax函数将...

2019-06-27 14:09:06 704

转载 IDEA写代码,编辑字体像word那样放大缩小

转自https://www.cnblogs.com/zlslch/p/7770965.html 

2018-07-31 16:27:20 964

原创 关于“什么是数据挖掘”经典的解释

在校期间听了一次学术报告,是美国一个大牛学校的大牛教授做的演讲,主要讨论问题是“大数据时代的数据挖掘”该大牛对数据挖掘做了一个精辟的总结:报告内容:数据挖掘(Data Mining)(或知识发现,Knowledge Discovery)泛指从大量数据中挖掘出隐含的、先前未知但潜在有用的信息和模式的一个工程化和系统化的过程。在大数据时代里,数据的产生和收集是基础,数据挖掘是工具和手段,是大数据中最关...

2018-03-14 11:06:26 723

原创 推荐系统实践--第七章:推荐系统实例 第八章:评分预测问题

结合一个具体的例子,介绍如何设计一个推荐系统;介绍评分预测问题

2017-12-25 16:00:28 1789

原创 推荐系统实践---第六章:利用社交网络数据

结合社交网络数据对用户进行推荐

2017-12-25 15:58:28 2550

原创 推荐系统实践---第五章:利用上下文信息

结合用户进入系统时的上下文对用户进行推荐

2017-12-25 15:56:06 852

原创 推荐系统实践---第四章:利用用户标签数据

在推荐系统中,如何利用用户的标签行为对其进行推荐

2017-12-25 15:52:35 2209 1

原创 推荐系统实践---第三章:推荐系统冷启动问题

解决推荐系统的冷启动问题

2017-12-24 11:15:52 727

原创 推荐系统实践---第二章:利用用户行为数据

介绍了如何利用用户的行为数据为用户进行商品推荐,包括常见推荐算法的理论和代码

2017-12-24 11:12:20 2467 2

原创 推荐系统实践---第一章:好的推荐系统

<<推荐系统实践>>下载以及自己的理解,大家相互交流。

2017-12-24 11:07:17 1557

原创 常见的排序算法源代码

常见的排序算法源代码

2017-09-24 21:07:48 334

转载 c++ 虚函数

通过具体的代码,一步步介绍虚函数

2017-09-24 20:43:16 1165

原创 文本搜索过程以及倒排搜索

快速理解全文搜索以及倒排索引

2017-09-21 10:57:07 1337

转载 keras + LSTM

深度学习的主要框架有keras,caffe,tensorflow,theanokeras可以在theano与TensorFlow间轻松 切换,且容易上手。这里分享一个keras的快速入门教程http://keras-cn.readthedocs.io/en/latest/下面是keras框架下使用LSTM实现情感分类的例子http://blog.csdn.net/weixin_...

2017-09-16 16:15:44 1754

转载 逆波兰表达式

详细介绍逆波兰表达式的用途,计算过程,实现代码

2017-08-23 17:08:00 1167

原创 图形化理解堆得插入过程和删除过程

以图形化的形式展示堆得创建和删除过程

2017-08-22 10:27:32 438

原创 线性回归 逻辑回归 树回归

为什么逻辑回归要用sigmoid函数?首先sigmoid函数曲线非常漂亮,连续平滑且对称,当输入值趋于无限大或者无限小时,函数值趋于0和1,对输入不是很敏感。由于该函数求导是连续平滑的,而逻辑回归在梯度方向搜索最优权值,所以该函数比较好。逻辑回归也可以用其他分类函数,比如softmax,现在进行比较:分类判别函数在神经网络中比较常用的是sigmoid函数和softmax函数。...

2017-06-30 20:47:25 1259

原创 SVM原理---公式推导以及核函数

首先从引用场景开始推导公式,最后介绍核函数,松弛变量,软间隔

2017-06-28 10:04:24 3766

转载 c++ 中 stack和queue的使用方法

c++ 中 statck 和queue的使用方法

2017-06-05 09:59:26 813

转载 C++中vector的用法

详细介绍c++中vector的使用方法

2017-06-03 17:46:49 494 1

原创 python+GBDT实现数值预测

关于GBDT的理论介绍以及实际生活例子,可以看下面链接http://www.360doc.com/content/14/0911/22/14875906_408775170.shtmlhttps://blog.csdn.net/zhangbaoanhadoop/article/details/81840669http://www.cnblogs.com/LeftNotEasy/archi...

2017-03-27 11:29:30 10453 5

原创 利用XGBoosting进行预测

pyhton + XGBoosting 进行回归预测

2017-03-26 15:56:09 14844 12

原创 python+神经网络实现时间序列预测

利用python语言进行时间序列处理

2017-03-26 15:31:04 26925 10

原创 spark实现下的逻辑回归(logistic regression)

ubuntu+spark+scala实现逻辑回归分类

2017-03-09 11:10:58 6880

原创 基于spark用线性回归(linear regression)进行数据预测

ubuntu+spark+scala实现线性回归(linear regression)算法(代码+数据)

2017-03-08 13:05:48 14802 6

原创 spark下rdd和dataframe以及sqlcontext之间相互转换

spark下rdd和dataframe以及sqlcontext之间相互转换

2017-03-04 20:19:53 4056 1

原创 ubuntu+idea+scala第一个scala程序

在ubuntu下利用idea写scala程序

2017-03-03 20:20:22 834

推荐系统实践高清PDF版本

推荐系统实践高清PDF版本,非常适合推荐系统新手入门和老兵查漏补缺。理论与代码以及实际问题相结合。

2017-12-18

swift类函数的使用

介绍了swift语言在xcode时,如何调用类函数

2015-10-11

swift语言model的使用

开发一般采用mvc模式,本项目简单的介绍了在xcode中如何使用model

2015-10-11

包括使用简单的tableview,自定义cell以及界面的跳转,本地存储

里面有两个项目,第一个是简单的tableview的使用,第二个使用自定义cell,内容还涉及到了页面的跳转,本地存储

2015-10-11

swift各个组件的使用

里面包含了18个简单的demo,都是对各个组件的使用,可以教会你如何用swift语言和xcode使用组件

2015-10-06

objective_cl语法快速入门

只有12页,可以最快速的掌握objective-c的语法

2015-09-30

sqlite学习资源,包括管理器,数据库文件,Android project

sqlite学习资源,包括管理器,数据库文件,Android project。

2015-02-10

STC单片机烧录软件

STC单片机烧录软件,可以把你在keil中写的嵌入式c程序生成的hex文件烧录到单片机中运行

2015-02-05

xfire开发webservice以及Android利用ksoap2访问webservice

xfire开发webservice以及Android利用ksoap2访问webservice。包括源码和jar包

2015-02-05

开发webservices所需要的全部jar包xfire

里面包含开发webservices的所有包,并且附带使用教程。

2015-02-02

MyEclipse和Eclipse的相互部署

MyEclipse和Eclipse的相互部署

2014-06-10

jdbc_myeclipse_mysql_connect

不区分32位和64位。下载后,直接导入到myeclipse即可

2014-04-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除