tuntunwang-CSDN博客

原创 word2vector

参考文献https://www.jianshu.com/p/1405932293ea用途====================将语料库中的词转化为向量，方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示，单词i和单词j同时出现的次数这种方法存在3个问题：每个单词的向量都很稀疏。虽然可以通过SVD降维，但是这个降维过程需要的计算量也很大；向量没有包含单词的语义内容，只是简单的数量统计；当有新的单词加入后，整个向量

2020-05-14 10:17:07 300

原创 spark之coalesce和repartition

如果需要将分区数量减少，需要调用coalesce方法。比如，上层数据很大，你只选取部分数据进行处理，并且要落地。如果不进行充分区，那么接下来有人使用这个数据的时候，分区数量很大，读取的很慢。如果需要将分区数量增加，需要调用repartition方法。加入需要了数据倾斜，或者并行度不够，就需要将数据的分区数量增加。从原理上将，repartition方法就是调用coalesce，但是将s...

2019-12-11 14:45:22 439

原创 spark性能优化

参数优化https://blog.csdn.net/xwc35047/article/details/71038581

2019-11-07 19:38:59 324

原创 fp-growth算法原理与代码实践

原理https://www.cnblogs.com/datahunter/p/3903413.html代码 import org.apache.spark.mllib.fpm.{FPGrowth, FPGrowthModel} import org.apache.spark.rdd.RDD import spark.implicits._ import com...

2019-10-13 18:14:36 503

原创 RF GBDT LR调参

https://zhuanlan.zhihu.com/p/56940098调参对于随机森林来讲，不会发生很大的波动，即使采用默认值，也可以保持不错的效果。对于随机森林，比较重要的参数有2个：决策树数量；每个决策树最多使用多少特征。对于决策树数量参数：决策树数量越多，效果越好越稳定。但是要在合理范围内，当决策树数量增大到一定数量后，效果基本保持不变。但是随着决策树数量的增...

2019-08-06 15:29:13 843

原创 boost VS adaboost VS 提升树 VS GBDT VS cart树 VS RF

参考文献：李航的统计学习方法Boosting（提升）方法：在分类任务中，通过改变训练样本的权重，学习多个分类器，并将这些分类器线性组合，提升分类的性能。这里提升的意思是指，将弱学习算法提升为强学习算法。这里就涉及到两个问题：如何修改样本的权重；如何将多个弱分类器整合成一个强分类器；Adaboost：针对上面提出的两个问题，adaboost是这样解决的：提高被分错样本的权重，降低分对...

2019-07-29 16:37:34 306

原创特征工程常见问题

1 不均衡问题--类别不均衡如果是类别分布不平衡，有很多方法解决，比如重采样，使用决策树模型（树模型对样本不均衡问题不敏感），样本加权完成，修改损失函数。但是特征分布不均衡，应该怎么做？类别不平衡处理方法https://www.cnblogs.com/JZ-Ser/p/7508531.html1.0 重采样过采样。复制小众类样本的数量，或者利用smote生成。下采样。...

2019-07-17 17:21:17 773

原创 python与GIL锁

python与GIL，并没有直接的关系，和GIL有直接关系的是Cpython解释器，而大多数的python默认解释器是Cpython（底层用C++实现），所以很多人把python与GIL画上等号。但是除了Cpython，解释器还有Jpython，是用java写的，没有GIL。在Cpython中，如果多个线程同时对内存进行操作，难以保持数据的同步和一致性，因此要求一个进程同时只能执行一个线程，每...

2019-07-05 14:50:31 181

原创归一化正则化标准化

标准化是对列进行归一化操作，主要包括：standardScaler：将特征标准化为单位标准差或是0均值，或是0均值单位标准差。minmaxScaler：将特征的值缩放到[0,1]范围。x=(x-min)/(max-min)MaxAbsScaler：将特征的值缩放到[-1,1]范围。x=x / max|x|为什么要进行标准化操作？在现实生活中，一个目标变量（y）可以认为是...

2019-07-01 18:25:41 1279

原创常见的机器学习分类模型

Spark mllib包含的分类模型有：逻辑回归，决策树，随机森林，梯度提升树，多层感知机，线性SVM，朴素贝叶斯。回归模型有：线性回归，决策树回归，随机森林回归，梯度提升树回归，生存回归，保序回归。在spark mllib库外，还有一个比较常见的模型：KNN。决策树==================非线性分类模型https://blog.csdn.net/tuntun...

2019-06-30 17:30:17 14555

原创常见机器学习聚类算法

聚类最常见的，应该是kmeans。对于spark mllib，除了支持kmeans外，还支持GMM，主题模型LDA。比较常用的聚类模型还有：DBSCAN（密度聚类）；层次聚类；K-Means聚类================1.首先，我们选择一些类/组来使用并随机地初始化它们各自的中心点。要想知道要使用的类的数量，最好快速地查看一下数据，并尝试识别任何不同的分组。中心点是与每个...

2019-06-30 15:35:34 716

原创 word2vecotr

用途====================将语料库中的词转化为向量，方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示，单词i和单词j同时出现的次数这种方法存在3个问题：每个单词的向量都很稀疏。虽然可以通过SVD降维，但是这个降维过程需要的计算量也很大；向量没有包含单词的语义内容，只是简单的数量统计；当有新...

2019-06-28 14:37:49 265

原创 CNN卷积神经网络的网络结构和学习原理

卷积神经网络，主要是对图片进行处理。假如需要对一个1000*1000的图片进行分类，如果用传统的机器学习或者DNN，如要输入1000000个特征，当然也可以提前用一些方法进行降维，但是处理还是不方便。有人提出，人类对于图像的判断，也是通过对图像进行多层抽象完成。于是就提出了卷积的概念。图中是一个图形识别的CNN模型。可以看出最左边的船的图像就是我们的输入层，计算机理解为输入若干...

2019-06-27 15:37:33 1380

原创 RNN循环神经网络的物理结构以及工作原理

基础的神经网络只在层与层之间建立了权连接，RNN最大的不同之处就是在层之间的神经元和建立连接（红线箭头指向部分）。输入层的权值为U，各层之间的权值W，隐藏层到输出层的输出层的权值为V。权值是共享的。非输出层的激活函数一般为tanh函数，即：h=tanh(Ux+Wh+b)输出层不需要激活函数 o=Vh+c最终模型的输出为y’=softmax(o)Softmax函数将...

2019-06-27 14:09:06 704

转载 IDEA写代码，编辑字体像word那样放大缩小

转自https://www.cnblogs.com/zlslch/p/7770965.html

2018-07-31 16:27:20 964

原创关于“什么是数据挖掘”经典的解释

在校期间听了一次学术报告，是美国一个大牛学校的大牛教授做的演讲，主要讨论问题是“大数据时代的数据挖掘”该大牛对数据挖掘做了一个精辟的总结：报告内容：数据挖掘（Data Mining）（或知识发现，Knowledge Discovery）泛指从大量数据中挖掘出隐含的、先前未知但潜在有用的信息和模式的一个工程化和系统化的过程。在大数据时代里，数据的产生和收集是基础，数据挖掘是工具和手段，是大数据中最关...

2018-03-14 11:06:26 723

原创推荐系统实践--第七章：推荐系统实例第八章：评分预测问题

结合一个具体的例子，介绍如何设计一个推荐系统；介绍评分预测问题

2017-12-25 16:00:28 1789

原创推荐系统实践---第六章：利用社交网络数据

结合社交网络数据对用户进行推荐

2017-12-25 15:58:28 2550

原创推荐系统实践---第五章：利用上下文信息

结合用户进入系统时的上下文对用户进行推荐

2017-12-25 15:56:06 852

原创推荐系统实践---第四章：利用用户标签数据

在推荐系统中，如何利用用户的标签行为对其进行推荐

2017-12-25 15:52:35 2209 1

原创推荐系统实践---第三章：推荐系统冷启动问题

解决推荐系统的冷启动问题

2017-12-24 11:15:52 727

原创推荐系统实践---第二章：利用用户行为数据

介绍了如何利用用户的行为数据为用户进行商品推荐，包括常见推荐算法的理论和代码

2017-12-24 11:12:20 2467 2

原创推荐系统实践---第一章：好的推荐系统

<<推荐系统实践>>下载以及自己的理解，大家相互交流。

2017-12-24 11:07:17 1557

原创常见的排序算法源代码

常见的排序算法源代码

2017-09-24 21:07:48 334

转载 c++ 虚函数

通过具体的代码，一步步介绍虚函数

2017-09-24 20:43:16 1165

原创文本搜索过程以及倒排搜索

快速理解全文搜索以及倒排索引

2017-09-21 10:57:07 1337

转载 keras + LSTM

深度学习的主要框架有keras,caffe,tensorflow,theanokeras可以在theano与TensorFlow间轻松切换，且容易上手。这里分享一个keras的快速入门教程http://keras-cn.readthedocs.io/en/latest/下面是keras框架下使用LSTM实现情感分类的例子http://blog.csdn.net/weixin_...

2017-09-16 16:15:44 1754

转载逆波兰表达式

详细介绍逆波兰表达式的用途，计算过程，实现代码

2017-08-23 17:08:00 1167

原创图形化理解堆得插入过程和删除过程

以图形化的形式展示堆得创建和删除过程

2017-08-22 10:27:32 438

原创线性回归逻辑回归树回归

为什么逻辑回归要用sigmoid函数？首先sigmoid函数曲线非常漂亮，连续平滑且对称，当输入值趋于无限大或者无限小时，函数值趋于0和1，对输入不是很敏感。由于该函数求导是连续平滑的，而逻辑回归在梯度方向搜索最优权值，所以该函数比较好。逻辑回归也可以用其他分类函数，比如softmax，现在进行比较：分类判别函数在神经网络中比较常用的是sigmoid函数和softmax函数。...

2017-06-30 20:47:25 1259

原创 SVM原理---公式推导以及核函数

首先从引用场景开始推导公式，最后介绍核函数，松弛变量，软间隔

2017-06-28 10:04:24 3766

转载 c++ 中 stack和queue的使用方法

c++ 中 statck 和queue的使用方法

2017-06-05 09:59:26 813

转载 C++中vector的用法

详细介绍c++中vector的使用方法

2017-06-03 17:46:49 494 1

原创 python+GBDT实现数值预测

关于GBDT的理论介绍以及实际生活例子，可以看下面链接http://www.360doc.com/content/14/0911/22/14875906_408775170.shtmlhttps://blog.csdn.net/zhangbaoanhadoop/article/details/81840669http://www.cnblogs.com/LeftNotEasy/archi...

2017-03-27 11:29:30 10453 5