算法小白_gyl-CSDN博客

原创推荐广告之－MLR学习

算法简介：该算法是阿里的盖坤大神力作：Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction，介绍了阿里广告的一个主要ctr预估模型Large Scale Piece-wise Linear Model (LS-PLM)，在2012年就开始使用，据说早期叫做Mixture of LR(MLR)...

2019-07-04 21:16:29 1922 2

原创 Spark-job计算之——数据倾斜问题

spark在大数据处理各项业务中扮演着越来越重要的角色，基于内存的计算方式，处理任务效率高。但是由于业务问题和程序处理问题，有时会遇到各种各样的问题，其中包含数据倾斜，任务倾斜，GC等各种问题。本文主要根据个人在业务数据处理中遇到的数据倾斜问题以及解决方法。本文是对数据倾斜问题的一点个人认识和总结，希望能对各位有点帮助，于此同时，本人是大数据算法方面的新人，行文处如存在任何不足和缺陷请各位...

2018-05-04 23:07:41 362 1

原创一文学会使用Scala

IntroduceScala上一门纯面向对象的函数式编程语言，其主要贡献以及备受欢迎大概是因为其是Spark的开发语言（个人观点）。1.Scala 语言具有一下特性： • 面向对象特性 • 函数式编程 • 静态类型 • 扩展性 • 并发性 2.语法基础：Scala：执行可以是交互模式，亦可脚本模式语法： •区分大小写 •类名称：首字母大写，一般命...

2018-03-09 16:05:42 229

原创文本分类中的文本特征表示

Introduce 文本话题分析文本分类的一个应用领域，主要是针对文本表现的主题的划分。目前，针对文本话题分类的研究还是很热的，主要包括微博，知乎等大型话题社区，论坛类网站。之前知乎针对该问题在著名的机器学习比赛网上，还开展了比赛，有关技术和code有很多。文本话题分析主要是应用是对文本进行领域划分、个性化推荐、社交网络、广告预测等各个领域等。而特征选择会对分类结果产生极大的影响。因此，

2018-01-11 16:49:45 13028 5

原创文本分类问题中数据不均衡的解决方法的探索

Data Skew数据倾斜是数据挖掘中的一个常见问题，它严重影响的数据分析的最终结果，在分类问题中其影响更是巨大的，例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题，本文主要结合项目实验，介绍一下遇到数据不均衡问题时的常见解决方法。数据倾斜的解决方法1.过采样和欠采样过采样过采样是处理样本不均衡的一个基本解决方法，其实现简

2018-01-11 16:24:13 7736 10

原创 Biterm Topic Model（BTM）的python 实现

Biterm Topic Model（BTM）的python 实现前言最近在看话题模型相关的论文。有关话题模型现在比较主流的解决方法有LDA，PLSA以及mixture of unigrams,本人研究了LDA（Latent Dirichlet Allocation），BTM等话题模型。首先说明在研究和实验LDA话题模型时发现，在解决short text话题分析时，这是由于其基于文

2017-10-16 15:50:45 17875 47

转载 Ubuntu docker spark集群部署

docker spark 一键部署 # 首先下载docker脚本>git [email protected]:amplab/docker-scripts.git 切换路径到docker-scripts分别运行脚本加载spark相关镜像>./apache-hadoop-hdfs-precise/build>./dnsmasq-precise/build>./s

2016-04-23 10:49:26 424

原创机器学习特征那些事

在机器学习中，数据能够决定模型效果的上线，模型只是在这之上锦上添花。因此数据特征的优劣对于最终的效果至关重要。本文乃是对于个人多年工作和学习所得的一点总结和认识，如果有什么不足和理解不到位之处，希望可以和业内大佬们一起讨论和交流。特征 define1：人或事物可供识别的特殊的象征或标志。特征：在机器学习上解释是建立在原始数据之上的特定表示，它是一个单独的可度量属性，通常用结构化数据集中的一列表示。特征工程：将原始数据转化为特征的过程，使得特征可以很好地测量或描述输入输出之间的内在关系特征开发流程复杂且繁琐，

2022-06-01 17:04:48 978

u014535908的博客

原创推荐广告之－MLR学习

原创 Spark-job计算之——数据倾斜问题

原创一文学会使用Scala

原创文本分类中的文本特征表示

原创文本分类问题中数据不均衡的解决方法的探索

原创 Biterm Topic Model（BTM）的python 实现

转载 Ubuntu docker spark集群部署

原创机器学习特征那些事

原创【无标题】tf2 class-1 tensorflow 2.x 学习 ----- 简介

原创推荐系统的核心与问题

原创 Spark 问题汇总

原创 spark 资源优化之道

Logistic Regression 分析代码简单实现

docker spark 集群在Ubuntu下的部署

空空如也