自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (2)
  • 收藏
  • 关注

原创 推荐广告之-MLR学习

算法简介:该算法是阿里的盖坤大神力作:Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction,介绍了阿里广告的一个主要ctr预估模型Large Scale Piece-wise Linear Model (LS-PLM),在2012年就开始使用,据说早期叫做Mixture of LR(MLR)...

2019-07-04 21:16:29 1922 2

原创 Spark-job计算之——数据倾斜问题

    spark在大数据处理各项业务中扮演着越来越重要的角色,基于内存的计算方式,处理任务效率高。但是由于业务问题和程序处理问题,有时会遇到各种各样的问题,其中包含数据倾斜,任务倾斜,GC等各种问题。本文主要根据个人在业务数据处理中遇到的数据倾斜问题以及解决方法。本文是对数据倾斜问题的一点个人认识和总结,希望能对各位有点帮助,于此同时,本人是大数据算法方面的新人,行文处如存在任何不足和缺陷请各位...

2018-05-04 23:07:41 362 1

原创 一文学会使用Scala

IntroduceScala上一门纯面向对象的函数式编程语言,其主要贡献以及备受欢迎大概是因为其是Spark的开发语言(个人观点)。1.Scala 语言具有一下特性:     • 面向对象特性     • 函数式编程     • 静态类型     • 扩展性     • 并发性 2.语法基础:Scala:执行可以是交互模式,亦可脚本模式语法:    •区分大小写    •类名称:首字母大写,一般命...

2018-03-09 16:05:42 229

原创 文本分类中的文本特征表示

Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分。目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站。之前知乎针对该问题在著名的机器学习比赛网上,还开展了比赛,有关技术和code有很多。文本话题分析主要是应用是对文本进行领域划分、个性化推荐、社交网络、广告预测等各个领域等。而特征选择会对分类结果产生极大的影响。因此,

2018-01-11 16:49:45 13028 5

原创 文本分类问题中数据不均衡的解决方法的探索

Data Skew数据倾斜是数据挖掘中的一个常见问题,它严重影响的数据分析的最终结果,在分类问题中其影响更是巨大的,例如在之前的文本分类项目中就遇到类别文本集合严重不均衡的问题,本文主要结合项目实验,介绍一下遇到数据不均衡问题时的常见解决方法。数据倾斜的解决方法1.过采样和欠采样过采样    过采样是处理样本不均衡的一个基本解决方法,其实现简

2018-01-11 16:24:13 7736 10

原创 Biterm Topic Model(BTM)的python 实现

Biterm Topic Model(BTM)的python 实现前言 最近在看话题模型相关的论文。有关话题模型现在比较主流的解决方法有LDA,PLSA以及mixture of unigrams,本人研究了LDA(Latent Dirichlet Allocation),BTM等话题模型。首先说明在研究和实验LDA话题模型时发现,在解决short text话题分析时,这是由于其基于文

2017-10-16 15:50:45 17875 47

转载 Ubuntu docker spark集群部署

docker spark 一键部署 # 首先下载docker脚本>git [email protected]:amplab/docker-scripts.git 切换路径到docker-scripts分别运行脚本加载spark相关镜像>./apache-hadoop-hdfs-precise/build>./dnsmasq-precise/build>./s

2016-04-23 10:49:26 424

原创 机器学习特征那些事

在机器学习中,数据能够决定模型效果的上线,模型只是在这之上锦上添花。因此数据特征的优劣对于最终的效果至关重要。本文乃是对于个人多年工作和学习所得的一点总结和认识,如果有什么不足和理解不到位之处,希望可以和业内大佬们一起讨论和交流。特征 define1:人或事物可供识别的特殊的象征或标志。特征:在机器学习上解释是建立在原始数据之上的特定表示,它是一个单独的可度量属性,通常用结构化数据集中的一列表示。特征工程:将原始数据转化为特征的过程,使得特征可以很好地测量或描述输入输出之间的内在关系特征开发流程复杂且繁琐,

2022-06-01 17:04:48 978

原创 【无标题】tf2 class-1 tensorflow 2.x 学习 ----- 简介

简 介Tensorflow 是Google Disblief平台2015年开源的继续学习框架,深受学术界和工业界研究者和工程师们的欢迎。Tensorflow 2.x是Google 2018年开始开始迭代,2019年3月开始发布。Tensorflow 2. x 相比1.x 改进:默认Eager 运行模式: Eager 即命令行交互运行环境 删除 tf.contrib 库 ,高阶api 整合到tf.keras 精简api, 删除重复,去掉重叠api 去全局变量 autograph 加速模型.

2022-05-21 13:34:14 128

原创 推荐系统的核心与问题

今天阅读一位大神力作,特总结梳理的推荐算法的核心问题所在。如有问题,还望指出,仅是个人学习所得。 在18年,还有美国知名flag企业高管决策人,在讨论要不要个性化。讲什么multi perspect,而且是美国的主流讨论议题,都在讨论如何防止信息茧房。而今,如果把推荐大略分为5个阶段,国内位于第四阶段,大多数美国推荐团队还没迈进第二阶段。国外注重理论研究,乍看之下理论高大上,深入看产品的算法细节,却不及13年百度feed的水平。这帮神仙距离实现太远了吧。 G家的...

2020-09-08 20:49:32 458

原创 Spark 问题汇总

在大数据领域,spark 是一个比较受欢迎的大数据处理平台,但是由于数据量过大等一系列问题,造成任务执行不成功,现在总结个人在工程实践中遇到的一些个奇葩问题.1.数据倾斜问题现象:1.可能会报资源不足,内存溢出2.大部分task 均执行完,只有少数几个task始终在执行中3.2.Kyro 序列化问题现象:1.报异常:| org.apache.spark.SparkExcepti...

2019-06-05 17:57:50 486

原创 spark 资源优化之道

在spark job执行中,我们通常会遇到这样那样的奇怪问题。该节主要介绍开发部署中遇到的一些资源分配问题。如:资源不足,资源分配过多,队列紧张等很多很多问题。在工程实践中,我们都希望自己的job 能够以最快的速度,最优的流程执行,以提高我们效率。于是乎我们往往在spark job提交的配置脚本中配置的job的资源越多越好,这就带来的一个问题,集群资源有限,可用资源不能够满足大资源的job...

2018-07-31 20:18:50 208

Logistic Regression 分析代码简单实现

Logistic Regression 模型分析实现

2016-04-27

docker spark 集群在Ubuntu下的部署

描述如何在单个Ubuntu机器或服务器搭建docker spark 集群环境

2016-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除