自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

机器学习,大数据

学习过程的一些记录

  • 博客(79)
  • 问答 (1)
  • 收藏
  • 关注

原创 Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)

Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)本系列笔记主要参考《Spark权威指南2.X》,主要学习在Spark2.X中的DataFrame和DataSet等结构化API。一些Spark的基础知识,可以参考之前我断断续续的学习笔记:《Spark快速大数据分析》- Spark应用运行原理文章目录Spark2.X学习(1) - 结构化API概述(DataFrame与DataSet)1. 结构化API简介1.1 DataSet与DataFrame1.2 行、列、模式

2020-12-26 18:25:14 473 1

原创 Spark入门程序WordCount实现(Java)

文章目录1. 环境与数据准备1.1 运行环境1.2 数据准备2. 代码实现2.1 maven工程创建2.2 代码逻辑2.3 编译、打包、运行Reference为了快速入门java与Spark工程的构建与开发,本次使用java实现Spark经典程序WordCount,过程记录如下,如有错误,请指正。1. 环境与数据准备1.1 运行环境Hadoop:2.7.7Spark:2.4.7java:1.8.0_211Maven:3.6.31.2 数据准备使用如下命令启动Hadoo

2020-11-29 12:56:13 2371

原创 《维度建模权威指南第三版》- 读书笔记(一) 简介

文章目录1. 维度建模是什么?2. 维度建模技术概述2.1 事实表2.2 维度表2.1 维度设计过程Reference本文为《维度建模权威指南-kimball》前两章的读书笔记,如有错误,请指正。1. 维度建模是什么?对一个产品,我们通常会存储用户行为日志等海量数据,这些数据通常被用来:开发数据看板,作为产品核心指标与主要业务场景的数据监控与分析数据分析/挖掘,从数据中洞察信息,为产品的优化和迭代提供有说服力的指导在这个过程中,我们的数据仓库需要满足以下两个需求:数仓中数据的组织形式是分

2020-11-21 18:37:21 2747

原创 推荐系统学习 - (1)基本算法

文章目录1. 推荐系统简介1.1 推荐系统是什么?1.2 推荐系统的类型2. 推荐系统常用算法2.1 协同过滤算法2.1.1 UserCF基础算法2.1.2 ItemCF基础算法2.1.3 相似度修正2.1.4 UserCF与ItemCF对比2.2 隐语义模型2.2.1 算法原理2.2.2 LFM与协同过滤对比2.3 基于图的模型Reference最近想了解下推荐系统,阅读了《推荐系统实践》(项亮),本文简单介绍推荐系统常用算法的原理,大部分内容来自项亮大牛的书籍。1. 推荐系统简介1.1 推荐系统是

2020-05-23 20:41:37 1234

原创 算法与实战 - (3) 常见数据分析项目类型

文章目录1. 用户特征分析(用户分层)2. 活跃度定义(指标定义)3. 路径分析与漏斗分析4. 交叉销售模型5. 商品推荐模型6. 信用风险模型7. 客户预测模型Reference本文主要参考 《数据挖掘与数据化运营实战 思路、方法、技巧与应用》,作者总结了在数据化运营中常见的数据分析项目类型。在这里结合自己的理解,简单介绍下图所示的分析项目,涉及的算法或技术原理可能在后续笔记中详细介绍。各...

2020-04-30 21:44:43 706

原创 算法与实战 - 常见的数据处理技巧

文章目录1. 缺失值与异常值1.1 缺失值处理1.2 异常值处理2. 数据转换2.1 衍生变量2.2 改变变量分布2.3 分箱转换2.4 数据归一化3. 共线性问题3.1 识别共线性3.2 处理共线性4. 变量筛选4.1 线性相关指标筛选4.2 R-Square筛选4.3 卡方检验筛选Reference在数据分析/挖掘项目中,通常会包括需求确定、数据处理、模型建立、落地应用。其中,数据处理又包括...

2020-04-26 16:37:52 1144

原创 算法与实战 - (1)聚类

最近在阅读阿里数据分析专家卢辉的《数据挖掘与数据化运营实战》。书中结合了实际业务案例,介绍了在实战项目中数据分析和数据挖掘的许多知识点,干货满满。因此,打算结合书中内容,对一些重要的主题加以总结,在过程中加深对各个知识点的理解。文章目录1. 聚类应用场景2. 常用聚类方法2.1 原型聚类Kmeans聚类算法高斯混合模型GMM2.2 密度聚类DBSCAN2.3 层次聚类3. 聚类效果的评估4. ...

2020-04-24 00:14:39 492

原创 《增长黑客》- 读书笔记(五)实战之拉新、激活、留存、变现

文章目录1. 拉新1.1 语言-市场匹配1.2 渠道-产品匹配1.3 设计病毒循环2. 激活2.1 定位激活实验的三个关键步骤2.2 触发物策略3. 留存3.1 初期留存3.2 中期留存3.3 长期留存4. 变现4.1 绘制变现漏斗4.2 群组分析4.3 了解消费者心理Reference用户在使用产品的时候,可以根据用户进入的时间、使用频率等,对生命周期划分为不同阶段。在数据分析中,常用的生命...

2020-04-16 13:07:44 4126

原创 《增长黑客》- 读书笔记(四)增长黑客循环

文章目录1. 增长黑客循环2. 小结Reference开展的实验越多,学到的东西也就越多。——《增长黑客》在上一篇笔记中讲到,增长黑客方法的第二步是**通过北极星指标的确定与拆解,确定当前阶段产品的增长战略。**在确定增长方向后,就要开始进入增长黑客的第三步——快节奏地、周而复始地进行数据->假设->优先级->实验的增长黑客循环。1. 增长黑客循环增长黑客循环:...

2020-04-15 11:57:46 2572

原创 《Hive用户指南》- Hive性能调优

文章目录1. 数据模型相关1.1 Partition 分区表1.2 Bucket 桶表2. 场景优化2.1 全排序2.2 笛卡尔积2.3 EXISTS/IN子查询2.4 Multi-group by3. 配置相关4. 数据倾斜问题4.1 空值导致的数据倾斜4.2 不同数据类型关联导致的数据倾斜4.3 大表关联导致的数据倾斜ReferenceHive针对的应用场景是OLAP,通常对大数据集进行查询...

2020-04-11 13:13:18 297

原创 《Hive用户指南》- Hive的连接join与排序

《Hive用户指南》- Hive的连接join与排序文章目录《Hive用户指南》- Hive的连接join与排序1. 连接1.1 left semi join1.2 mapjoin2. 排序2.1 Order By2.2 Sort By 和 Distribute By2.3 Cluster ByReference在之前的笔记中,介绍了Hive的基本架构,以及常见的SQL操作如何转化为MapR...

2020-04-09 20:44:27 296

原创 《Hive用户指南》-HiveSQL转化为MapReduce任务

文章目录1. hive.fetch.task.conversion参数2. 转化为MR任务的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReferenceHive是Facebook实现的一个开源的数据仓库工具——Hive基于Hadoop实现,底层数据存放在HDFS中,计算(查询)使用MapReduce任务实现将结构化的数据文件映射为数据库表,并提供HQL查询功能,...

2020-04-08 15:03:52 1599

原创 《Spark快速大数据分析》- Spark应用运行原理

文章目录1. Spark的主从结构1.1 驱动器程序Driver1.2 执行器程序Executor2. 集群管理器概念区分3. 运行流程小结Reference本文是在阅读《Spark快速大数据分析》后,根据里面提到的知识点,对Spark的运行原理进行总结概括。说明:这本书使用的spark版本是1.2,目前最新版本已经是3.0,所以可能笔记中有些内容在新版中已经不再适用。1. Spark的主从...

2020-04-02 10:22:18 284

原创 《Spark快速大数据分析》- 根据简单例子理解RDD

本文是在阅读《Spark快速大数据分析》后,根据里面提到的知识点,对Spark的运行原理进行总结概括。说明:这本书使用的spark版本是1.2,目前最新版本已经是3.0,所以可能笔记中有些内容在新版中已经不再适用。1. RDD简介RDD,弹性分布式数据集(Resiliennt Distributed Datasets),是Spark中最重要的核心概念,是Spark应用中存储数据的数据结构。...

2020-04-01 11:53:15 2596

原创 AB实验样本量确定

文章目录1. 统计功效与关键概念2. Z检验样本量确定2.1 统计功效公式推导2.2 样本量计算公式2.3 求解样本量3. 卡方检验样本量确定3.1 求解样本量4. 简要总结Reference在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。AB实验实际上是在做一个假设检验,可以参考上一篇笔记【概率论】- (2)假设检验,在查资料的过程中,主要有两...

2020-01-11 18:59:13 13416 3

原创 【概率论】- (2)假设检验

在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。实验环节中会涉及到一些概率论知识,比如统计推断中重要的两类问题,区间估计和假设检验。之前概率论学过相关知识,但已经有些模糊,在此复习记录。区间估计假设检验假设检验有两种求解思路,分别是:临界值法:计算拒绝域,比较检验统计量与拒绝域确定结果p值检验法:计算检验统计量得到 ppp 值,比较...

2020-01-03 17:36:56 2873

原创 【概率论】- (1)区间估计

区间估计在数据分析过程中,一个完整的闭环是从数据中得到洞察,根据洞察得到某种假设,通过实验检验这一假设。实验环节中会涉及到一些概率论知识,比如统计推断中重要的两类问题,区间估计和假设检验。之前概率论学过相关知识,但已经有些模糊,在此复习记录。区间估计假设检验1. 区间估计与置信区间区间估计是什么?在统计推断中有两类问题,一类为估计问题,一类为假设检验。估计问题中主要包括点估计和区...

2019-12-11 20:04:09 3726

原创 《增长黑客》- 读书笔记(三)北极星指标拆解

文章目录1. 确定北极星指标1.1 北极星指标的作用与特性1.2 北极星指标的制定标准1.3 举几个栗子2. 北极星指标拆解2.1 拆解作用/目的2.2 拆解技巧实例3. 小结Reference在进行快节奏增长实验前,你必须清楚地知道你将如何驱动增长,你的增长杠杆是什么以及他们是否能够帮助你取得理想的结果。——《增长黑客》在上一篇笔记中讲到,增长黑客方法的第一步是评估产品是否实现了产品-市...

2019-11-30 20:40:28 1599

原创 《增长黑客》- 读书笔记(二)PMF与Aha时刻

文章目录1. 增长之前的PMF1.1 PMF是什么?1.2 为什么要实现PMF?2. 评估PMF:寻找Aha时刻2.1 判断Aha时刻的存在性2.2 寻找Aha时刻3. 小结Reference如果产品不受用户的喜爱,那么任何试验都无法激发持久的增长!——《增长黑客》在我们知道了增长黑客的一些方法后,可能会摩拳擦掌,跃跃欲试。但是,在试验之前,首先要确保自己的产品是合格的,是有需求、可以被市...

2019-11-16 20:32:30 3589

原创 《增长黑客》- 读书笔记(一)

文章目录《增长黑客》- 读书笔记(一)1. 笔记简介2. 增长黑客是什么?2.1 增长黑客方法论2.2 增长黑客的应用范围2.3 增长黑客的作用Reference《增长黑客》- 读书笔记(一)“If you are not growing, then you are dying!”如果企业不在增长,那就是在衰亡!1. 笔记简介在早期的互联网行业中,实现用户增长的营销方式是以市场营销为...

2019-11-16 10:01:22 587

原创 Plotly Dash实现下载功能

文章目录1. 问题背景2. 解决方案2.1 解决思路2.2 例子实战Reference1. 问题背景在使用Dash框架实现可视化工具时,用户反馈希望可以下载里面的可视化表格为excel、csv等格式,网上简单搜索后,在这里记录下解决方案。2. 解决方案2.1 解决思路在查阅资料的时候得到以下信息——通常的下载功能是在后端(flask等)实现传送文件的逻辑,前端通过http接口请求文...

2019-11-12 20:19:46 1643

原创 北极星指标——定义与制定标准

文章目录1. 北极星指标定义1.1 北极星指标是什么?1.2 北极星指标有什么用?1.3 北极星指标有什么特性?1.4 举几个栗子2. 北极星指标标准2.1 制定北极星指标的标准2.2 常见北极星指标3. 其他Reference10年前,互联网有极大的人口红利,传统的运营方式可能是“轰炸式”的推广、广告等, 用户体验不被重视。即便如此,用户量仍然可以以极高的速度增长。随着互联网人口红利的逐渐消...

2019-11-03 16:28:52 8483

原创 因果推断——简介

1. 因果推断是什么?1.1 因果性与相关性事件/变量之间的关系,最主要的有相关性和因果性。相关性是指在观测到的数据分布中,X与Y相关,如果我们观测到X的分布,就可以推断出Y的分布因果性是指在操作/改变X后,Y随着这种操作/改变也变化,则说明X是Y的因cause在常用的机器学习算法中,关注的是特征之间的相关性,而无法去识别特征之间的因果性,而很多时候在做决策与判断的时候,我们需要的是...

2019-10-28 15:16:39 36759 1

原创 Spark学习—— (1+)补充Spark各个组件的简单介绍

之前的笔记中Spark学习—— (1) 原理介绍,对Spark的基本原理进行介绍,对于各个组件简单带过了,这里稍微补充一下。1. Spark的各个组件Spark的各个组件如下,在图中自底向上可分为三个部分:资源管理器、SparkCore、上层工具。cluster manager,资源管理器,使得Spark可以在集群上灵活地获取资源,可伸缩地进行高效计算Spark支持在各种资源管理器上...

2019-09-18 09:59:52 301

原创 Spark学习—— (4+) SparkContext与SparkSession

SparkContext与SparkSession1. SparkContext1.1 是什么?如上图,SparkContext是Spark中Driver程序的一部分,向资源管理器cluster manager(可以是mesos、yarn、standalone)申请spark应用所需的资源executor,资源管理器在各个worker上分配一定的executor。当我们编写pyspark...

2019-08-09 15:59:28 8769

原创 Docker入门---基本使用与镜像构建

Docker入门Ubuntu 16.04Docker 19.03.0(安装可参考官网)1. Docker是什么?1.1 定义[1]中对Docker的定义如下:Docker 使用 Google 公司推出的 Go 语言进行开发实现,基于 Linux 内核的 cgroup,namespace,以及AUFS 类的 Union FS 等技术,对进程进行封装隔离,属于操作系统层面的虚拟化技术。由...

2019-07-26 15:38:46 221

原创 Hive简介、基本架构与存储结构

文章目录1. Hive简介1.1 什么是Hive?1.2 Hive有什么用?2. Hive的基本架构2.1 Hive的架构与组件3. Hive的存储模型3.1 Hive基本存储模型3.2 区分几种表Reference1. Hive简介1.1 什么是Hive?Hive是Facebook实现的一个开源的数据仓库工具——Hive基于Hadoop实现,底层数据存放在HDFS中,计算(查询)使用M...

2019-06-20 15:12:44 1790

原创 Spark实战—— (2.3) HBase基本使用

文章目录1. HBase shell使用1.1 通用指令1.2 table操作指令1.3 数据操作指令2. Java API使用2.1 环境配置2.2 重要的类2.3 创建表ReferenceHBase的使用有两种方式——使用HBase shell在命令行进行交互使用Java API编写执行程序供HBase运行本文对两种方法做简单的使用练习,主要参考HBase教程1. HBase s...

2019-06-05 09:54:12 542

原创 Spark实战—— (2.2) HBase分布式集群搭建

文章目录1. 预置环境2. 安装HBase3. 配置HBase4. 启动Reference1. 预置环境VMware创建三台虚拟机,均为Ubuntu16.04,内存为4G,硬盘100G已搭建Hadoop集群,可参考之前的博客Spark学习—— (2) 从零开始搭建Spark(StandAlone与YARN模式)与Hadoop集群已搭建zookeeper集群,可参考之前的博客Spark实战...

2019-05-31 14:35:37 542

原创 Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构

文章目录1. HBase简介1.1 HBase是什么?1.2 列式存储与行式存储2. HBase表格结构3. HBase物理存储结构4. HBase系统架构4.1 重要文件4.2 架构4.3 Region定位Reference1. HBase简介1.1 HBase是什么?HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存...

2019-05-30 20:05:57 645

原创 Spark实战—— (1) zookeeper简介与环境搭建

文章目录1. Zookeeper是做什么的?1.1 简介1.2 应用场景2. 核心:Paxos算法3. Zookeeper分布式集群搭建3.1 环境3.2 安装3.3 配置3.4 启动集群4. 集群简单使用Reference1. Zookeeper是做什么的?1.1 简介Zookeeper是Hadoop项目中的一个子项目,是一个分布式应用程序协调服务,是Google的Chubby的一个开源实...

2019-05-28 11:35:35 702

原创 Git与Github用法总结

文章目录2. 常用指令2.1 git add \2.2 git commit \2.3 git reset2.4 修改最后一次提交2.5 恢复删除文件2.6 git log3.关于分支3.1 创建分支3.2 切换分支3.3 合并、删除分支3.4 git的两种Merge操作4. 本地Git与Github通信4.1 与远程仓库建立联系4.2 本地与远程仓库删除文件Reference###1. git...

2019-05-27 15:29:44 105

原创 Hadoop学习——(MapReduce数据共享) 2.x后DistributedCache无法使用替代方案

文章目录1. 简介2. 替代方案3. 关于网上看到的解决方案Reference1. 简介DistributedCache是MapReduce程序中不同task之间共享数据的一种方式,即——将job指定的文件,在job执行前,先行分发到task执行的机器上之后的MR task读取缓存文件,即可实现不同task之间的数据共享这个文件需要事先放在hdfs上,且只能读取不能修改。2. 替代...

2019-05-13 10:25:27 452

原创 Spark学习—— (6) 键值对RDD编程(基于Python)

键值对RDD是许多操作所需要的常见数据类型,也叫做pair RDD通常我们会从一个RDD提取某些信息作为新的RDD的键,构成一个键值对RDD。pair RDD也是RDD,所以上一篇笔记中介绍的RDD操作对pair RDD同样适用。本文介绍针对键值对RDD的常用操作及实例。文章目录1. pair RDD的创建2. pair RDD的Transformation操作2.1 单个pair RDD2...

2019-05-07 22:54:10 380

原创 Spark学习—— (5) RDD基础编程(基于Python)

RDD是Spark中最基本的数据抽象。虽然Spark2.x中建议使用效率更高的DataSet代替RDD,但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念,第二部分则介绍RDD的常用操作并给出例子。另外,本文介绍的操作不涉及到键值对RDD的操作,然而键值对RDD是许多操作所需要的常见数据类型,这部分内容会在下一篇笔记中补充。文章目录1. RDD简介1.1 RDD是...

2019-05-07 09:52:13 795

原创 Selenium + Chrome安装配置

文章目录1. Selenium安装2. ChromeDriver安装Reference1. Selenium安装使用pip安装即可pip install selenium2. ChromeDriver安装进入chrome://version查看chrome版本,如下:到镜像网站下载对应版本的ChromeDriver解压后放在python所在目录下,如下:测试是...

2019-04-26 09:43:48 201

原创 Spark学习—— (4) 基本使用(Python)

Spark支持Java、Python、Scala、R语法,可以通过spark-shell(Scala)或pyspark(Python)进行交互式的操作,也可以用spark-submit提交用Java、Python、Scala编写的应用。为了学习Spark的使用,本文不涉及原理,仅仅介绍Spark中Python的基本使用,为之后学习Spark的使用打下基础。本文使用部分全部来自官方参考文档Qui...

2019-04-26 09:35:58 1211

原创 Spark学习—— (3) 运行模式Local,Standalone,YARN

Spark有多种运行模式,包括——local模式,本地运行Standalone模式,使用Spark原生的资源调度器YARN模式(生产模式中常用),使用Hadoop的YARN作为资源调度器Mesos模式,使用Mesos作为资源调度器本文主要介绍前面三种最常用的运行模式,其中每种模式又可细分为两种模式。在搭建好集群的基础上,使用各个模式分别运行,描述其运行过程。关于集群搭建,可以参考上...

2019-04-22 14:53:17 2142

原创 Spark学习—— (2) 从零开始搭建Spark(StandAlone与YARN模式)与Hadoop集群

记录自己使用VMware搭建Spark集群的过程,使用三台虚拟机。若只需要Hadoop集群,则将5和7跳过即可;若只需要Spark Standalone模式的集群,则将6和7跳过即可。文章目录1. 环境2. 第一台虚拟机2.1 虚拟机创建2.2 Hadoop安装2.3 Spark安装3. 虚拟机复制3.1 修改用户名/组(看黑体)3.2 克隆虚拟机3.3 修改主机名称4. 配置ssh免密登陆...

2019-04-21 14:44:51 723

原创 Spark启动失败:slave节点无法连接到master

1. 问题描述启动spark时报错,使用start_all.sh或在slave节点上start_slave.sh都报相同的错。报错信息如下:19/04/20 04:35:49 INFO Utils: Successfully started service 'sparkWorker' on port 45265.19/04/20 04:35:49 INFO Worker: Starti...

2019-04-20 20:10:41 4796 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除