茵茵的聪聪-CSDN博客

原创 Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）

Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）本系列笔记主要参考《Spark权威指南2.X》，主要学习在Spark2.X中的DataFrame和DataSet等结构化API。一些Spark的基础知识，可以参考之前我断断续续的学习笔记：《Spark快速大数据分析》- Spark应用运行原理文章目录Spark2.X学习(1) - 结构化API概述（DataFrame与DataSet）1. 结构化API简介1.1 DataSet与DataFrame1.2 行、列、模式

2020-12-26 18:25:14 473 1

原创 Spark入门程序WordCount实现（Java）

文章目录1. 环境与数据准备1.1 运行环境1.2 数据准备2. 代码实现2.1 maven工程创建2.2 代码逻辑2.3 编译、打包、运行Reference为了快速入门java与Spark工程的构建与开发，本次使用java实现Spark经典程序WordCount，过程记录如下，如有错误，请指正。1. 环境与数据准备1.1 运行环境Hadoop：2.7.7Spark：2.4.7java：1.8.0_211Maven：3.6.31.2 数据准备使用如下命令启动Hadoo

2020-11-29 12:56:13 2371

原创《维度建模权威指南第三版》- 读书笔记(一) 简介

文章目录1. 维度建模是什么？2. 维度建模技术概述2.1 事实表2.2 维度表2.1 维度设计过程Reference本文为《维度建模权威指南-kimball》前两章的读书笔记，如有错误，请指正。1. 维度建模是什么？对一个产品，我们通常会存储用户行为日志等海量数据，这些数据通常被用来：开发数据看板，作为产品核心指标与主要业务场景的数据监控与分析数据分析/挖掘，从数据中洞察信息，为产品的优化和迭代提供有说服力的指导在这个过程中，我们的数据仓库需要满足以下两个需求：数仓中数据的组织形式是分

2020-11-21 18:37:21 2747

原创推荐系统学习 - (1)基本算法

文章目录1. 推荐系统简介1.1 推荐系统是什么？1.2 推荐系统的类型2. 推荐系统常用算法2.1 协同过滤算法2.1.1 UserCF基础算法2.1.2 ItemCF基础算法2.1.3 相似度修正2.1.4 UserCF与ItemCF对比2.2 隐语义模型2.2.1 算法原理2.2.2 LFM与协同过滤对比2.3 基于图的模型Reference最近想了解下推荐系统，阅读了《推荐系统实践》（项亮），本文简单介绍推荐系统常用算法的原理，大部分内容来自项亮大牛的书籍。1. 推荐系统简介1.1 推荐系统是

2020-05-23 20:41:37 1234

原创算法与实战 - (3) 常见数据分析项目类型

文章目录1. 用户特征分析（用户分层）2. 活跃度定义（指标定义）3. 路径分析与漏斗分析4. 交叉销售模型5. 商品推荐模型6. 信用风险模型7. 客户预测模型Reference本文主要参考《数据挖掘与数据化运营实战思路、方法、技巧与应用》，作者总结了在数据化运营中常见的数据分析项目类型。在这里结合自己的理解，简单介绍下图所示的分析项目，涉及的算法或技术原理可能在后续笔记中详细介绍。各...

2020-04-30 21:44:43 706

原创算法与实战 - 常见的数据处理技巧

文章目录1. 缺失值与异常值1.1 缺失值处理1.2 异常值处理2. 数据转换2.1 衍生变量2.2 改变变量分布2.3 分箱转换2.4 数据归一化3. 共线性问题3.1 识别共线性3.2 处理共线性4. 变量筛选4.1 线性相关指标筛选4.2 R-Square筛选4.3 卡方检验筛选Reference在数据分析/挖掘项目中，通常会包括需求确定、数据处理、模型建立、落地应用。其中，数据处理又包括...

2020-04-26 16:37:52 1144

原创算法与实战 - (1)聚类

最近在阅读阿里数据分析专家卢辉的《数据挖掘与数据化运营实战》。书中结合了实际业务案例，介绍了在实战项目中数据分析和数据挖掘的许多知识点，干货满满。因此，打算结合书中内容，对一些重要的主题加以总结，在过程中加深对各个知识点的理解。文章目录1. 聚类应用场景2. 常用聚类方法2.1 原型聚类Kmeans聚类算法高斯混合模型GMM2.2 密度聚类DBSCAN2.3 层次聚类3. 聚类效果的评估4. ...

2020-04-24 00:14:39 492

原创《增长黑客》- 读书笔记（五）实战之拉新、激活、留存、变现

文章目录1. 拉新1.1 语言-市场匹配1.2 渠道-产品匹配1.3 设计病毒循环2. 激活2.1 定位激活实验的三个关键步骤2.2 触发物策略3. 留存3.1 初期留存3.2 中期留存3.3 长期留存4. 变现4.1 绘制变现漏斗4.2 群组分析4.3 了解消费者心理Reference用户在使用产品的时候，可以根据用户进入的时间、使用频率等，对生命周期划分为不同阶段。在数据分析中，常用的生命...

2020-04-16 13:07:44 4126

原创《增长黑客》- 读书笔记（四）增长黑客循环

文章目录1. 增长黑客循环2. 小结Reference开展的实验越多，学到的东西也就越多。——《增长黑客》在上一篇笔记中讲到，增长黑客方法的第二步是**通过北极星指标的确定与拆解，确定当前阶段产品的增长战略。**在确定增长方向后，就要开始进入增长黑客的第三步——快节奏地、周而复始地进行数据->假设->优先级->实验的增长黑客循环。1. 增长黑客循环增长黑客循环：...

2020-04-15 11:57:46 2572

原创《Hive用户指南》- Hive性能调优

文章目录1. 数据模型相关1.1 Partition 分区表1.2 Bucket 桶表2. 场景优化2.1 全排序2.2 笛卡尔积2.3 EXISTS/IN子查询2.4 Multi-group by3. 配置相关4. 数据倾斜问题4.1 空值导致的数据倾斜4.2 不同数据类型关联导致的数据倾斜4.3 大表关联导致的数据倾斜ReferenceHive针对的应用场景是OLAP，通常对大数据集进行查询...

2020-04-11 13:13:18 297

原创《Hive用户指南》- Hive的连接join与排序

《Hive用户指南》- Hive的连接join与排序文章目录《Hive用户指南》- Hive的连接join与排序1. 连接1.1 left semi join1.2 mapjoin2. 排序2.1 Order By2.2 Sort By 和 Distribute By2.3 Cluster ByReference在之前的笔记中，介绍了Hive的基本架构，以及常见的SQL操作如何转化为MapR...

2020-04-09 20:44:27 296

原创《Hive用户指南》-HiveSQL转化为MapReduce任务

文章目录1. hive.fetch.task.conversion参数2. 转化为MR任务的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReferenceHive是Facebook实现的一个开源的数据仓库工具——Hive基于Hadoop实现，底层数据存放在HDFS中，计算（查询）使用MapReduce任务实现将结构化的数据文件映射为数据库表，并提供HQL查询功能，...

2020-04-08 15:03:52 1599

原创《Spark快速大数据分析》- Spark应用运行原理

文章目录1. Spark的主从结构1.1 驱动器程序Driver1.2 执行器程序Executor2. 集群管理器概念区分3. 运行流程小结Reference本文是在阅读《Spark快速大数据分析》后，根据里面提到的知识点，对Spark的运行原理进行总结概括。说明：这本书使用的spark版本是1.2，目前最新版本已经是3.0，所以可能笔记中有些内容在新版中已经不再适用。1. Spark的主从...

2020-04-02 10:22:18 284

原创《Spark快速大数据分析》- 根据简单例子理解RDD

本文是在阅读《Spark快速大数据分析》后，根据里面提到的知识点，对Spark的运行原理进行总结概括。说明：这本书使用的spark版本是1.2，目前最新版本已经是3.0，所以可能笔记中有些内容在新版中已经不再适用。1. RDD简介RDD，弹性分布式数据集（Resiliennt Distributed Datasets），是Spark中最重要的核心概念，是Spark应用中存储数据的数据结构。...

2020-04-01 11:53:15 2596

原创 AB实验样本量确定

文章目录1. 统计功效与关键概念2. Z检验样本量确定2.1 统计功效公式推导2.2 样本量计算公式2.3 求解样本量3. 卡方检验样本量确定3.1 求解样本量4. 简要总结Reference在数据分析过程中，一个完整的闭环是从数据中得到洞察，根据洞察得到某种假设，通过实验检验这一假设。AB实验实际上是在做一个假设检验，可以参考上一篇笔记【概率论】- (2)假设检验，在查资料的过程中，主要有两...

2020-01-11 18:59:13 13416 3

原创【概率论】- (2)假设检验

在数据分析过程中，一个完整的闭环是从数据中得到洞察，根据洞察得到某种假设，通过实验检验这一假设。实验环节中会涉及到一些概率论知识，比如统计推断中重要的两类问题，区间估计和假设检验。之前概率论学过相关知识，但已经有些模糊，在此复习记录。区间估计假设检验假设检验有两种求解思路，分别是：临界值法：计算拒绝域，比较检验统计量与拒绝域确定结果p值检验法：计算检验统计量得到 ppp 值，比较...

2020-01-03 17:36:56 2873

原创【概率论】- (1)区间估计

区间估计在数据分析过程中，一个完整的闭环是从数据中得到洞察，根据洞察得到某种假设，通过实验检验这一假设。实验环节中会涉及到一些概率论知识，比如统计推断中重要的两类问题，区间估计和假设检验。之前概率论学过相关知识，但已经有些模糊，在此复习记录。区间估计假设检验1. 区间估计与置信区间区间估计是什么？在统计推断中有两类问题，一类为估计问题，一类为假设检验。估计问题中主要包括点估计和区...

2019-12-11 20:04:09 3726

原创《增长黑客》- 读书笔记（三）北极星指标拆解

文章目录1. 确定北极星指标1.1 北极星指标的作用与特性1.2 北极星指标的制定标准1.3 举几个栗子2. 北极星指标拆解2.1 拆解作用/目的2.2 拆解技巧实例3. 小结Reference在进行快节奏增长实验前，你必须清楚地知道你将如何驱动增长，你的增长杠杆是什么以及他们是否能够帮助你取得理想的结果。——《增长黑客》在上一篇笔记中讲到，增长黑客方法的第一步是评估产品是否实现了产品-市...

2019-11-30 20:40:28 1599

原创《增长黑客》- 读书笔记（二）PMF与Aha时刻

文章目录1. 增长之前的PMF1.1 PMF是什么？1.2 为什么要实现PMF？2. 评估PMF:寻找Aha时刻2.1 判断Aha时刻的存在性2.2 寻找Aha时刻3. 小结Reference如果产品不受用户的喜爱，那么任何试验都无法激发持久的增长！——《增长黑客》在我们知道了增长黑客的一些方法后，可能会摩拳擦掌，跃跃欲试。但是，在试验之前，首先要确保自己的产品是合格的，是有需求、可以被市...

2019-11-16 20:32:30 3589

原创《增长黑客》- 读书笔记（一）

文章目录《增长黑客》- 读书笔记（一）1. 笔记简介2. 增长黑客是什么？2.1 增长黑客方法论2.2 增长黑客的应用范围2.3 增长黑客的作用Reference《增长黑客》- 读书笔记（一）“If you are not growing, then you are dying!”如果企业不在增长，那就是在衰亡！1. 笔记简介在早期的互联网行业中，实现用户增长的营销方式是以市场营销为...

2019-11-16 10:01:22 587

原创 Plotly Dash实现下载功能

文章目录1. 问题背景2. 解决方案2.1 解决思路2.2 例子实战Reference1. 问题背景在使用Dash框架实现可视化工具时，用户反馈希望可以下载里面的可视化表格为excel、csv等格式，网上简单搜索后，在这里记录下解决方案。2. 解决方案2.1 解决思路在查阅资料的时候得到以下信息——通常的下载功能是在后端（flask等）实现传送文件的逻辑，前端通过http接口请求文...

2019-11-12 20:19:46 1643

原创北极星指标——定义与制定标准

文章目录1. 北极星指标定义1.1 北极星指标是什么？1.2 北极星指标有什么用？1.3 北极星指标有什么特性？1.4 举几个栗子2. 北极星指标标准2.1 制定北极星指标的标准2.2 常见北极星指标3. 其他Reference10年前，互联网有极大的人口红利，传统的运营方式可能是“轰炸式”的推广、广告等，用户体验不被重视。即便如此，用户量仍然可以以极高的速度增长。随着互联网人口红利的逐渐消...

2019-11-03 16:28:52 8483

原创因果推断——简介

1. 因果推断是什么？1.1 因果性与相关性事件/变量之间的关系，最主要的有相关性和因果性。相关性是指在观测到的数据分布中，X与Y相关，如果我们观测到X的分布，就可以推断出Y的分布因果性是指在操作/改变X后，Y随着这种操作/改变也变化，则说明X是Y的因cause在常用的机器学习算法中，关注的是特征之间的相关性，而无法去识别特征之间的因果性，而很多时候在做决策与判断的时候，我们需要的是...

2019-10-28 15:16:39 36759 1

原创 Spark学习—— (1+)补充Spark各个组件的简单介绍

之前的笔记中Spark学习—— (1) 原理介绍，对Spark的基本原理进行介绍，对于各个组件简单带过了，这里稍微补充一下。1. Spark的各个组件Spark的各个组件如下，在图中自底向上可分为三个部分：资源管理器、SparkCore、上层工具。cluster manager，资源管理器，使得Spark可以在集群上灵活地获取资源，可伸缩地进行高效计算Spark支持在各种资源管理器上...

2019-09-18 09:59:52 301

原创 Spark学习—— (4+) SparkContext与SparkSession

SparkContext与SparkSession1. SparkContext1.1 是什么？如上图，SparkContext是Spark中Driver程序的一部分，向资源管理器cluster manager（可以是mesos、yarn、standalone）申请spark应用所需的资源executor，资源管理器在各个worker上分配一定的executor。当我们编写pyspark...

2019-08-09 15:59:28 8769

原创 Docker入门---基本使用与镜像构建

Docker入门Ubuntu 16.04Docker 19.03.0（安装可参考官网）1. Docker是什么？1.1 定义[1]中对Docker的定义如下：Docker 使用 Google 公司推出的 Go 语言进行开发实现，基于 Linux 内核的 cgroup，namespace，以及AUFS 类的 Union FS 等技术，对进程进行封装隔离，属于操作系统层面的虚拟化技术。由...

2019-07-26 15:38:46 221

原创 Hive简介、基本架构与存储结构

文章目录1. Hive简介1.1 什么是Hive？1.2 Hive有什么用？2. Hive的基本架构2.1 Hive的架构与组件3. Hive的存储模型3.1 Hive基本存储模型3.2 区分几种表Reference1. Hive简介1.1 什么是Hive？Hive是Facebook实现的一个开源的数据仓库工具——Hive基于Hadoop实现，底层数据存放在HDFS中，计算（查询）使用M...

2019-06-20 15:12:44 1790

原创 Spark实战—— (2.3) HBase基本使用

文章目录1. HBase shell使用1.1 通用指令1.2 table操作指令1.3 数据操作指令2. Java API使用2.1 环境配置2.2 重要的类2.3 创建表ReferenceHBase的使用有两种方式——使用HBase shell在命令行进行交互使用Java API编写执行程序供HBase运行本文对两种方法做简单的使用练习，主要参考HBase教程1. HBase s...

2019-06-05 09:54:12 542

原创 Spark实战—— (2.2) HBase分布式集群搭建

文章目录1. 预置环境2. 安装HBase3. 配置HBase4. 启动Reference1. 预置环境VMware创建三台虚拟机，均为Ubuntu16.04，内存为4G，硬盘100G已搭建Hadoop集群，可参考之前的博客Spark学习—— (2) 从零开始搭建Spark（StandAlone与YARN模式）与Hadoop集群已搭建zookeeper集群，可参考之前的博客Spark实战...

2019-05-31 14:35:37 542

原创 Spark实战—— (2.1) HBase表格结构、物理存储结构与系统架构

文章目录1. HBase简介1.1 HBase是什么？1.2 列式存储与行式存储2. HBase表格结构3. HBase物理存储结构4. HBase系统架构4.1 重要文件4.2 架构4.3 Region定位Reference1. HBase简介1.1 HBase是什么？HBase，即Hadoop DataBase，是Hadoop的一个子项目，是一个高可靠性、高性能、面向列、可伸缩的分布式存...

2019-05-30 20:05:57 645

原创 Spark实战—— (1) zookeeper简介与环境搭建

文章目录1. Zookeeper是做什么的？1.1 简介1.2 应用场景2. 核心：Paxos算法3. Zookeeper分布式集群搭建3.1 环境3.2 安装3.3 配置3.4 启动集群4. 集群简单使用Reference1. Zookeeper是做什么的？1.1 简介Zookeeper是Hadoop项目中的一个子项目，是一个分布式应用程序协调服务，是Google的Chubby的一个开源实...

2019-05-28 11:35:35 702

原创 Git与Github用法总结

文章目录2. 常用指令2.1 git add \2.2 git commit \2.3 git reset2.4 修改最后一次提交2.5 恢复删除文件2.6 git log3.关于分支3.1 创建分支3.2 切换分支3.3 合并、删除分支3.4 git的两种Merge操作4. 本地Git与Github通信4.1 与远程仓库建立联系4.2 本地与远程仓库删除文件Reference###1. git...

2019-05-27 15:29:44 105

原创 Hadoop学习——(MapReduce数据共享) 2.x后DistributedCache无法使用替代方案

文章目录1. 简介2. 替代方案3. 关于网上看到的解决方案Reference1. 简介DistributedCache是MapReduce程序中不同task之间共享数据的一种方式，即——将job指定的文件，在job执行前，先行分发到task执行的机器上之后的MR task读取缓存文件，即可实现不同task之间的数据共享这个文件需要事先放在hdfs上，且只能读取不能修改。2. 替代...

2019-05-13 10:25:27 452

原创 Spark学习—— (6) 键值对RDD编程（基于Python）

键值对RDD是许多操作所需要的常见数据类型，也叫做pair RDD通常我们会从一个RDD提取某些信息作为新的RDD的键，构成一个键值对RDD。pair RDD也是RDD，所以上一篇笔记中介绍的RDD操作对pair RDD同样适用。本文介绍针对键值对RDD的常用操作及实例。文章目录1. pair RDD的创建2. pair RDD的Transformation操作2.1 单个pair RDD2...

2019-05-07 22:54:10 380

原创 Spark学习—— (5) RDD基础编程（基于Python）

RDD是Spark中最基本的数据抽象。虽然Spark2.x中建议使用效率更高的DataSet代替RDD，但还是有必要学习一下RDD的相关知识。本文第一部分简单介绍RDD的一些基本概念，第二部分则介绍RDD的常用操作并给出例子。另外，本文介绍的操作不涉及到键值对RDD的操作，然而键值对RDD是许多操作所需要的常见数据类型，这部分内容会在下一篇笔记中补充。文章目录1. RDD简介1.1 RDD是...

2019-05-07 09:52:13 795

原创 Selenium + Chrome安装配置

文章目录1. Selenium安装2. ChromeDriver安装Reference1. Selenium安装使用pip安装即可pip install selenium2. ChromeDriver安装进入chrome://version查看chrome版本，如下：到镜像网站下载对应版本的ChromeDriver解压后放在python所在目录下，如下：测试是...

2019-04-26 09:43:48 201

原创 Spark学习—— (4) 基本使用（Python）

Spark支持Java、Python、Scala、R语法，可以通过spark-shell（Scala）或pyspark（Python）进行交互式的操作，也可以用spark-submit提交用Java、Python、Scala编写的应用。为了学习Spark的使用，本文不涉及原理，仅仅介绍Spark中Python的基本使用，为之后学习Spark的使用打下基础。本文使用部分全部来自官方参考文档Qui...

2019-04-26 09:35:58 1211

原创 Spark学习—— (3) 运行模式Local,Standalone,YARN

Spark有多种运行模式，包括——local模式，本地运行Standalone模式，使用Spark原生的资源调度器YARN模式（生产模式中常用），使用Hadoop的YARN作为资源调度器Mesos模式，使用Mesos作为资源调度器本文主要介绍前面三种最常用的运行模式，其中每种模式又可细分为两种模式。在搭建好集群的基础上，使用各个模式分别运行，描述其运行过程。关于集群搭建，可以参考上...

2019-04-22 14:53:17 2142

原创 Spark学习—— (2) 从零开始搭建Spark（StandAlone与YARN模式）与Hadoop集群

记录自己使用VMware搭建Spark集群的过程，使用三台虚拟机。若只需要Hadoop集群，则将5和7跳过即可；若只需要Spark Standalone模式的集群，则将6和7跳过即可。文章目录1. 环境2. 第一台虚拟机2.1 虚拟机创建2.2 Hadoop安装2.3 Spark安装3. 虚拟机复制3.1 修改用户名/组（看黑体）3.2 克隆虚拟机3.3 修改主机名称4. 配置ssh免密登陆...

2019-04-21 14:44:51 723

原创 Spark启动失败：slave节点无法连接到master

1. 问题描述启动spark时报错，使用start_all.sh或在slave节点上start_slave.sh都报相同的错。报错信息如下：19/04/20 04:35:49 INFO Utils: Successfully started service 'sparkWorker' on port 45265.19/04/20 04:35:49 INFO Worker: Starti...

2019-04-20 20:10:41 4796 1

空空如也

主元位置可以是最右吗