闻香识代码-CSDN博客

原创《如何阅读一本书》读书笔记

《如何阅读一本书》读书笔记背景学习和适应能力是如今社会生存和发展最重要的能力之一，学习如何学习，学习如何阅读来汲取和提炼信息，提升自己当今社会各种信息承载方式和渠道，录音，广播，电视，视频，博客等，但书籍作为很传统的一种信息承载方式，还是有其不可替代的作用。所以学习如何阅读是一件很重要的事情。《如何阅读一本书》就是一本关于如何阅读的书籍，很经典笔记1. 章节划分本书可以划分为2个部分，一个是读书方式的划分以及如何做到；另一个就是读书的目标以及如何达到书籍本身划分是四个部分，单独将分析阅

2021-03-08 12:09:18 413

原创大数据开发之Django简单接口开发

大数据开发之Django简单接口开发背景做大数据开发，目前主要语言还是java和scala，但python由于在算法方向的广泛应用，一些公司为了降低内部开发和维护成本，会直接统一开发语言为python，而且主流的hadoop，spark，包括flink都有比较完善的python支持了。大数据团队一般职责最简化来说就是ETL，很多时候分工，直接把数据处理好治好，等待下游环节消费即可。但有时候也需要提供api接口，方便下游环节甚至外部访问。java语言下，很多时候直接spring就可以搞定这类需求，p

2021-03-01 11:28:17 1788

原创读书笔记之《随机漫步的傻瓜》

读书笔记之《随机漫步的傻瓜》背景目前看的书籍，分为几大类：职业技能类型，也就是计算机专业书籍文学修养类型，如毛泽东文选，古文观止等理财类书籍，包括经济学，巴菲特，查理芒格，银行螺丝钉等编写的书籍，这是除了职业技能书籍之外，直接带来收入的知识学习。《随机漫步的傻瓜》这本书也是讲解关于理财的书籍，不过是从另外一个角度对理财收益的结果做评估。稍后开始讲解总结1. 全书划分，三篇这本书从最概要来讲，就是不要忽视随机事件，以及各个事件结果后面随机性带来的影响。从正面事件结果来看随机性，一定

2021-02-21 10:43:52 823

原创 flink mongodb sink自定义开发(支持flink sql)

flink mongodb sink自定义开发1. 背景目前官方关于自定义sink source资料较少，示例代码少，幸好github有一个clickhouse的自定义sink可以借鉴https://github.com/gmmstrive/flink-connector-clickhouse2. 步骤1. 环境jdk8idea 2020scala 2.112. pom以下是自定义connector开发时可以参考的pom文件<packaging>jar</

2021-01-31 23:36:33 4045 3

原创 flink redis connector（支持flink sql）

flink redis connector（支持flink sql）1. 背景工作原因，需要基于flink sql做redis sink，但bahir 分支的flink connector支持只是基于datastream，而需要支持flink sql，还需要进一步完善flink sql及flink table api按照flink官方社区，会是未来重点方向，包括python支持。因为所有的技术都会往使用友好方向发展，对外接口和使用友好，内部则会因为这个原因变得复杂起来。（但需要确定方向是否有误才行）

2021-01-31 23:03:55 4385

原创 Hadoop 2.6.5 集群搭建(基于Mac os 11.1)

Hadoop 2.6.5 集群搭建(基于Mac os 11.1)背景之前博客都是研究时环境,hadoop,spark等版本都比较新本文基于对生产环境还原,使用较低的2.6.5版本(实际生产中一般不会使用较新的开源版本,而是使用经过验证的稳定的版本如hadoop, spark的 2.x 系列的版本)步骤mac os 11.1jdk 1.8(mac os上安装),linux(centos 7) 上安装open jdk的1.8版本yum install -y java-1.8.0-op

2021-01-16 20:37:42 186

原创 Flink 1.12.0学习与分享(pyflink)

Flink 1.12.0学习与分享1. 大数据实时计算引擎历史第一代, 以Storm为代表, 高吞吐,低延迟,但精确一次消费以及开发维护便捷性,生态完善度等相对欠缺一些.第二代,以Spark 为代表, 高吞吐, 牺牲了一些延迟(微批次理念), 结合第三方框架, 可以很好实现精确一次消费. 开发维护便捷性, 生态完善度都非常好.第三代, 以Flink为代表, 设计时就以实时计算为出发点, 高吞吐,低延迟,精确一次消费语义支持, 开发维护便捷性, 生态完善度都非常好生态完善度:各类编程语言支持

2021-01-04 09:52:50 2743 1

原创＜＜程序是怎么跑起来的＞＞学习笔记总结二

<<程序是怎么跑起来的>>学习笔记总结二2.7 程序运行环境最早的程序是需要直接操作硬件的,也就是说编写的程序除了需要的逻辑代码之外,还要把控制硬件代码也写进去,后面随着人们初步把这些公共代码抽离,就形成了操作系统程序运行环境,包含硬件和操作系统. 操作系统就是操作硬件的程序,也是一个平台,让其他程序可以运行在操作系统之上,而不再需要直接操作硬件.现代操作系统为了安全,很多已经禁止直接的硬件操作行为现代计算机组成:CPU,内存,外部IO设备如鼠标,键盘,屏幕,打印机,

2020-12-27 20:58:25 172

原创＜＜程序是怎么跑起来的＞＞学习笔记总结一

<<程序是怎么跑起来的>>学习笔记总结1. 背景作为IT行业从业者,跨行而来,也有6 7年了,虽然一直都有加强基础学习,但学而时习之.不断巩固复习是有很大帮助的,而且经典书常看常新,每次学习,都有不同的感悟.计算机基础,其实有几门关键的课程:操作系统计算机组成原理计算机网络数据库原理编译原理数据结构与算法C语言汇编语言java设计模式软件工程数字图像处理音视频技术分布式计算人工智能2. 总结本书<<程序是怎么跑

2020-12-27 19:12:09 227

原创 Flink SQL案例实践(1.11.0)

Flink SQL案例实践(1.11.0)1. 背景2020年随着阿里flink 批流一体大会开展,更多人和公司知道了flink的强大以及业务场景下的实际表现.关注和使用flink的公司以及个人会越来越多在大数据领域,一个引擎可以同时支持处理结构化数据,图计算,机器学习,流计算目前主流还是spark和flink.由于引擎设计理念,flink一开始就是为流计算设计,而spark则一开始就是以批处理设计的,不过是微批次的理念.这也导致了在一些方面,流数据处理领域flink会更加强大和灵活.本文案例是

2020-12-26 21:06:11 868

原创 redis 研究笔记汇总

redis 研究笔记汇总背景nosql 是为了解决高并发，高可扩展，高可用，高写入产生的数据库解决方案NoSql就是Not Only sql。Nosql是非关系型数据库，它是关系型数据库的良好补充，而不能替代关系型数据库Nosql数据库分类键值(Key-Value)存储数据库相关产品： Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB典型应用：内容缓存，主要用于处理大量数据的高访问负载。数据模型：一系列键值对优势：快速查询劣势：

2020-12-06 22:26:30 170

原创 spark streaming 结合kafka 精确消费一次将结果保存到hbase

spark streaming 结合kafka 精确消费一次将结果保存到hbase1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10hadoop 3.2.1hbase 2.2.5 （另外一个明细数据幂等处理，保存到habse）redis 5.0pom <properties> <maven.compiler.s

2020-12-06 20:23:44 942

原创 spark streaming 结合kafka 精确消费一次将结果保存到redis

spark streaming 结合kafka 精确消费一次到redis1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10hadoop 3.2.1hbase 2.2.5 （另外一个明细数据幂等处理，保存到habse）redis 5.0pom <properties> <maven.compiler.source

2020-12-06 20:11:45 1051

原创 spark streaming 入门案例演示

spark streaming 入门案例演示1. 环境scala 2.12.12jdk 1.8idea 2020.1maven 3.6.3spark 3.0.1kafka 0.10pom <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1

2020-12-06 12:26:15 157

原创 Kafka 入门学习简介

Kafka 入门学习简介1. kafka是什么Apache Kafka is an open-source distributed event streaming platform used by thousands of companies for high-performance data pipelines, streaming analytics, data integration, and mission-critical applications官网http://kafka.apache

2020-12-06 12:21:40 159

原创 Spark Streaming 结合kafka流式数据处理代码案例（含精确消费一次结果保存到mysql）

Spark Streaming 结合kafka流式数据处理代码案例1. 背景在当前大数据处理中，根据数据处理类型可以分为离线数据处理和实时数据处理。不过目前主流的实时数据处理spark streaming和flink，其实前者只能算是准实时处理技术在国内，spark streaming做实时数据处理，一般都是结合kafka来进行数据消息缓存框架，包括spark官方案例也着重讲了这一点spark 官方文档 http://spark.apache.org/docs/latest/streaming-k

2020-12-06 11:40:47 1788 1

原创大数据面试题题目2020年底总结Java（二）

大数据面试题题目2020年底总结Java（二）1. 多线程1.1volatile内存模型可见性用volatile修饰的变量，就会具有可见性。volatile修饰的变量不允许线程内部缓存和重排序，即直接修改内存。所以对其他线程是可见的。但是这里需要注意一个问题，volatile只能让被他修饰内容具有可见性，但不能保证它具有原子性volatile不保证原子性如何解决指令重排指CPU采用了允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理内存屏障（指令重排序时不能把后

2020-11-06 21:33:03 388

原创大数据面试题题目2020年底总结（一）

大数据面试题集锦（一）1. javaJVM内存结构栈堆方法区程序计数器JVM内存回收机制哪些需要回收判断算法引用计数法每个对象创建的时候，会分配一个引用计数器，当这个对象被引用的时候计数器就加1，当不被引用或者引用失效的时候计数器就会减1。任何时候，对象的引用计数器值为0就说明这个对象不被使用了，就认为是“垃圾”，可以被GC处理掉。【优点】算法实现简单。【缺点】不能解决对象之间循环引用的问题。有垃圾对象不能被正确识别，这对垃圾回收来说是很致命的，所以GC并没有使

2020-11-05 21:55:03 348 1

原创 Kylin 3.1.0架构

Kylin 3.1.0架构背景在OLAP分析中经常会有如下概念事实，维度（这其实说的是事实表和维度表）度量，指标（这说的其实都是指表的列，维度就是从哪些角度对数据做分析，需要分析查看的维度就是度量）cube,顾名思义，就是一个立方体，不过由于实际OLAP中，不可能只有四个维度，所以实际上是指代多维立方体。本质就是一个多维数据集，包含维度和度量。详情可以看我关于OLAP的一篇博客下钻：从更细粒度的维度值角度探索数据（如时间维度，按天粒度查询销售额）上卷：从更粗粒度的维度值

2020-11-04 11:28:37 219

原创大数据数仓之报表开发

大数据数仓之报表开发1. 背景在大数据开发中，主要的数据分析目的可以分为2类。一类是基于历史数据（就算是实时数仓，接收到数据的时候，其实也已经是历史数据了）做数据规律或者结果提取；一类是基于历史数据，训练模型，做未来数据预测或者分类等。如果是前者，基于已有数据做数据规律和数据结果提取，这时候就可以称之为报表开发。参考神策系统，报表开发可以划分固定维度报表开发，一定维度自由组合报表开发，自由维度报表开发。固定维度报表开发，一般是一些固定指标，但会加一些固定维度，典型的如年，月，日等一定维度内自

2020-11-03 22:54:30 6660 1

原创大数据数仓之OLAP总结（一）

大数据数仓之OLAP总结（一）1. 背景在企业生产中，由于现有商业环境和业务越来越复杂和庞大，没有准确及时的数据支撑，在做企业经营决策和分析时，是无法得到很好的现实反馈，甚至会导致企业经营失败，项目关闭，公司破产。现有企业中，各个部门密切合作，运营，销售部门对接客户，技术部门做技术支撑，老板根据业务数据做企业决策。在这个过程中，如何快速，准确获取企业经营相关各类数据就显得非常重要。而随着互联网，特别是移动互联网发展，联网用户越来越多，企业业务一旦涉及到互联网，所需要处理分析的数据剧增，这时候如何从这

2020-11-03 22:02:23 895 1

原创中文分词框架Hanlp简单案例(scala)

中文分词框架Hanlp简单案例(scala)背景在机器学习中，如果需要对中文做自然语言处理，分词的环节必不可少。有很多好用框架Hanlp就是一个分词框架案例<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.4&l

2020-11-01 20:39:35 817

原创大数据机器学习之KNN（k近邻）算法Spark mllib实现案例

大数据机器学习之KNN（k近邻）算法Spark mllib实现案例背景在大数据场景下，spark框架提供了支持分类，聚合，协同过滤，回归四大类场景的mllib模块本文讲述的knn刚好是spark mllib不支持，但可以自行实现的算法。案例数据标注的训练数据label,f1,f2,f3,f4,f50,10,20,30,40,300,12,22,29,42,350,11,21,31,40,340,13,22,30,42,320,12,22,32,41,330,10,21,

2020-11-01 17:37:44 2141

原创大数据开发之机器学习总结（Mllib示例）（五）

大数据开发之机器学习总结（Mllib示例）（五）背景作为spark框架中支持机器学习的模块，其算法库核心内容如下可以看到，主要就是分类，回归，决策树等算法1. 分类算法分类算法属于监督式学习，使用类标签已知的样本建立一个分类函数或分类模型，应用分类模型，能把数据库中的类标签未知的数据进行归类分类在数据挖掘中是一项重要的任务，目前在商业上应用最多，常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等MLlib 目前支持分类算法有：逻辑回归、支持向量机、朴素贝叶斯和决策树导

2020-10-31 22:53:59 313

原创大数据开发之机器学习总结（Spark Mllib）（四）

大数据开发之机器学习总结（Spark Mllib）（四）背景在大数据和机器学习交叉的领域，如果公司选择了hadoop生态，结合spark框架，则spark 的mllib用于机器学习实际应用就是不二选择了。团队有spark基础，学习和适用门槛低。但如果选择python生态，则需要团队有python基础，另外个人认为，python工程化对比java生态还是差了那么一些意思。1. Spark MLLib简介spark的mllib目前支持4种常见机器学习问题，分类，回归，聚类，协同过滤。mlli

2020-10-31 22:24:21 761

原创大数据开发之机器学习总结（数学知识）（三）

大数据开发之机器学习总结（三）机器学习基础数学知识5. Spark MLLib简介6. 模型评估7. Spark MLlib算法案例8.

2020-10-31 21:16:55 248

原创 Hive数据导入到HBase

Hive数据导入到HBase1. 背景作为一个数据处理框架，hive本身并不计算和存储数据，计算引擎一般是mapreduce，tez，spark，数据存储则是在hdfs中，元数据一般在mysql中。hive将数据计算处理之后，如果数据结果需要对外提供并且有秒或亚秒级别的访问速度，并且跟hadoop生态有较好的兼容性，则hbase是一个很好的选择。当然实际上只是数据存储，mysql，elasticsearch，clickhouse都可以胜任亚秒级别的数据访问性能。当业务需要，将hive数据导入hba

2020-10-27 23:06:25 4295

原创 Kylin 3.1.0新版本安装教程

Kylin 3.1.0新版本安装教程1. 背景在大数据开发中，数据处理一般分为离线和实时数据处理。而在离线数据处理中，数据需求从指标维度来看，又可以进一步划分：固定维度灵活多维度（维度最大数量固定，但维度之间会有组合）唯独不确定针对上述灵活多维度（维度最大数量固定，但维度之间会有组合），传统上可以使用hive，spark sqll等计算引擎做数据分析处理。如hive有with cube，grouping sets，roll up来做多维度计算处理。但数据计算处理之后为了保证数据查

2020-10-27 22:09:22 1152

原创数仓建模和业务建模对比总结

数仓和业务建模对比总结1. 背景在大数据开发中，整个流程是数据采集，数据存储，数据传输，数据计算，数据展示。在这个过程中数据存储和数据计算是最关键2个环节。数据存储整体最关键就是各个数据库和表关系设计，这一点和业务数据库设计是一样，需要考虑数据读写方便，后续扩展方便，还需要保证性能可以满足现在以及未来一段时间的需求。本文就是讲述关于数仓建模的一些理解和实践经验分享。从大到小进行设计。2. 整体建模思路在学术界，数仓整体建模思路有2大类，一种是Bill Inmon的自上而下。另外一种是Ral

2020-10-27 21:41:00 916

原创 SpringBoot 搭建HBase 数据服务API接口

SpringBoot 搭建HBase 数据对外服务http API接口1. 背景在大数据开发中，数据分析结果在公司内部从数据查询速度要求来看分为2种，一种是不太在乎速度，在时间期限之前给到即可；一种是查询速度要求较高。应对查询速度较高的，有2种思路。一种是提前计算好，然后存入数据查询较快的数据库中；一种是采用高速计算引擎，当场计算。提前计算好的数据，如果数据规模较小，如亿条数据级别，可以使用如mysql集群应对。当数据再大时，使用Hbase,elasticsearch等就可以纳入技术选型视野。本

2020-10-27 20:01:13 1287

原创大数据开发之机器学习总结（二）

大数据开发之机器学习总结（二）1. 精确率和召回率监督学习中，如何评估一个模型的效果，这时候就需要相办法做指标评估。监督学习中，针对分类场景，一般是分类准确率，定义为分类器对测试集正确分类的样本数与总样本数之比对于二类分类问题，常用指标就是精确率和召回率，这时候按照真实数据所属类比与模型预测结果组合划分，有如下2. 回归问题监督学习中，回归就是基于已有数据，找出输入和输出之间规律，然后根据输入的数据，得出预测的结果数据。有点类似新建一个函数，来贴合现有的函数。这叫做拟合回归问题分类

2020-10-24 23:02:23 194

原创大数据开发之机器学习总结（一）

大数据开发之机器学习总结1. 背景在大数据开发中，数据分析目的一般分为2大类，一个是基于已有数据，提炼出想要的数据汇总信息。一个是基于已有数据使用算法训练出模型，基于模型预测和分析未来的新数据。前者就是很多时候的大数据分析场景，后者则涉及到算法模型，机器学习的范畴。更进一步，人工智能，但机器学习和人工智能，本身其实技术上并没有非常严格的界限。2. 机器学习概念机器学习，故名思意，让机器通过学习过去的经验数据，然后可以更好处理现在和未来的任务。官方定义，研究计算机对于特定任务的性能，逐步改善

2020-10-24 22:43:41 1183

原创数仓建模思想之星型模型、雪花模型、星座模型

数仓建模思想之星型模型、雪花模型、星座模型1. 背景在大数据开发中，数据一般是分为事实表，维度表，实体表等表。事实表顾名思义就是记录实际发生的事情如订单表，优惠券使用表等等。维度表，顾名思义，就是一个信息有多个维度，记录这些维度值的表。如日期，产品类目等等。一般会有一个id，以及id对应的各种维度具体信息。注意，数仓建模主要就是将数据如何以数据库和表为单元，尽可能科学有效存储，方便后续的查询，分析，使用。在这个过程中，如何保证数据查询便捷性，性能，降低空间存储冗余度都是需要仔细考量的。注

2020-10-24 21:25:46 1214

原创数仓用户画像

数仓用户画像1.背景在数仓开发中，主要目的就是2个，一个是基于现有数据提炼出规律和信息，一个是基于现有数据训练模型，然后预测未来的数据。用户画像属于前者，但由于画像的特殊性，如果一个人的画像标签较多，较完善，其实可以一定程度预测其未来行为规律。具体可以看《夏洛克》中的心理侧写，就是一样的道理，一个人有哪些特质，喜爱，偏好，憎恶等等，就可以一定程度预测这个人在某个场景下的行为规律。用户画像中，需要使用标签来给用户打标签，如果需要完整画像，还需要有模型来给各个标签一定权重，一定的算法。标签可以

2020-10-24 20:45:53 1695 1

原创数仓拉链表

数仓拉链表1. 背景在数仓开发中，有时候需要记录下数据的所有历史状态，大家是否想起来，其实企业开发中代码也是有这个需求，公司中的需求文档，设计稿也都是有这个需求的。在大数据场景中，其实很多数据存储框架，都会对数据加版本，这是由于数据存储本身机制导致的。例如HBase，kafka都是有数据版本的。因为这些数据存储到磁盘时，是采取顺序写入，这样写入速度很高甚至可以达到内存随机读写的速度。不过带来的坏处就是不能像正常的数据写入更新同一条数据，而是写入一条新的数据，等到一定时机，再对这些数据做合并。而在

2020-10-23 22:22:34 534

原创 SQL 面试题之行列转置

SQL 面试题之行列转置1. 题目2. 思路分析从结果来看，结果要求按照人，这时候很自然就是group bygroup by之后，使用聚合函数将分数取出来，这时候需要判断科目取分数，case when，使用if 嵌套也可以，但会复杂起来3. 扩展使用collect concat可以将数据搜集起来使用explode，使用字符串切割可以将字符串炸开。灵活运用上述操作，可以带来很灵活的行列数据转换。...

2020-10-23 21:42:59 479

原创数仓 DW层用户固定漏斗分析主题

数仓 DW层用户固定漏斗分析主题1. 背景在app业务和流程设计中，页面和页面之间，流程和流程之间的每个环节并不是100%流转下去的。例如大家使用购物App，从商品详情页到下单页面，到支付页面，中间可能随时因为各种原因跳出。这时候就涉及到漏斗分析，也就是分析这些环节之间的转换率。在当今快节奏开发，推崇敏捷开发时代，不管是什么app，都不会一开始就做成尽善尽美，反而只会有核心功能，然后接入比较完整的数据分析和观察工具后，每个迭代周期根据线上数据分析和用户反馈进行迭代优化。这样就可以使用2周一个迭代的

2020-10-23 21:35:21 406

azkaban 2.5.0安装包

计算机软硬件概述.xmind

vc6输出框输出书库丢失问题