北京小辉-CSDN博客

原创 Markdown帮助文档

一、Markdown表格-换行、合并单元格1、表格中对其、换行处理1.1 一般我们都会这样用表格如下：|排名|姓名||--|--||第一名|隔壁老王||第二名|隔壁小王、隔壁小小王|实现效果图：排名姓名第一名隔壁老王第二名隔壁小王、隔壁小小王1.2 当然这里也可以通过设置|:–|左对齐，|–:|右对齐比如下面的左对齐：|排名|姓名||:-...

2019-07-08 15:47:09 1389 1

原创我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架

致青春赶在儿子1岁生日之际，赶在我30岁告别之际，我撰写《Hadoop+Spark生态系统操作与实战指南》一书，作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页，我借【此书】记录下我的青春，我借【清华大学出版社】将我青春永远留在【清华大学】。我的新书《Hadoop+Spark生态系统操作与实战指南》，清华大学出版社，已经在京东、天猫、当当

2017-08-07 20:22:59 8071 28

原创 Spark深入解读（十二）---- 有向无环图DAG(代码及图解)

目录：1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果1、有向无环图在图论中，如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）。因为有向图中一个点经过两种路线到达另一个点未必形成环，因此有向无环图未必能转化成树，但任何有向树均为有向无环图。性质：有向无环图的生成树个数等于入度非零的节点的入度积。 2、代码结构

2017-01-03 18:21:54 22026 1

原创 Ubuntu 20.04安装gitlab

一、Ubuntu系统平台查看二、Ubuntu系统软件源更新三、Ubuntu系统安装依赖四、Ubuntu系统下载安装包五、Ubuntu系统安装gitlab六、Ubuntu系统系统配置七、gitlab重新启动系统ERROR01ERROR02

2023-05-09 09:51:11 189

原创安卓相关错误解决

将文件内容修改：gradle.properties。

2023-04-19 11:37:09 208

转载数据仓库——如何量化评价一个数据仓库的好坏？

数据仓库——如何量化评价一个数据仓库的好坏

2023-01-29 11:05:37 615

原创 3天学会撰写软件发明专利——2.专利的价值

1)学生对专利的价值2)个人对专利的价值3)企业对专利的价值

2022-12-24 10:39:20 190

原创数据团队总监生存指南

新晋总监生存指南开篇之总监二三事新晋总监生存指南二——建立指标新晋总监生存指南三——OKR实践新晋总监生存指南四——项目执行指南新晋总监生存指南五——人才运营机制新晋总监生存指南终章——构建团队信息通道...

2022-08-22 10:13:38 246

/** * 检验表达式中的括号是否成对出现 */ def isMatch(rules: String): Boolean = { // 括号中文转英文字符 val str = rules.replaceAll("（", "(").replaceAll("）", ")") // 设置栈存储容器 val brackets = new util.HashMap[Character, Character] // key值为：')' ，value值...

2022-01-17 17:33:43 356

原创用户画像理论和实战

用户画像

2021-11-02 19:17:43 446

原创 SQL行转列、列转行

目录一、整理测试数据SQL行转列、列转行这个主题还是比较常见的，行转列主要适用于对数据作聚合统计，如统计某类目的商品在某个时间区间的销售情况。列转行问题同样也很常见。一、整理测试数据create table wyc_test( id int(32) not null auto_increment, name varchar(80) default null, date date d...

2021-07-27 19:52:39 342

原创程序员必知的几种软件架构模式

程序员必知的几种软件架构模式前序分层架构模式多层模式管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构（MVC）事件驱动架构微服务架构前序架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而，很多开发者至今还对各种软件架构模式之间的差别搞不清，甚至对其所知甚少。大体上，主要有下面这几种架构模式：分层架构管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构事

2020-10-27 14:11:45 4355 6

原创程序员正确看代码的方式

正确的学习方法不仅能够让你事半功倍，也能够让你更加接近真理。初学一个工程的源代码，往往让初学者手足无措。下面的方法希望为初学者带来启示和便利。这个学习方式是基于编译环境和语言比较熟悉的基础上。最重要的是你要确定你要阅读的源代码是一份好代码。因为阅读代码就像阅读书籍。好代码让你终生受益，坏代码会给你留下阴影。一．先把源代码安装起来编译起来，结合它的文档和手册，熟悉其功能和它的应用方式。如果遇到的是英文

2020-09-25 23:57:56 14071 3

原创 Druid的端口-接口-日志大全

在介绍之前，先列一下Druid各部分的端口号(在代码Main.java中)：角色端口Coordinator8081Historical8083Broker8082Realtime8084Overlord8090MiddleManager8091Router8888下面是管理命令：查询某个Meta Datasource下所有的segments：GET http://<coordinator>:8081/druid

2020-09-23 11:16:49 3108

原创 Presto的坑记录

问题1 Java版本:Unrecognized VM option 'ExitOnOutOfMemoryError'Did you mean 'OnOutOfMemoryError=<value>'?Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.回答：Presto requires Java 8 Update 151

2020-09-15 15:33:10 4600 1

转载如何搭建AI数据中台？

AI中台是一个用来构建大规模智能服务的基础设施，对企业需要的算法模型提供了分步构建和全生命周期管理的服务，让企业可以将自己的业务不断下沉为一个个算法模型，以达到复用、组合创新、规模化构建智能服务的目的。什么是AI数据中台？在以往，企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时，需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体，也就是

2020-09-12 15:57:56 2319 1

原创 CDH--HDFS和Yarn存储不足

备注：最近公司CDH集群中的某个DataNode存储一直报警，分析如下：1）一个集群有多个DataNode2）一个DataNode的数据会存储在多个路径。eg: /data1,/data2,/data3等等3）/data3 路径下面除了【/data3/dfs/dn】和【/data3/yarn/nm】路径还会有其余文件，导致路径文件过大，同时CDH的 balancer 的平衡机制无法平衡4）解决方法：清除路径多余文件，或者在CDH中的DataNode移除对应路径5）无论DataNode还是y

2020-08-18 16:06:58 816

原创 JVM虚拟机

1.垃圾回收算法分类算法一：引用计数法。这个方法是最经典点的一种方法。具体是对于对象设置一个引用计数器，每增加一个变量对它的引用，引用计数器就会加 1，没减少一个变量的引用，引用计数器就会减 1，只有当对象的引用计数器变成 0 时，该对象才会被回收。可见这个算法很简单，但是简单往往会存在很多问题，这里我列举最明显的两个问题。一是采用这种方法后，每次在增加变量引用和减少引用时都要进行加法或减法操

2020-08-07 19:35:01 377

原创大数据工程师的日常工作内容

1 写 SQL（很多入职一两年的大数据工程师主要的工作就是写 SQL ）2 为集群搭大数据环境（一般公司招大数据工程师环境都已经搭好了，公司内部会有现成的大数据平台，但我这边会私下搞一套测试环境，毕竟公司内部的大数据系统权限限制很多，严重影响开发效率）3 维护大数据平台（这个应该是每个大数据工程师都做过的工作，或多或少会承担“运维”的工作）4 数据迁移（有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中，这个是比较繁琐的工作，吃力不讨好）5 应用迁移（有

2020-08-07 14:17:57 2289 2

转载大数据优化方案----Spark数据倾斜

1. 什么是数据倾斜数据倾斜是一种很常见的问题（依据二八定律），简单来说，比方WordCount中某个Key对应的数据量非常大的话，就会产生数据倾斜，导致两个后果：1)OOM（单或少数的节点）；2)拖慢整个Job执行时间（其他已经完成的节点都在等这个还在做的节点）。2. 解决数据倾斜需要1)搞定 Shuffle；2)搞定业务场景；3)搞定 CPU core 的使用情况；（这里的core是虚拟的core而不是机器的物理CPU核，可以理解为就是

2020-08-07 11:27:45 566

原创大数据面试题(五)----HIVE的调优及数据倾斜

一、 hive表的优化1）小表、大表 Join 将 key 相对分散，并且数据量小的表放在 join 的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用 Group 让小的维度表（1000 条以下的记录条数）先进内存。在 map 端完成 reduce。实际测试发现：新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别。案例实操 &n

2020-08-07 10:32:16 650

原创数据挖掘考试题库

目录一、名词解释二、综合题一、名词解释数据仓库：是一种新的数据处理体系结构，是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合，为企业决策支持系统提供所需的集成信息。孤立点：指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。OLAP：OLAP是在OLTP的基础上发展起来的，以数据仓库为基础的数据分析处理，是共享多维信息的快速分析，是被专门设计用于支持复杂的分析操作，侧重对分析人员和高层管理人员的决策支持。粒度：指数据仓库的数据单位中保存数据细化或综合

2020-07-20 10:28:36 2230

原创 tez 安装教程

环境版本CDH5.16.2 hadoop 2.7.0-cdh5.16.2安装前期准备1、This assumes that you have already installed JDK8 or later and Maven 3 or later.2、Tez also requires Protocol Buffers 2.5.0, including the protoc-compiler. This can be downloaded from https://github.com/google

2020-06-02 11:40:30 881

原创 Hive教程（十一）---整合HBASE

目录6.4.1 HBase与Hive的对比6.4.2 HBase与Hive集成使用6.4.1 HBase与Hive的对比Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗，延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行。HBase(1)

2020-05-15 23:32:45 375

原创 Hive教程（十）---JDBC的连接

目录10.1 创建maven项目添加依赖10.2 JAVAAPI10.1 创建maven项目添加依赖Jdbc是jdk开发的操作数据库的一套标准API(接口方法)Java提供的一套操作数据库的标准API<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId>

2020-05-15 23:28:26 407

原创 Hive教程（八）---压缩和存储

目录8.1 Hadoop源码编译支持Snappy压缩8.2 Hadoop压缩配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 文件存储格式8.6 存储和压缩结合8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意：采用root角色编译，减少文件夹权限出现问题jar包准备(hadoop源码、JDK8 、maven、proto

2020-05-15 23:18:15 351 1

原创 Mysql案例（二）---列转行

列转行SELECT GROUP_CONCAT(shop_name),product_idfrom shopproduct GROUP BY product_id;

2020-05-14 13:04:17 454

原创 Hive教程（九）---企业级调优

目录前述9.1 Fetch抓取9.2 本地模式9.3 表的优化9.4 数据倾斜9.5 并行执行9.6 严格模式9.7 JVM重用9.8 推测执行9.9 压缩9.10 执行计划（Explain） (搜索)前述查询速度效率分区分桶表特殊的文件格式列式存储的文件类型查询时候指定字段join的时候使用on 避免笛卡尔积hive底层mr , inert into valuesreduce阶段数据倾斜添加reduce的个数设置maptask处理数据的大小 ,

2020-05-13 22:27:54 411

原创 Hive教程（七）---函数

目录7.1系统内置函数7.2 自定义函数7.3 自定义UDF函数7.4 json解析函数：表生成函数7.1系统内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数 1）Hive 自带了一些函数，比

2020-05-12 23:10:53 372

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

Mysql教程所有数据.zip

新概念2知识点.pdf

crawlerBank.py

Hive的Udf函数进行数据脱敏

sqoop的数据导入

SpringBoot的mvc三层以及增删改查页面

spring boot+mybatis整合

Lucene实战(第2版).pdf

SparkSql技术

MacBook Pro的快捷键

hadoop-Apache2.7.3+Spark2.0集群搭建

SqlServer驱动包

silentwolf

微博对一条微博进行评论API

调用JEECG微博发帖API异常

mac版本idea中路径颜色设置