自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

delet丶

专注于大数据开发和机器学习的研究

转载 Scala中:: +: :+ ::: +++的区别

(1) :: 该方法被称为cons，意为构造，向队列的头部追加数据，创造新的列表。用法为 x::list,其中x为加入到头部的元素，无论x是列表与否，它都只将成为新生成列表的第一个元素，也就是说新生成的列表长度为list的长度＋1(btw, x::list等价于list.::(x))(2) :+和+: 两者的区别在于:+方法用于在尾部追加元素，+:方法用于在头部追加元素，和::很类似，但是::可以用于pattern match ，而+:则不行. 关于+:和:+,只要记住冒号永远靠近集合类型就OK了。

2021-05-02 04:24:19 234 1

原创详解 spark的shuffle原理

前言spark的shuffle计算模型与hadoop的shuffle模型原理相似，其计算模型都是来自于MapReduce计算模型，将计算分成了2个阶段，map和reduce阶段。一多维度理解shuffle:二 shuffle过程的内存分配三 shuffle过程中的数据倾斜四 shuffle write过程一多维度理解shuffle:shuffle的作用就是把map阶段和reduce阶段连接起来，充当一个桥梁的作用。 shuffle只能产生[k,v]类型的PairRDD中，M

2021-03-31 07:44:14 2732 2

原创批量启动kafka脚本

@批量启动kafka脚本#! /bin/bashnode='master slave1 slave2'kfServerPath="/opt/kafka_2.11-2.4.1"case $1 in"start"){ for i in $node do echo " --------启动 $i Kafka-------" # 用于KafkaManager监控 ssh $i "

2021-03-27 00:55:08 137 2

转载更新Anaconda

Anaconda更新速度慢：conda update conda解决方案：更换anaconda源，使用清华的源conda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --add channelshttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/conda config --set show..

2021-02-19 20:35:12 157

原创汉诺塔python实现

原理图：# 汉诺塔def hannio(n,a,b,c): if n==1: print(a ,'-->',c) return None else: hannio(n-1,a,c,b) print(a,'-->',c) hannio(n-1,b,a,c)n,a,b,c = 3,'A','B','C'hannio(n,a,b,c)

2021-01-13 14:57:42 123 4

原创斐波那契数列python实现

# 斐波那契数列模块"""方法一：从最大值考虑"""def fib(numMax): # 定义到 n 的斐波那契数列 a, b = 0, 1 while b < numMax: print(b, end=' ') a, b = b, a+b print()#二从位数考虑num = int(input('请输入要求的前n位数字:'))def fiboTwo(num): list1 = [] a, b = 0

2021-01-13 14:53:20 321 2

原创查找：python实现二分法

实现二分法的前提示列表要首先排好序

2021-01-13 13:52:32 88 1

原创 python有关下载链接记录

下载记录Download PhantomJSChromedrivergeckodriver

2020-07-04 20:12:43 164 3

原创大数据学习社区汇总

文章目录HbasesparkflinkHbase官方文档腾讯社区中国hbase技术社区博客园技术社区微博技术社区阿里云云栖社区资料汇总OSChinaHbase中文参考指南入门教程Hbse官方文档spark官网阿里云社区2.2.0中文文档大佬翻译flink官网ververica知乎中文社区中国中文社区并发编程网1.9官方文档下载中文文档...

2020-07-02 09:56:53 445

原创 shell之复制文件脚本

shll之复制脚本#!/bin/bash#获取输入参数的个数.没有参数直接退出pcount=$#if((pcount==0));thenecho no args;exit;fi#2.获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3.获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`echo pdir=$pdir#4.获取当前用户名称user=`whoami`#5.循环for (

2020-07-01 18:26:46 557

原创 MySQL资料汇总

一：下载与安装MySQL8.0下载与安装（有百度云盘下载链接）二：安装好后第一次用navicat 链接报错提示：1251-Client does not support authentication protocol requested by server; consider upgrading MySQL client解决方式链接三官方文档8.0官方文档说明...

2020-06-28 07:29:03 176

转载 mysql 快捷键

mysql 快捷键1.ctrl+q 打开查询窗口2.ctrl+/ 注释sql语句3.ctrl+shift +/ 解除注释4.ctrl+r 运行查询窗口的sql语句5.ctrl+shift+r 只运行选中的sql语句6.F6 打开一个MySQL命令行窗口7.ctrl+l 删除一行8.ctrl+n 打开一个新的查询窗口9.ctrl+w 关...

2020-06-26 03:03:25 7244 1

转载基于大数据的用户画像构建（理论篇）

什么是用户画像？简而言之，用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。举例来说，如果你经常购买一些玩偶玩具，那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”，甚至还可以判断出你孩子大概的年龄，贴上“有 5-10 岁的孩子”这样更为具体的标签，而这些所有给你贴的标签统在一次，就成了你的用户画像，因此，也可以说用户画像就是判断一个人是什么样的人。除去“标

2020-06-23 15:45:49 841

原创 kafka的分区策略是什么？

先回顾一下kafka的架构图kafka分区的本质就是为了解决数据的写入和消费时的负载均衡以及数据的容错。生产者将数据发送到kafka对应的主题，主题中存储数据是按分区存储的；同要消费者消费对应主题中的数据也是按分区消费的，在进一步思考，他是按怎么样的方式去分区的呢？这就是下面要说的kafka的分区策略问题。该机制也决定了生产者如何将消息发送到指定的分区，以及消费者如何消费分区内的数据。kafka生产者的分区策略1 随机策略2 轮询策略（kafka默认）3 按照key的分区策略

2020-06-07 21:33:41 420

原创 hdfs如何保证数据一致性？

1 namenode和SecondaryNamenode（周期性的保存namenode上的元数据信息）元数据一致性。2 namenode和datanode心跳机制保证副本的重新创建，如果DataNode死了，原来保存在这个机器上的副本就的重新再别的机器上创建了。3 DataNode与DataNode副本创建数据是否一致性（网络传输校验和的问题）4 租约机制，就是保证一个文件中只允许被一个用户写入数据，租约是由NameNode发放给客户端。5 回滚机制，主要体现在hadoop升级的过程..

2020-06-05 12:19:20 2392 3

原创 hadoop中小文件的处理思路

1 小文件的出现原因 hadoop存储数据是按block存储的，现在默认是128M问一个文件块，一个文件块对应一个maptask。但是，读取的文件如果是200M等非128的倍数的文件块，客户端切分数据必然会产生小的数据块。2小文件造成的问题这些小的数据块的元数据信息（位置，大小，名称）等都要保存到namenode中，若大量的小文件快信息保存在namnode中会占用很大的服务器内存，如果服务器在此启动要重新加载这些元数据信息到内存中必然要花费很长时间。同时maptas...

2020-06-04 19:35:49 217 4

原创 Spark与MapReduce的区别是什么？

Spark和MapReduce都是可以处理海量数据，但是在处理方式和处理速度上存在着差异，总结如下：1.spark处理数据是基于内存的，而MapReduce是基于磁盘处理数据的。 MapReduce是将中间结果保存到磁盘中，减少了内存占用，牺牲了计算性能。 Spark是将计算的中间结果保存到内存中，可以反复利用，提高了处理数据的性能。2.Spark在处理数据时构建了DAG有向无环图，减少了shuffle和数据落地磁盘的次数Spark 计算比 MapReduce 快的根本原因在...

2020-05-31 21:17:12 23098

原创 spark如何将数据一步步封装成RDD的

对于spark的研究离不开RDD，但是spark如何将磁盘文件一步步封装成RDD的计算模型的？记录一下这个问题：梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分

2020-05-28 23:02:52 642

原创 shell批量启动脚本之zookeeper

@zookper批量启动脚本zookper批量启动脚本 1 #!bin/bash 2 for host in master slave1 slave2 3 do 4 #输出当前服务器的zookeeper启动情况 5 echo "{$host}:{$1}ing..." 6 #启动zookeeper，根据自己安装路径不同修改 7 ssh $host "source /e...

2020-03-30 19:03:26 210

原创 spark远程运行找不到winutils

错误如下图所示：下载呢对应hadoop版本的地址：https://github.com/4ttty/winutils改错：将hadoop添加进windows系统的环境变量

2019-08-14 10:39:58 219

原创 SparkStreaming中WAL容错机制

1 什么是WAL？wal（write ahead logging）预写日志系统。就是提前处理日志系统中的数据。总体上来看：WAL系统是一个存储系统，它可以存储和接受数据。有时间属性和索引属性。看源码介绍：...

2019-08-12 18:59:33 322

原创 Hive学习笔记（五）——优化篇2

JOIN优化大小表优化大小表优化指的是在2张或2张以上的表进行join的时候，要保证连续查询中的表的大小从左到右依次是增加的。这样hive会将小表保存到内存中，Hive 可以在map端执行连接的过程，与内存中的小表进行逐一篇匹配，从而省略掉常规操作所需的的reduce过程。第一种写法是按大小表位置来写，即小表写在前，大表写在后divedends为小表；stocks为大表SELECT s...

2019-08-12 15:43:33 204

原创 yarn运行原理

yarn运行的基本原理（yarn2.0）客户端向yarn提交运行程序。ResourceManager向NodeManager分配一个container,在container中启动ApplicationMaster。AppMaster向RM申请运行程序的资源（cpu，core，memory）APPMaster拿到资源后向NM通信，申请运行task任务运行的各个任务向APPMaster报告...

2019-08-08 18:52:43 226

原创 Hive学习笔记（四）——优化篇1

案例：https://www.jianshu.com/p/8e2f2f0d4b6c1 修改map和reduce的个数2 mapjoin 大小表的join3 join4 数据倾斜

2019-05-16 12:09:27 248

转载 Hive学习笔记（三）——shell命令行

1 hive与非交互式模式命令行hive -e：从命令行执行指定的HQL，不需要分号：hive -e ‘select * from dumy limit 100’ >a.txthive -f :执行HQL脚hive -f /home/my/hive-script.sql3） hive -i ：进入Hive交互Shell时候先执行脚本中的HQL语句hive -i /ho...

2019-05-12 18:47:26 284

原创 Hive学习笔记（二）——数据模型

一 hive 的五种数据模型1 内部表1）创建内部表相当于MySQL的表默认存储为的HDFS的目录 /user/hive/warehousecreate table emp (empno int, ename string, job string, mgr int, hiredate string, sal int, comm int, ...

2019-05-07 18:30:09 170

原创 Hive学习笔记(一)——原理和体系架构

目录一 hive是什么？二为什么会出现hive？三 hive 为什么适合数据仓库应用程序？四 hive与传统关系型数据库的比较五 hive的体系架构hive体系架构的组成部分：1 用户接口2 跨语言服务 thrift server3 Driver （底层）4 元数据存储系统六 hive的执行流程一 hive是什么？1：hive是构建在hdfs...

2019-05-06 19:35:13 304

原创 Vmware 打不开vmx文件

问题介绍：这几天在vmware上操作Linux系统，不知怎么的就开不了机器，开机按钮都是灰色的，点击vmx文件也没有任何提示和反应，截图如下：在选中右边机器名称，右键如图：在继续找到vmx文件，点击vmware打开依旧没什么反应，很恼火。不可取的的解决方式:1 卸载重新安装vmware，没有用，我已经走过这个坑了2 重新安装Linux系统，我没走，我觉的除了问题的解...

2019-04-22 14:03:20 4568

原创 spark程序远程连接mysql数据库报错

Exception in thread "main" java.sql.SQLException: null, message from server: "Host '192.168.1.121' is not allowed to connect to this MySQL server"报错原因：mysql服务器不允许远程连接经查找资料，解决方式如下：登录mysql数据库：mysql -ur...

2018-07-16 01:20:46 863

原创 linux关闭防火墙命令

Linux关闭防火墙命令1) 永久性生效，重启后不会复原开启：chkconfig iptables on关闭：chkconfig iptables off2) 即时生效，重启后复原开启：service iptables start关闭：service iptables stop3)在开启了防火墙时，做如下设置，开启相关端口，修改/etc/sysconfig/iptables 文件，添加以下...

2015-11-09 11:32:00 12

原创 1.SQL Developer启动oracle提示：Enter the Full PathName for java.exe

在安装完oracle数据库后，以sql developer的方式启动数据库：结果提示一个小框，提示Enter the Full PathName for java.exe对此解决方式：在所安装的oracle路径下查找java.exe文件，找到以下两个路径的java.exe: 第一个：D:\app\Administrator\product\11.2.0\dbhome_1\jdk\jr...

2015-08-19 01:18:00 61

Tushare使用总结

python库图Tushare的使用学习总结，对于爱好股票的学习者使用是非常方便的，里面有纤细的使用方式和对应格式说明

2018-09-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

0.07M CSDN认证博客专家 CSDN认证企业博客

码龄10年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

26: 原创

15万+: 周排名

113万+: 总排名

4万+: 访问

: 等级

704: 积分

13: 粉丝

46: 获赞

23: 评论

208: 收藏

私信

关注

热门文章

分类专栏

大数据 2篇
ES
k8s
flink
hive 7篇
spark 7篇
Hadoop 3篇
kafka 1篇
LeetCode
工具
spider 1篇
资料汇总 2篇
数据库 2篇
shell 3篇
UserPortrait
algorithm 3篇
java
阅读与写作 2篇
数据结构 1篇

最新评论

hdfs如何保证数据一致性？
Tisfy: 最近也好几天没有写博客了，共同加油~
hdfs如何保证数据一致性？
0.07M: 嗯，许久了，看到你日更不辍，也应该要向你看齐了
hdfs如何保证数据一致性？
Tisfy: 好久没见大佬更新了呀
详解 spark的shuffle原理
m234567891234567: 你确定能看懂，讲spark中的sheffer，你给我扯mr？？？
python有关下载链接记录
0.07M: 特意睡前背了背

最新文章

提示

确定要删除当前文章？

取消删除