自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 About 数据中台

为了提高指标管理的效率,你需要按照业务线、主题域和业务过程三级目录方式管理指标(业务线是顶级目录)。

2023-05-16 21:14:21 230

原创 OneData 共享同一套数据技术和资产

官方:阿里云OneData数据中台解决方案基于大数据存储和计算平台为载体,以OneModel统一数据构建及管理方法论为主干,OneID核心商业要素资产化为核心,实现全域链接、标签萃取、立体画像,以数据资产管理为皮,数据应用服务为枝叶的松耦性整体解决方案。其数据服务理念根植于心,强调业务模式,在推进数字化转型中实现价值。

2023-04-20 17:18:10 738

原创 大数据之路:数据同步

目录1.数据同步基础2.阿里数据仓库的同步方式3.数据同步遇到的问题和解决方案1.数据同步基础大数据的数据同步主要包括从分布式业务系统同步进入数据仓库和数据从数据仓库同步进入数据应用和数据服务两个方面。本文主要讲述的是前者。从业务系统同步数据到数据仓库的数据同步总的说来分为三种,直连同步(侵入式),数据文件同步,数据库日志解析。直连同步:通过JDBC方式直接连接源系统抽取数据,当数据量大时容易对数据库造成压力甚至拖垮数据库的性能。数据文件同步:约定好数据文件的格式,编码,大小

2022-01-14 20:25:53 2373

原创 数据仓库和数据库面试综合问题

******************************************数据仓库相关问题******************************************************1.建模方式是什么,有哪些2.星型模型和雪花模型各自的优缺点是什么3.维度建模的四个步骤是什么3.数据仓库里 实体表/维表/事务表的概念,事务表的类型4.数据仓库里数据规范有哪些5.数据质量是怎么做的https://blog.csdn.net/An342647823/articl.

2021-08-23 09:50:47 786

原创 Spark、Hive 杂比较

目录Spark、Hive数据倾斜的解决方案Spark优化、Hadoop(Mapreduce+小文件)的优化Spark join的类型Spark中JOIN执行的5种策略map-side-join和reduce-side-join的区别Spark里hash shuffle和sort shuffleSpark、Hive数据倾斜的解决方案 适用场景 Spark Hive...

2021-08-12 01:27:28 575

原创 Kafka、Zookeeper、Flume、Hbase基本知识合集

目录1.5 Kafka1.5.0 Kafka基本组成:(重点)1.5.1 kafka工作流程:(重点)1.5.2 Kafka压测1.5.3 Kafka的机器数量1.5.4 Kafka的日志保存时间1.5.5 Kafka的硬盘大小1.5.6 Kafka监控1.5.7 Kakfa分区数1.5.8 副本数设定1.5.9 多少个Topic1.5.13 Kafka中数据量计算1.5.11 Kafka的ISR副本同步队列(重点)1.5.12 Kafka分区分配策.

2021-08-11 13:09:03 1383

原创 Hadoop总结

目录HDFS1.角色2.读写流程3.小文件的弊处和调优Mapreduce1.mapreduce整个过程,包括shuffle2.hadoop中mapreduce的优化3.mapreduce和spark的shuffle的区别Yarn1.角色2.工作机制3.调度器4.yarn-local,yarn-clientHadoop其他综合性问题Hadoop宕机Hadoop解决数据倾斜方法集群资源分配参数(项目中遇到的问题)HDFS在上传文件的时...

2021-08-09 01:54:15 421

原创 千亿级海量数据并发 分库分表设计方法论

目录一、索引原理、优化、失效1.1 索引原理分析1.1.1 聚簇索引1.1.2 二级索引1.1.3 联合索引1.2 索引使用优化分析1.2.1 存储空间1.2.2 主键选择1.2.3 联合索引使用1.2.4 字符串索引1.3 索引失效问题二、Mysql库表设计 注意点三、Mysql 海量数据 分表 方案一、索引原理、优化、失效1.1 索引原理分析1.1.1 聚簇索引聚簇索引,索引树和数据放一起(数据存储在主键索引中),叶子...

2021-07-21 16:14:33 595 1

原创 Mysql架构体系深入剖析学习

Mysql 架构体系拆解、设计剖析Mysql数据都是 以页(page)为单位 去做内外层交换或者刷新取数的,所以页是怎么划分,怎么管理的呢?页的数据结构页头:主要记录页的左右兄弟页面指针,还记录页面空间使用情况。(页面的控制信息,共占56个字节)。页头是双向指针。虚记录:最小虚记录比页内最小主键还小;最大虚记录比业内最大主键还大。谈到mysql主键,就是聚簇索引,聚簇索引又是什么呢,数据结构和数存在一起记录堆:行记录存储区,包括有效记录和已删除记录两种自由空间链表:把被删除..

2021-07-20 22:03:17 1171 1

原创 聊聊SPARK小可爱

目录SPARK是什么SPARK ON YARNSPARK部署方式SPARK的基本组件SPARK算子分类及优化SPARK的JOB,STAGE,TASK的认知和关系SPARK任务的调度流程Spark 资源并行度和数据并行度 设置Spark的缓存策略Spark的容错机制Spark为什么比MR快SPARK是什么RDD 弹性分布式数据集 Resillient Distributed Dataset弹性是因为 RDD -----> a list of ...

2021-04-01 18:59:07 544

原创 sqoop相关整理

目录sqoop是什么sqoop基本命令sqoop hive ------> mysqlsqoop oracle ------> hivesqoop处理hive与mysql的空值sqoop导出数据一致性sqoop导数据时数据倾斜sqoop与datax性能比较sqoop是什么sqoop是传统数据库与hadoop之间的数据同步工具。主要依托MapReduce分布式批处理。sqoop官网手册 http://sqoop.apache.org...

2021-04-01 00:23:12 357

原创 hive的进一步理解

HIVE的基本理解,使用,特性什么是hivehive------mapreduce的封装,意义在于将sql语言转化为mapreduce的过程,本质是个mapreduce,批处理强大,不支持单条纪录级别的update操作,随机读写性能差 (hive是个计算框架,不能存储数据)hbase-----hdfs的包装,本质是数据存储,克服hdfs在随机读写上的缺点kudu-----不及HDFS批处理快,也不及HBase随机读写能力强,但是反过来它比HBase批处理快(适用于OLAP的分析场景),..

2021-03-31 15:56:28 2702 1

原创 KUDU基本知识

1.通过impala来操作kudu,impala的元数据放在hive的metastore服务里,impala-shell 命令行开启shell操作。2.在impala里创建kudu表,需要impala的外部表与kudu的表做映射:kudu表基于其partition方法被拆分成多个分区,每个分区就是一个tablet,一张kudu表所属的所有tablets均匀分布并存储在tablet servers的磁盘上。因此在创建kudu表的时候需要声明该表的partition方法,同时要指定primary key

2021-03-29 14:11:59 2281

原创 安装rocketmq(python)和其相关打包报错解决librocketmq.so等

linux打包过关记---关于涉及rocktmq的打包安装rocktmq,要先安装librocktmq安装完librocketmq即使py文件已经能正确执行,打包时还报错OSError: librocketmq.so: cannot open shared object file: No such file or directory安装完librocketmq即使py文件已经能正确执行,打包时还报错某模块找不到优秀参考学习链接安装rocktmq,要先安装librocktmq先安装librocketmq,

2021-03-09 13:55:50 3231

原创 datax使用记录

这里写自定义目录标题datax执行命令后出现乱码datax执行xls文件流程注意事项txt到pg库的模板注意分隔符,注意字符编码,注意字段映射,注意url连接pg库时报错Description:[连接数据库失败. 请检查您的 账号、密码、数据库名称、IP、Port或者向 DBA 寻求帮助(注意网络环境).]. - 具体错误信息为:org.postgresql.util.PSQLException: The authentication type 10 is not supported.datax执行命

2020-09-22 11:36:46 2852

原创 python pool.apply_async调用 参数为dataset的函数 不执行问题解决

python pool.apply_async调用 参数为dataset的函数 不执行问题解决一个参数的情况 加逗号!!!!!!!!!!!(格式要求)参数通过kwargs (dict)传输通过 args 传递 位置参数(数组或元组,只有一个元素时加 ‘,’逗号)拆分数据集使用apply_async多进程调用相关函数一个参数的情况 加逗号!!!!!!!!!!!(格式要求)在只有一个参数要传时 需要写成列表/元组的形式:task_fun.apply_async(args=[value1, ]) # 需

2020-09-15 11:34:17 5568 7

原创 查看防火墙状态报错"FirewallD is not running"

查看一下centos版本,发现是CentOS7。CentOS7版本的防火墙不用 service iptables start/service iptables status/chkconfig iptables on(off)这些命令控制,而是用firewall输入以下命令再执行一下给mysql开放端口,success以上是我遇到mysql连接报错时,怀疑是防火墙...

2019-07-29 11:05:43 1397

原创 maven打包后target目录消失或不更新——感恩师傅!!!

mvn -U clean package assembly:assembly -Dmaven.test.skip=true 真是个小可爱我之前执行的maven命令是mvn package-Dmaven.test.skip=true ,我跟你们说,它不行!!!!!!!!!!!!NO!!!!!!!!!!干它!!!!!!!!!!!!!浪费我时间,总之暂时我对它很生气!!!!!!!!...

2019-07-16 10:37:04 2761

原创 Mysql基本知识

mysql安装 tar -zxvf mysql5.7.tar.gz mv mysql5.7 mysql cd mysql mkdir data groupadd mysql useradd -r -g mysql mysql -s /sbin/nologin chown -R mysql.mysql /usr/local/mysql...

2019-07-10 16:15:37 136

原创 CentOS上安装Python2.7和pip!!!

其实网上教程看了超多,但是!!!!到最后都可能出现关于/usr/local/python2.6 的问题!!!!!我认为那是因为你用python setup.py install 命令安装setuptools 和pip 时,这个命令里的python 默认使用的还是之前其他默认的/usr/bin里的python,默认的这个是指向 python2.6版本的。如何确定当前系统使用版本为2.7还是2.6...

2019-07-10 15:13:08 240

原创 from ggplot import * 报错 AttributeError: module 'pandas' has no attribute 'tslib'解决方案

这是因为pandas的tslib早就被弃用了,而ggplot也太太太太久没人维护了,所以两边跟不上匹配(愚以为,若有大神路过望不吝赐教)输入代码报错 AttributeError: module 'pandas' has no attribute 'tslib'解决方案:vi~/anaconda3/lib/python3.7/site-packages/ggplot/u...

2019-07-10 15:12:50 4069 13

原创 Linux安装anaconda2(python2.7环境)并配置远程jupyter及安装代码提示功能

安装anaconda21.anaconda去官网下,不建议直接从linux下,太慢。2.将下载好的Anaconda2-2019.03-Linux-x86_64.sh文件上传到服务器下,执行bash Anaconda-2.1.0-Linux-x86_64.sh 进行安装。然后一直点enter等。。默认安装。。。将默认安装在/root/anaconda2下安装完毕...

2019-07-10 15:12:33 884

转载 python 错误信息是:sudo :apt-get:command not found

1、问题描述错误信息是:sudo:apt-get:commandnotfound2、问题原因及解决在centos下用yuminstallxxxyum和apt-get的区别一般来说著名的linux系统基本上分两大类:1.RedHat系列:Redhat、Centos、Fedora等2.Debian系列:Debian、Ubuntu等RedHat系列1常见的安装...

2019-02-28 09:40:25 2310

原创 Linux基本使用

此整理得益于我的老师——冒小平老师目录一、Linux目录结构二、Linux常用命令Linux命令的分类操作文件或目录常用命令常用命令备份压缩命令gzip命令tar命令关机/重启命令附三、VIM文本编辑器VIM工作模式插入命令定位命令替换和取消命令删除命令常用快捷键四、用户和组账户管理配置文件Linux用户分类...

2019-02-27 14:20:32 151

原创 Procedure,function,bulk collect,forall,start with ...connect by ...prior ...哦哈哈

目录存储过程常用语句procedure结构类型function结构类型存储过程和函数的区别和联系bulk collect 用法FORALL用法FORALL 与  bulk collect 的综合运用start with ...connect by ...prior...  针对B树结构类型的数据 的递归查询存储过程常用语句procedure proc_na...

2019-02-25 16:06:46 360

原创 MongoDB命令随记

Mongo状态命令#启动mongosudu  service mongod start#连接到mongo    #如果注释掉了bindIp,那么连接时用    sudu  mongo    #指定了ip地址    sudu  mongo --host 192.168.100.101 --port 27017#关闭mongo服务sudu service mongod stop...

2018-12-29 15:37:50 170 1

原创 PowerDesigner远程连接数据库以及 Could not Initialize JavaVM! 错误 混搭风

其实网上教程有很多,跟着做就是了。千万注意,PowerDesigner它只认 jdk32 位,不认64的,所以必须先在网上下载jdk32位的这里推荐两篇,https://blog.csdn.net/qq_22642239/article/details/52526906    这篇推荐他的连接过程步骤https://blog.csdn.net/terry7/article/deta...

2018-12-19 15:19:23 727

原创 Spark原理及原理图

  SPARK原理图                                             ...

2018-12-18 20:18:17 182

原创 Scala语言知识点

2018-12-18 20:12:04 110

原创 NOSQL

(整理好的word文档之间输出成图片,之间粘过来的感觉真好哈哈哈) 

2018-12-18 20:08:46 89

原创 Hbase整体知识点

hbase简介==================1.1.什么是hbaseHBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群,处理由成千上万的行和列所组成的大型数据。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够HBASE利用Hadoop HDFS作为其文件存储系...

2018-12-18 20:00:55 789

原创 Oracle与PostGreSQL的差异对比

https://blog.csdn.net/pierre_/article/details/52268587#t3这个链接教程挺好的,比较全面接下来是我个人的侧重点PostGreSQL里的数据分页是利用  limit  关键字 的,搭配子查询, PG的子查询和Oracle相较而言更严格,必须使用别名 还有,Limit放在order by 后面PG没有虚表dual和字符串连...

2018-12-18 11:05:38 9613

原创 Hadoop生态圈基础(zookeeper,hdfs,yarn,MR,hbase,hive)

安装并配置zookeepertar -zxvf zookeeper-3.5.1-alpha.tar.gzmv zookeeper-3.5.1-alpha zookeepercd zookeepermkdir datamkdir logcd confcp zoo_sample.cfg zoo.cfg vi zoo.cfgdataDir=/usr/local/z...

2018-12-10 19:36:11 989

转载 Oracle 数据库 数据文件 表 表空间 用户的关系

数据库的物理结构是由数据库的操作系统文件所决定,每一个Oracle数据库是由三种类型的文件组成:数据文件、日志文件和控制文件。每一个Oracle数据库有一个或多个物理的数据文件(data file)。一个数据库的数据文件包含全部数据库数据。逻辑数据库结构(如表、索引等)的数据物理地存储在数据库的数据文件中。数据文件通常为*.dbf格式,例如:userCIMS.dbf。数据文件有下列特征:①、一...

2018-12-10 19:27:11 388

转载 SQL语句select * from 表名 group by 列名--不是 GROUP BY 表达式

group by 的意思为分组汇总。使用了group by 后,要求Select出的结果字段都是可汇总的,否则就会出错。比如,有:{学号,姓名,性别,年龄,成绩}字段这样写:SELECT 学号,姓名,性别,年龄,sum(成绩)FROM 学生表GROUP BY 学号就是错的,因为 “姓名、性别、年龄”未被汇总,且不一定是单一。这样写:SELECT MAX(学号),MAX(姓名),M...

2018-12-10 18:57:02 8601

原创 SQL server训练题

select * from student;--1、 查询Student表中的所有记录的Sname、Ssex和Class列。 select sname,ssex,class from student ;--2、 查询教师所在的单位即不重复的Depart列。 select * from teacher;select distinct depart from teacher;--3、 查询...

2018-12-10 18:36:14 480

原创 客户端连接zk,不停地报Will not attempt to authenticate using SASL (unknown error) 尝试记

Will not attempt to authenticate using SASL (unknown error)无法定位登陆配置背景: 紧接着输入./zkCli.sh -server 192.168.17.128,它就不停地跳了,进不去zookeeper客户端研究许久没有发现,然后同学帮我删掉重装,过程中发现,我本应新建在/home/mjy(用户名)/zookeep...

2018-08-22 01:03:25 22564 1

原创 虚拟机连不上网的那些事儿

点击还原默认设置的时候,VMware8里是自动配置IPV4地址,和 我们即将要用的网段毫无关系    添加虚拟机IP后依旧是自动配置IPV4 好吧,配完再说。结果配完一看,百度都能ping通了,根本的地方却还是自动配置,虽然cmd里没显示是自动配置好吧,不死心,不能轻易下结论,那就关个机重启一下看看,万一是重启生效呢?结果根本的地方还是自动配置IPV4的...

2018-08-22 00:51:34 6843 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除