自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大而话之-Big Data

分享一些自己的心得,和有大数据兴趣的朋友一起交流!

  • 博客(35)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive表里的Map类型字段映射Hbase表里的列簇

一、Hbase中创建表create 'user_profile','cf'二、hive里创建Hbaseuser_profile的映射表CREATE EXTERNAL TABLE user_profile ( username STRING, labels map<string, string> )STORED BY 'org.apache.hadoop.hive...

2019-11-15 15:48:25 1142

原创 Phoenix 建立二级索引报错:Mutable secondary indexes must have the hbase.regionserver.wal.codec property

在Phoenix建立二级索引create index test1_name on "test1"("cf1"."name") include("cf1"."age");Error: ERROR 1029 (42Y88): Mutable secondary indexes must have the hbase.regionserver.wal.codec property set to...

2019-11-15 13:08:19 793

原创 cdh中在线安装及使用Phoenix

1.1: 下载CDH 需要parcel包下载地址:http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el7.parcelCLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0...

2019-11-12 13:09:51 413

原创 kafka-consumer深度剖析

Producer通过主动Push的方式将消息发布到Broker ,Consumer通过Pull从Broker消费数据,Pull的好处:Consumer按实际处理能力获取相应量的数据;不会被压垮 Broker实现简单 如果处理不好,实时性相对不足Kafka读写机制...

2019-11-08 14:48:33 193

原创 kafka-数据一致性参数详解

Kafka中Producer发送消息到Broker,Broker有三种返回方式,分别为:Noack leader commit成功就ack leader和follower同时commit成功才返回ack。request.required.acksproducer向leader发送数据时,可以通过request.required.acks参数设置数据可靠性的级别:1(默认):这意味...

2019-11-08 11:00:18 435

原创 KafKa-深入解析Leader和Follower数据同步机制(HW,LEO概念)

HW vs LEOLEO(LogEndOffset):表示每个partition的log最后一条Message的位置。HW(HighWatermark):高水位线概念,表示partition各个replicas数据间同步且一致的offset位置,即表示allreplicas已经commit位置,每个Broker缓存中维护此信息,并不断更新。是指consumer能够看到的此partition位置...

2019-11-07 16:50:09 835

原创 Hive数据仓库——事实表Fact、缓慢变化维SCD 应用实例

Fact就是数据仓库里的事实表,把事实表做成一个分区表,事实表一般数据量很大,一般根据日期做分区生成一个订单的事实表================================================= 模拟订单数据==========================模拟第一天数据#模拟订单表数据内容:order_id,user_id,price #维表,事实表1,...

2019-11-06 15:19:00 1098

原创 Hive表的序列化和反序列化SerDe

SerDe是Serialize/Deserilize的简称,目的是用于序列化和反序列化。序列化作用序列化是对象转换为字节序列的过程。 反序列化是字节序列恢复为对象的过程。 对象的序列化主要有两种用途:对象的持久化,即把对象转换成字节序列后保存到文件中;对象数据的网络传送。 除了上面两点, hive的序列化的作用还包括:Hive的反序列化是对key/value反序列化成hive tabl...

2019-11-06 15:13:14 950

原创 Linux 性能诊断命令:Awk,Sar,Vmstat 介绍

1.显示内存占用最多的前6个进程ps -aux |awk '{print $2,$3,$4,$11}' |head -1 && ps aux |awk '{print $2,$3,$4,$11}' | sort -k3 -nr |head -62.sar 系统活动报告 sar 1 5 连续5次CPU使用情况截图3.vmstat 1wa栏一般小于40 ,80-90代表磁...

2019-11-05 09:46:00 318

原创 python安装pandas库出现 No module named ‘_lzma’

在利用pip按照以下步骤安装pandas时会报No module named ‘_lzma’ 的错误 sudo pip3 install pytz sudo pip3 install python-dateutil sudo pip3 install pandas 解决方法 yum install xz-devel yum install python...

2019-11-04 16:23:48 1681

原创 Python3报错:ModuleNotFoundError: No module named '_bz2'

1、安装yum install bzip2-devel找到_bz2.cpython-37m-x86_64-linux-gnu.so文件2、修改文件名如果你的python版本是3.6,那就是36m,我的是python3.7,得把文件名改为37m,并拷贝到python3的安装目录mv _bz2.cpython-36m-x86_64-linux-gnu.so _bz2.cpyth...

2019-11-04 16:21:58 297

原创 CentOS 7 升级Python版本为3.x系列

由于python官方已宣布2.x系列即将停止支持,为了向前看,我们升级系统的python版本为3.x系列服务器系统为当前最新的CentOS 7.41.安装前查看当前系统下的python版本号# python -V2.获取python3.x的官方软件包# wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz...

2019-10-30 15:00:53 130

原创 Hadoop集群跑mapreduce任务报错Download and unpack failed

sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 10000application_1570857844866_0007 failed 2 times due to AM Container for appattempt_15...

2019-10-14 10:45:43 3260 4

原创 Python csv格式项目实战(科技工作者心理健康数据分析 (Mental Health in Tech Survey))

一、项目介绍二、项目代码:import csv# 数据集路径data_path = './survey.csv'def run_main(): """ 主函数 """ male_set = {'male', 'm'} # “男性”可能的取值 female_set = {'female', 'f'} # “女性”可能的取值...

2019-07-22 15:04:32 850

原创 Spark dataframe项目实战(数据清洗和数据描述)

'''1.删除重复数据groupby().count():可以看到数据的重复情况'''df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'), (4, 144.5, 5.9, 33, 'M'), (5, 133.2...

2019-07-15 15:40:24 4713 1

原创 Windows 10 Anaconda环境变量及Jupyter Notebook配置

安装好Anaconda3后,常常可能会忘记配置系统环境变量,如果没有正确配置,可能会出现各种错误,正确配置如下:在PATH里加入以下变量:如果要使用Jupyter Notebook,需要到sqlite官方下载对应系统版本的dll文件,把复制到E:\ProgramData\Anaconda3\DLLs目录下面,不然可能会报下面的错误。File "<stdin>", ...

2019-07-15 15:29:36 1199

原创 Spark 读 CSV格式文件 ,报错UnicodeDecodeError: 'utf8' codec can't decode byte 0xca in position 17: invalid c

今天在Windows10系统下,跑SparkPython脚本,执行collect()时报下面的错误births.select(s[0]) \ .distinct() \ .rdd \ .map(lambda row: row[0]) \ .collect()尝试把csv文件编码改为utf-8...

2019-07-05 13:03:48 831

原创 Spark java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

“java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)Vat解决方法:也可通过设置"spark.io.compression.codec","snappy"或其他压缩算法规避。鉴于修改源码重新打包替换较为繁琐,建议设置其他压缩算法...

2019-06-26 14:37:55 1196

原创 CDH5 HIVE整合Hbase配置

除了常规的配置外需要做如下几个操作: 1.将hbase lib下的hbase-*.jar和htrace-core-2.04.jar都拷贝到hive lib下; 2.将hive lib下的hive-hbase-handler-1.1.0-cdh5.4.0.jar 拷贝到 hbase lib下 3.将hbase中的zk配置添加到hive-site.xml中&lt;property&gt...

2019-01-30 15:38:20 651

原创 Hive 查询Hbase外部表数据 SemanticException Error while configuring input job properties

Hive 查询Hbase外部表数据 SemanticException Error while configuring input job properties需要对hive-site.xml和hbase-site.xml 增加下面配置信息 &lt;property&gt;                &lt;name&gt;hbase.coprocessor.region.class...

2019-01-30 15:30:11 911

转载 phoenix对hbase进行映射

1.查看phoenix的版本,如果版本是4.10之前的,映射关系是根据列来映射的,phoenix可以通过create table(...)来映射2.如果版本是4.10以后的,则只能通过视图来创建,create view(...),才能查询到hbase中的数据...

2019-01-29 09:51:20 954

原创 Phoenx create view Table is read only.

Error: ERROR 505 (42000): Table is read only. (state=42000,code=505)org.apache.phoenix.schema.ReadOnlyTableException: ERROR 505 (42000): Table is read only.at org.apache.phoenix.query.ConnectionQuer...

2019-01-28 16:08:52 2822

原创 CDH5.4.0 部署Phoenix

简介Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表、插入数据和对HBase数据进行查询因此Phoenix跟HBase是离不开的,Phoenix的安装也是基于HBase的。在安装Phoenix之前,请确保集群上已经安装了Had...

2019-01-24 17:08:41 253

原创 实战:Hive在内容推荐系统中的应用(二)

3.6 转换成key,value的方式select a.user_id,concat_ws(':',b.kw,cast(count(1) as string)) as kw_w      from user_actions as a     left outer join(     select article_id,kw     from articles      la...

2019-01-17 15:53:55 299

原创 实战:Hive在内容推荐系统中的应用(一)

一、数据准备1.1.user_action.txt11,101,2018-12-01 06:01:1222,102,2018-12-03 06:01:1333,103,2018-12-04 06:01:1411,104,2018-12-06 06:01:1522,103,2018-12-07 06:01:1633,102,2018-12-12 06:01:1711,101,20...

2019-01-17 15:43:35 711

原创 Hive UDF自定义函数-----------报错解析

一、报如下错误-----Diagnostic Messages for this Task:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {"key":{"reducesi...

2019-01-16 21:29:46 2310

原创 Python MRJob Hadoop中报错解决思路

1)在Hadoop中跑一个Python MRJob脚本报以下错误java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1        at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapR...

2019-01-15 10:59:37 704

原创 导出Yarn application日志

执行下面的命令,可以导出application日志:yarn  logs  -applicationId   application_1545890266346_0052  &gt; application.log  

2019-01-11 17:09:22 4627

原创 sudo oozie-setup sharelib create -fs hdfs://cdh1:8020 -locallib /usr/lib/oozie/ 报错

今天在配置ooize,执行oozie-setup时,报出下面的错误, 因为忽略了下面的配置,导致排错了好长时间,请大家注意!sudo oozie-setup sharelib create  -fs hdfs://cdh1:8020 -locallib /usr/lib/oozie/oozie-sharelib-yarn.tar.gzby: java.lang.IllegalArgum...

2019-01-06 00:17:33 272

原创 Bad connect ack with firstBadLink as 192.168.123.152:1004

一、今天提交Job任务时,报出下面的一个错误8/12/26 22:18:45 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.io.IOException: Bad connect ack with firstBadLink as 192.168.123.152:1004        at org.apache....

2018-12-26 22:49:11 746

原创 Centos Linux 设置 Shangha 时区

ln -sf /usr/share/zoneinfo/Asia/Shanghai    /etc/localtime

2018-12-26 20:28:13 122

原创 HDFS HA+Federation配置

 一、HDFS HA+Federation 实现双HA 二、集群规划HOSTNAME IP HDFS节点 zookeeper节点 Journalnode节点 CDH1 192.168.123.101 NS1-namenode1     CDH2 192.168.123.102 NS2-namenode1 Quor...

2018-12-25 09:48:54 398

原创 Hue 操作Hive_over_HBase表提示“SemanticException Error while configuring input job properties”异常

hbase_t是张Hive_over_HBase表(数据存于HBase的表test_hbase中),用户对hbase_t进行操作(如查询),Hive客户端显示执行错误SemanticException Error while configuring input job properties”异常,是因为用户没有获得HBase表的权限。  ...

2018-12-22 17:21:48 851

原创 Rescure模式无法chroot

在对一台RHEL6.6的机器进行修复的时候,使用DVD引导至rescure模式。在执行 chroot /mnt/sysimage/的时候报 chroot: cannot execute /bin/sh: Exec format error 解决方法是# cp /lib64/ld-linux-x86-64-so.2 /lib64/libdl.so.2 /lib64/libc.so...

2018-12-21 23:35:59 3389 1

原创 Linux glibc库被删除 导致系统大部分命令都不能使用,系统不能正常启动

因为升级glibc不成功,将老版本的glibc删除,导致系统大部分命令都不能使用,系统不能正常启动。解决办法如下:系统:CentOS release 6.5 (Final)内核:2.6.32-431.el6.x86_64插入系统盘选择系统救援模式默认会将原操作系统挂在到/mnt/sysimage目录下#chroot /mnt/sysimage //切换到原操作系统#mkdir /mn...

2018-12-21 23:32:37 3243

jquery 实例 经典呀

jquery 实例jquery 实例jquery 实例jquery 实例jquery 实例jquery 实例jquery 实例jquery 实例

2010-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除