自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Confluent 安装 Kafka REST Proxy服务使用

背景:公司由于业务需求想要通过http的方式往kafka发送消息,所以需要安装一个kafka的插件Confluent 实现。1.下载安装官网下载链接:https://www.confluent.io/download.安装的前提是kafka和zookeeper有安装成功,能正常运行(网上很多教程,自行查找吧)下载好tar包之后解压放在自己指定的目录下然后开始修改配置文件解压后进入到c...

2020-02-27 14:54:31 1916

原创 使用python完成Kafka+sparkstreaming+elasticsearch

在网上找了很久python的Kafka+sparkstreaming+elasticsearch的代码找不到,基本都是scala或者java的(好像是spark自己本身提供了库给java和scala写入ES?然而并没有可以提供给python的????),所以自己写了一个,能正常运行,但是感觉这样写不太好,想发出来和大家交流一下。from elasticsearch import Elasticsear...

2020-02-25 11:17:57 434

原创 ubuntu16.04 Hive安装配置

版本配置:Ubuntu 16.04 (事实上centos我配过也是这么配的,一样的)Mysql 5.7.28Hive 2.3.61.前言hive和hbase的安装配置是我目前配置遇到问题最多两个个组件。。真的十分的坑,又或者是我菜吧。所以我决定写下来,hbase我写下来了,如果大家有兴趣的话,可以去翻一下。hbase: centos7下hbase配置及解决错误: 找不到或无法加载主类 ...

2020-02-24 15:24:34 267

原创 centos7下hbase配置及解决错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty等三个问题

hbase配置及解决错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty等三个问题文章背景最近在为公司搭建hadoop集群,安装hbase的时候出现了很多问题,下面写了我遇到的三个坑,如果你们按着我的步骤操作,应该是可以避开一些错误的(不能保证能行,但是可以参考),另外安装到sqoop的时候出现了标题的那个错误,并且当敲出hba...

2019-10-18 16:24:39 27340 35

原创 pandas 对比两个dataframe实现sql的‘not in‘的效果

其实最终我去遍历dataframe然后拼 ‘not in’ 的sql去了。????这种方式(百度看到的)应该跑起来挺快的,记录一下,下次实验一下。import pandas as pddf1=pd.DataFrame({'authorID':['12','34','56']})df2=pd.DataFrame({'authorID':['12','56','78','97']})original_users=set(df1[['authorID']].values.reshape(-1))for

2021-06-01 11:39:54 1251

原创 Spark写入数据到Hbase(下)解决scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps

环境配置:Scala:2.11.12(看上篇,原本是2.12.1)Spark:2.4.4Hbase:2.2.3前言:上一篇没报错,后来改动了一下,就报错了,这个错是版本的问题,而且让我十分疑惑,所以有了下篇,好像也没啥人看,随便写写吧就????代码:先上代码import java.util.Dateimport org.apache.hadoop.hbase.client.{Put, Result}import org.apache.hadoop.hbase.io.Immutable

2020-05-12 16:12:14 2442

原创 Spark写入数据到Hbase(上)

环境配置:Scala:2.12.1Spark:2.4.4Hbase:2.2.3前言:前面有篇文章我使用了pyspark,弄得我很累,感觉python开发确实没那么好,看了些网上的文章和问了下朋友决定还是学学使用scala。(可以看看这个,我觉得挺有道理的.)环境:因为我也是第一次搞scala,如果你们也是的话,可以参考一下:windows上 IntelliJ IDEA安装scal...

2020-05-07 16:55:56 934

原创 PySpark写入数据到Hbase的辛酸经历

环境配置:Python:3.7.4Spark:2.4.4Hbase:2.2.3前言:这个真的折磨了我好久(中途还接到需求,断断续续弄了好久,多久就不告诉你们了,免得你们笑我菜),真的辛酸。里面我的做法肯定有很多漏洞,而且还没完全解决,我会持续更新。另外,各位大神,如果友好的建议,评论区提点一下,万分感谢。另外,本篇可能会有点长,不喜勿喷。。。。数据格式:一天一个压缩包(ZIP)...

2020-05-07 16:15:08 2999

原创 读取TXT文件写入数据到Hbase

环境配置:Python:3.7.4Hbase:2.2.3数据格式:一天一个压缩包(ZIP),然后里面都是很多个TXT文件,分隔符是 “|” ,每个TXT文件大概是9000条数据这样。我尝试使用了两种方法:尝试一:shell命令导入(也可以写成脚本)我直接上命令好了,这个百度就有:./hbase org.apache.hadoop.hbase.mapreduce.ImportTsv...

2020-05-07 15:26:02 2143 1

原创 Mysql无法启动-pid文件缺失和日志权限问题

mysql有一天突然间启动不了,查询状态systemctl status mysql,如下图显示 Process: 3057 ExecStart=/usr/sbin/mysqld --daemonize --pid-file=/var/run/mysqld/mysqld.pid $MYSQLD_OPTS (code=exited, status=1/FAILURE)看重点,这个pid文件有...

2020-04-22 16:21:14 18336 1

原创 Hbase 建表时报错 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

这个问题其实很简单,但是费了我一些时间解决,所以记录一下。昨天我打开hbase一建表就这样ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing at org.apache.hadoop.hbase.master.HMaster.checkInitialized(HMaster.java:2806)...

2020-04-14 11:11:52 4920 8

原创 安装kibana7.5.2报错Unable to connect to Elasticsearch.

elasticsearch版本:7.5.2kibana版本:7.5.2这两个安装包都是下载tar.gz包解压安装的两个节点(我也知道最好三个。。可是目前机器就只有两个)elasticsearch集群可以正常启动,遇到标题的错查了一下百度说加以下配置,可是我本来就加了:network.host: 0.0.0.0http.port: 9200Kibana的kibana.yml我也是设置...

2020-02-14 15:09:12 5756 3

原创 pyspark连接mysql读取数据、写入数据(四种模式)、写入数据模式的调优

pyspark连接mysql读取数据环境:mysql 5.7Spark 2.4.4连接用的jar包:mysql-connector-java-8.0.17.jar这个jar包我用的是配置hive的时候,配置用的那个jar包,和其他文章写的好像不太一样,但是我的能用。另外有些文章写需要配置spark-env.sh,加上SPARK_CLASSPATH的配置指向这个jar包位置,但是我也是没配...

2019-10-29 10:03:21 5259 3

shc-core-1.1.1-2.1-s_2.11.jar

Apache Spark - Apache HBase Connector 可以使用此jar包基于shc框架使用spark读写hbase

2020-04-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除