自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 资源 (1)
  • 收藏
  • 关注

原创 部署和使用dinky问题总结

flink1.16官方部署文档:http://www.dlink.top/docs/0.7/deploy_guide/build/github部署文档:https://github.com/DataLinkDC/dinky/blob/v0.7.4/docs/docs/deploy_guide/deploy.md。

2023-09-20 13:24:09 472 1

原创 sanic整合tortoise-orm时区问题

用python测试了一下通过接口和model写数据到数据库,发现时区是UTC时区,也就是北京时间减8小时的时间值,经过查找发现有两种解决方法,一个是配置里加上。

2023-03-10 13:42:18 466

原创 cdh部署成功后无法安装集群无法进入安装向导

cdh部署成功之后,登录后本应该出现安装向导,但是中间却是一片空白。右下角有返回按钮,旁边继续按钮是一个灰框,没有文字,后来按了F12后,发现控制台console里有2个js文件未加载,1个js文件报错,以为是部署有问题,后来认为是访问了官网的资源,在host里加了官网还是不行。最后发现是浏览器的问题,因为用的火狐浏览器安装了广告屏蔽插件,把js脚本给禁止加载了,着实坑了自己一把。...

2022-01-06 10:08:37 342

原创 Linux每次登录用户会提示未找到的命令

[root@hadoop203 ~]# su - hadoopLast login: Thu Dec 30 14:15:12 CST 2021 on pts/0-bash: hadoop: command not found登录hadoop用户会提示没有命令,一直不知道为什么会出现这种情况,后来发现是在hadoop用户的.bash_profile文件里加了export HADOOP_CLASSPATH=`hadoop classpath`导致的...

2021-12-30 14:26:37 1773 2

原创 hadoop集群启动和关闭脚本

开启集群:#!/bin/bash#start zookeeperssh hadoop001 "$ZOOKEEPER_HOME/bin/zkServer.sh start"ssh hadoop002 "$ZOOKEEPER_HOME/bin/zkServer.sh start"ssh hadoop003 "$ZOOKEEPER_HOME/bin/zkServer.sh start"sleep 8#start hdfs+yarn+jobhistoryssh hadoop001 "$HADO

2021-12-28 21:54:21 1224

原创 hive报错Could not get block locations. Source file “/user/hive/warehouse/xxx

hive报错Could not get block locations. Source file "/user/hive/warehouse/xxx...以及Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Error while processing row (tag=0)...是因为链接超时了设置set mapred.task.timeout=600000;为10分钟或更长即可...

2021-12-24 20:44:24 3187

原创 impala运行sql文件无法正确转换为decimal(没有四舍五入)

一次迁移发现,生产和测试的结果不太一样,生产用的impala,测试用hive,同一个值,在转换为decimal(8,2)时,impala没有四舍五入,hive有,查看日志发现impala出现了警告:WARNINGS: UDF WARNING: String to Decimal parse failedUDF WARNING: String to Decimal parse failed查了很久才发现是因为impala配置文件里配置了SET DECIMAL_V2=FALSE;使用hue测试了一下S

2021-12-23 11:26:14 2683

原创 flink遇到的问题

报错Could not find Flink jobJob has been submitted with JobID 52e00d8f89544a7df6de38b45e33686e------------------------------------------------------------ The program finished with the following exception:org.apache.flink.client.program.ProgramInvocation

2021-11-15 23:23:03 6301 1

原创 sqoop参数和样例

原文:https://zhuanlan.zhihu.com/p/163266351相关参数含义1.数据导入:sqoop import可通过 sqoop import --help 命令查看参数 说明普通参数–connect 指定JDBC连接字符串–connection-manager 指定连接管理器类名–connection-param-file 指定连接参数文件–driver 手动指定要使用的JDBC驱动程序类–hadoop-home 覆盖 $HADOOP_MAPR ED_HOME_AR

2021-10-25 19:17:53 391

原创 org.apache.spark.SparkException: A master URL must be set in your configuration

spark maven项目本地测试报错:org.apache.spark.SparkException: A master URL must be set in your configuration原因是没有指定master,spark不知道运行在什么上面,可以指定的有:local 本地单线程local[K] 本地多线程(指定K个内核)local[*] 本地多线程(指定所有可用内核)spark://HOST:PORT 连接到指定的 Spark standalone cluster master

2021-08-05 16:41:53 809

原创 spark本地测试报错:java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSessio

spark maven项目本地测试报错:Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession原因是我在pom文件里引入的sparksql依赖加了<scope>provided</scope>标签

2021-08-05 16:24:01 2507

原创 重装本机系统导致的虚拟机静态IP无法修改

重装系统导致的虚拟机静态IP无法修改修改/etc/sysconfig/network-scripts/ifcfg-eth0 文件的内容,把物理地址改为ip addr或者ifconfig命令显示的物理地址,注意要大写...

2020-04-02 23:24:39 541

转载 Redis的持久化:RDB与AOF讲解

原文链接:https://blog.csdn.net/pengzonglu7292/article/details/89343266一、RDB(Redis Database)1、基础知识1、基础: 默认的持久化机制。 可以定时备份内存中的数据集。 每个某段时间内,如果发生了超过特定次数的写操作,则进行持久化。 生成的持久文件为/opt/apps/redis-2...

2019-04-27 22:26:22 152

原创 maxwell把数据同步给kafka的注意点

1、注意maxwell的schema_database数据库和表是不监控的,在这个数据库里插入或删除数据不会被kafka消费。2、mysql中配置binlog,开启后通过show variables like 'log_bin';查看是否ON的状态mysql中配置binlog的输出格式为row,开启后通过show variables like 'binlog_format';查看mysq...

2019-03-26 21:52:44 2018

原创 CDH Service Monitor角色错误

Failed to open or create partitioncom.cloudera.cmon.tstore.leveldb.LDBPartitionManager$LDBPartitionException: Unable to open DB in directory /var/lib/cloudera-service-monitor/ts/stream/partitions/str...

2019-03-19 14:17:48 2167 3

原创 Linux下查找目录中所有文件中含有某个字符串,并且只打印出文件名

查找目录下的所有文件中是否含有某个字符串 查找目录下的所有文件中是否含有某个字符串 find .|xargs grep -ri &amp;quot;IBM&amp;quot; 查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名 find .|xargs grep -ri &amp;quot;IBM&amp;quot; -l 1.正则表达式 (1)正则表达式一般用来描述文本模式的特殊用法,由普通字符(例如字符a-z)以及特殊字符(称为元字

2019-03-07 17:02:16 11234

转载 记录配置HDFS HA后,hive抛错Wrong FS

转自:http://blog.itpub.net/31451369/viewspace-2153698/1.问题:在CDH5.x或者Apache环境下,配置了NameNode的HA后,Hive无正常查询数据了。Hive查询会出现如下异常:FAILED: SemanticException Unable to determine if hdfs://hadoop-01:8020/user/h...

2019-01-10 16:24:59 905

转载 This account is currently not available 解决办法

转自:http://blog.51cto.com/ichange/1285751今天建立跳转机用户登录,出现异常,提示“This account is currently not available”。由于是分两批次建立的,中间改过脚本文件,不确定问题原因。逐台登录看用户权限。问题原因:shell是/sbin/nologindaniao❌503:503::/home/daniao:/sb...

2019-01-05 18:06:18 9956

原创 升级CDH集群(离线)

官网参考:https://www.cloudera.com/documentation/enterprise/upgrade/topics/ug_overview.html注意:下文中的ip需要改成自己的ip1、升级注意点升级包括两个主要步骤,升级Cloudera Manager和升级CDH,在升级之前需要注意:CDH 5和Cloudera Manager 5要求和支持的版本注意JDK版...

2019-01-03 01:42:37 1408

原创 CDH安装Kafka

环境:三台机器(CentOS6.5)CDH:5.7.0下载parcel包CDH的parcel包中不含有Kafka,需要单独下载http://archive.cloudera.com/kafka/parcels/在这里选择版本对于不同的CDH版本,对应的Kafka版本也不同官网给出的对应关系:注意Kafka所对应的系统,EL6 is the download for Red H...

2018-12-02 16:11:33 2751

原创 Flume Sink到Kafka遇到的问题

1、版本问题2018-12-02 15:23:06,334 (conf-file-poller-0) [ERROR - org.apache.flume.node.AbstractConfigurationProvider.loadSinks(AbstractConfigurationProvider.java:427)] Sink k1 has been removed due to an e...

2018-12-02 16:05:03 4097

原创 修改Hadoop日志格式为json

CDH只需要在页面上的配置里搜索即可,然后改成log4j.appender.RFA.layout.ConversionPattern = {&amp;quot;time&amp;quot;:&amp;quot;%d{yyyy-MM-dd HH:mm:ss,SSS}&amp;quot;,&amp;quot;logtype&amp;quot;:&amp;quot;%p&amp;quot;,&amp;quot;loginfo&am

2018-11-29 16:13:05 340

原创 Kafka监控

监控软件KafkaManager:https://github.com/yahoo/kafka-managerKafka-eagle:https://github.com/smartloli/kafka-eagleCDH自带有很好的监控JMXtrans + InfluxDB + Grafana实现Kafka性能指标监控安装JMXtrans收集来自已经启动jmx的kafka服务的数据...

2018-11-19 16:49:11 345

原创 CDH安装注意的点

1、数据库版本例如:CDH4.x 可以是MySQL5.5.11CDH5.x 可以是MySQL5.6.232、防火墙需要关闭防火墙及自动运行chkconfig iptables offchkconfig --list | grep iptables3、使用Oracle jdkopen jdk可能会有不兼容的情况4、注意主机hosts文件/etc/hosts文件内,不仅需要有集群...

2018-11-19 16:10:21 216

原创 Kafka安装和简单使用

安装准备首先安装zookeeper和scala安装Zookeeper下载解压(先安装一台),修改配置文件zoo.cfg[root@hadoop001 conf]# cp zoo_sample.cfg zoo.cfg[root@hadoop001 conf]# vi zoo.cfg # The number of milliseconds of each ticktickTime=20...

2018-11-19 15:25:06 86

转载 CDH 系统优化之关闭透明大页面及设置swappiness

原文:https://blog.csdn.net/Post_Yuan/article/details/54967508安装完CDH后,CDH Manager一般会提示用户需要做一些Linux系统层面的优化,主要包括两类:禁止透明大页面及交换分区设置。详情请参考Cloudera官方网址:https://www.cloudera.com/documentation/enterprise/latest...

2018-11-14 00:20:42 2744

原创 开机自启动非root用户的服务

设置非root用户的服务开机自启动比如:chkconfig mysql on是无效的可以这样设置:在root用户下vi /etc/rc.local或者vi /etc/rc.d/rc.local在最后一行加上su - mysqladmin -c &quot;/usr/local/mysql/startMysql.sh&quot;其中mysqladmin是管理mysql的用户,&quot;/usr/loc...

2018-11-13 16:12:57 4679 2

原创 Spark SQL部分简单使用详解

Spark SQL简介Spark SQL是Spark处理数据的一个模块,跟基本的Spark RDD的API不同,Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。Spark SQL is not about SQLSpark SQL is about more than SQL从严格意义上来说sparkSQL不仅仅是SQL,更加准确的来说,他是超乎SQL的作...

2018-10-31 22:15:03 780

原创 运行Spark SQL报The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.

想启动spark-sql,结果报了Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH. Pleas...

2018-10-31 12:32:01 2685 1

原创 Spark执行流程

我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core。而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Standalone集群,...

2018-10-31 12:05:21 127

原创 Flume简单使用

erfg

2018-10-28 14:49:06 205

原创 Spark的cache缓存、存储级别、shuffle弊端与coalesce

官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistenceCachecache(缓存)和persist(持久化)的区别cache源码里面调用的是persist,persist里面传的是 存储化级别是内存cache lazy(spark core里面是lazy的,spark sql不是la...

2018-10-26 00:08:34 1061

原创 Spark中Java序列化和Kryo序列化结果比较

序列化序列化:Java序列化 Kryo序列化官网:http://spark.apache.org/docs/latest/tuning.html如果对象比较大,需要添加一个参数spark.kryoserializer.buffer(默认64k)(有点小需要调大一点)spark.kryoserializer.buffer.max(默认64m)(需要大于对象尝试序列化的数据的大小,并且小于2...

2018-10-25 23:08:31 980 1

原创 spark调优的一些点

1.RDD的优化不要创建数据相同的RDD两次(多次)通常创建一个RDD(读取HDFS或者Hive中的文件),然后对这个RDD做一些算子操作,得到下一个RDD,如果同一个RDD创建了两遍(数据相同),就会从磁盘中读取两次,会浪费大量的时间和性能。RDD要尽可能的复用如果需要RDD中的部分值,不需要创建一个新的RDD,这样会多使用一次spark算子。比如需要tuple中的第二个值,可以用tu...

2018-10-24 17:14:45 218

原创 启动Spark出现Operation category READ is not supported in state standby.

出现这个错误是spark读取standby状态的namenode导致的,出现原因是访问到了非active节点,只要在active节点启动就行了。如果还不行,先检查一下hosts文件,看看对应的ip和主机名有没有问题。然后检查Spark的配置文件,看看有没有写固定路径,如果写固定路径而那个节点是standby状态的话,就会出现这个错误。...

2018-10-23 12:31:11 3627

原创 Linux中的shell脚本

1.shell脚本入门1.1定义[root@hadoop000 shell]# vi wordcount.sh#!/bin/bashecho “www.ruozedata.com”[root@hadoop000 shell]# /opt/shell/wordcount.sh-bash: /opt/shell/wordcount.sh: Permission denied[root@h...

2018-10-16 10:45:45 239

转载 Spark on Yarn 详解(转)

1、spark on yarn有两种模式,一种是cluster模式,一种是client模式。a.执行命令“./spark-shell --master yarn”默认运行的是client模式。b.执行"./spark-shell --master yarn-client"或者"./spark-shell --master yarn --deploy-mode client"运行的也是clien...

2018-10-13 20:20:04 667

原创 Spark编译

Spark编译准备分布式计算框架1.首先安装好maven(3.3.9)和scala(2.11.8)2.安装 Git(建议安装一下,编译的时候可能用到,脚本里有提:sudo yum install git本文档spark版本:2.2.0建议不要用最后一个是0的,因为没有修复过bug,最后一位代表修改过bug的版本。官网building spark地址:http://spark.apac...

2018-10-07 18:52:27 231

原创 压缩与存储格式

压缩压缩是调优的重要的点。另外不一定非要用带split的压缩方式,如果前期做的比较好,每个块都分割成128M(一般是比block块小一点,比如256M就放250M),就可以不用带split的压缩了。文件的存储格式Hive可以支持多种格式,主要有:SEQUENCEFILE,TEXTFILE,RCFILE,ORCPARQUET。其中Hive默认的文件格式是TextFile。设定文件格式的语句...

2018-10-07 18:15:17 520

原创 Hadoop和Hive配置压缩

压缩对于大数据来说BIGDATA 就是Storage + Compute(存储和计算)compressed(压缩): raw ==&amp;amp;amp;amp;gt; reduce (原始数据减小)decompressed(解压):compressed data ==&amp;amp;amp;amp;gt; raw (压缩数据变成原来的)好处:整个流程:hdfs ==&amp;amp;amp;amp;gt; map ==&amp;amp;amp;

2018-10-02 10:41:43 552

数据挖掘ID3算法java和c++代码实现

数据挖掘ID3算法java和c++代码实现

2017-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除