wuzhilon88-CSDN博客

原创 G1 GC 并行参数解读

ConcGCThreads是和业务线程并发做的，ParallelGCThreads是暂停时间并行进行的。这种阶段是ParallelGCThreads并行做的。这种阶段是ConcGCThreads这个参数并行的。

2023-06-15 11:26:35 390

hive 中 map<string,map<string,string>> 类型使用，构建写入数据案例hive > select map('a','1');OK{"a":"1"}Time taken: 1.058 seconds, Fetched: 1 row(s)hive> > > select map('a','1','b','2');OK{"a":"1","b":"2"}hive> select m...

2022-05-26 18:04:08 3224

原创 spark 多线程体检job

spark 解决单job 问题，对于初学者来说经常遇到的问题。

2022-03-16 16:45:37 1741

原创 mapreduce 控制map和reduce 运行数量

<property> <name>mapreduce.job.running.map.limit</name> <value>500</value> </property> <property> <name>mapreduce.job.running.reduce.limit</name> <value&gt...

2021-09-29 17:51:17 330

原创 SQL 解析血缘代码

具体代码

2021-07-23 11:53:29 956

原创设置hive 任务最大 map reduce 并行度

setmapreduce.job.running.map.limit=2000;setmapreduce.job.running.reduce.limit=500;

2021-04-26 12:19:32 1242

原创 Mapreduce 任务获取配置信息和counters 信息

获取用户MR 任务配置信息apihttp://xxxx:8080/proxy/application_1605539278152_9672465/ws/v1/mapreduce/jobs/job_1605539278152_9672465/conf通过api 获取MRcountershttp://xxx:8080/proxy/application_1605539278152_9624852/ws/v1/mapreduce/jobs/job_1605539278152_9624852/cou..

2021-03-31 20:45:19 421

原创 spark 3.0 关注性能优化

1、自适应查询执行优化动态合并shuffle partition 动态调整join策略动态2、动态分区裁剪3、Join hints4、ANSISQL 兼容增强的Python API：PySpark和KoalasHydrogen、流和可扩展性

2020-09-16 17:33:59 139

原创解决hiveserver2 执行SQL 出现： User: infosec is not allowed to impersonate infosec

Exception:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException):User:infosecisnotallowedtoimpersonateinfosec解决方法：1.删除hadoop-env.sh中HADOOP_USER_NAME的设置2.创建用户infosec，sudosuinfosec之后再...

2020-09-01 15:12:10 537

原创 linux 替换特殊符号 \\ 处理方式

-i参数：在原始文件上修改sed全文替换的标准用法：sed 's/oldString/newString/g' filename但是有特殊字符时则失效，需要将‘／’替换成‘#’：sed 's#oldString#newString#g' filename如：sed 's#_#\\_#g' ceshi.tex连续替换多个特殊字符：‘_’, '^'sed -i 's#_#\\_#g ...

2020-04-08 18:49:36 2978 1

原创 sqoop 处理换行符 \n 和\r 等特殊符号处理

公司大数据平台ETL操作中，在使用sqoop将mysql中的数据抽取到hive中时，由于mysql库中默写字段中会有换行符，导致数据存入hive后，条数增多（每个换行符会多出带有null值得一条数据），导致统计数据不准确。因为sqoop 导出文件不能是ORC这种列式存储，所以只能替换。导出后对替换的字符在进行替换，将数据表存储orc解决办法：利用一下两个参数可以实现对换行等特殊字...

2019-12-31 21:44:02 4935 3

原创设置spark thriftServer2 端口

spark thriftServer要设置开放端口，在hive-site.xml中设置没有用时：可以设置：export HIVE_SERVER2_THRIFT_PORT=10013脚本如下：act=$1export HIVE_SERVER2_THRIFT_PORT=10013function start_Thrift(){ ./sbin/sta...

2019-11-18 17:40:58 2394

原创 Hive textfile数据表更改输入输出文件格式

altertabletmp_etltest.xxx SETFILEFORMATINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.mapred.TextOutputFormat'SERDE'org.apache.hadoop.hive.serde2.lazy.Laz...

2019-11-11 16:53:06 1247

原创 spark sql 出现 java.lang.RuntimeException: serious problem

1、详细的日志异常信息java.lang.RuntimeException: serious problematorg.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo(OrcInputFormat.java:1021)atorg.apache.hadoop.hive.ql.io.orc.OrcInputFor...

2019-09-03 17:56:01 6215

原创解决hivemeta 多服务缓存数据不同步问题

1、改动的地方2、增加的数据表hiveMetastore.METASTORE_REFRESH 数据表1、增加了各个hivemeta 服务进行定时检测功能，检测其他hivemta 是否有alter 操作设计思想图：修改的主要代码：org.apache.hadoop.hive.metastore.ObjectStore的initialize...

2019-09-02 15:54:44 752 2

原创 StrutsStreaming实时cube：5个维度

第一步拼接 all#字段 select to_utc_timestamp(exec_time, 'PDT') as ftime, substr(exec_time, 0, 10) as Fexec_date, substr(exec_time, 12, 5) as Fexec_hhmm, concat('ALL', '#', headers_host) as Fs...

2019-09-02 14:59:54 247

原创 shell curl 发送post 请求 HTTP/1.1 415 Unsupported Media Type

curl -i -X POST -H "'Content-type':'application/json'" -d '{"userName": "xxx","sql": "select * from dp_tmp.test_table ","etl_jobid": "1","db_name": "dp_temp","table_name": "test_table"}' http://10.xx....

2019-03-29 16:49:22 4217

原创 org.apache.spark.shuffle.FetchFailedException: Failed to connect to xxx.hadoop.com:7337

在大规模数据处理中，这是个比较常见的错误。报错提示报错1： FetchFailed(BlockManagerId(846, xxx.hadoop.com, 7337, None), shuffleId=262, mapId=96, reduceId=122, message=org.apache.spark.shuffle.FetchFailedException: Failed to conn...

2018-05-04 18:11:41 5682

转载 dr.elephant 环境搭建及使用详解

Dr.elephant是一款对Hadoop和Spark任务进行性能监控和调优的工具，它由LinkedIn的团队于2016年开源，开源之前已经在公司运行使用2年。目前使用Dr.elephant的公司国内的有Didi，国外的有airbnb、inmobi、hulu、FourSquare和PayPal等等。项目地址：https://github.com/linkedin/dr-elephant笔者所在公...

2018-04-11 10:15:57 854

原创 Kylin 2.3.0 清理hbase临时废弃的数据表

Kylin 2.3.0 在创建cube过程中会在HDFS上生成中间数据。另外，当我们对cube执行purge/drop/merge时，一些HBase的表可能会保留在HBase中，而这些表不再被查询，尽管Kylin会做一些自动的垃圾回收，但是它可能不会覆盖所有方面，所以需要我们能够每隔一段时间做一些离线存储的清理工作。具体步骤如下：1. 检查哪些资源需要被清理，这个操作不会删除任何内容：${...

2018-03-28 10:54:20 1317

原创 kylin 2.3.0部署和遇到问题整理

一、部署kylin环境1. 部署的环境准备 Kylin2.3.0 默认支持spark2.1版本，对版本的spark 2.2 兼容存在问题。2. 下载最新的tar最新下载地址apache-kylin-2.3.0-hbase1x-bin.tar.gz3. 解压缩，配置kylin环境a) 配置kylin jvm 大小setenv.shKyl...

2018-03-28 10:02:56 5259 1

原创 Spark 2.x永久自定义函数编写

以前写过一篇spark1.6.x编写永久的自定义函数，今天补上写spark2.x永久自定义函数的步骤：1、使用scala语言编写自定义函数，spark2.x已经不在支持使用hive的方式加载函数 Scala类参数不同继承不同scala类（UnaryExpression、BinaryExpression、TernaryExpression、Expression）重写nullSafeEv...

2018-03-06 18:03:47 3468

原创 Spark Release 2.3.0 版本发布新特性和优化

Apache Spark 2.3.0是2.x系列中的第四个版本。此版本增加了对结构化流中的连续处理以及全新的Kubernetes Scheduler后端的支持。其他主要更新包括新的DataSource和结构化Streaming v2 API，以及一些PySpark性能增强。此外，此版本继续关注可用性，稳定性和抛光，同时解决了大约1400问题。要下载Apache Spark 2.3.0，请访问下载页...

2018-03-05 17:54:33 3703

原创 CarbonData编译、安装和集成Spark 2.2

carbandata官网地址一、编译1、获取源码git clone https://github.com/apache/carbondata.git编译需要安装maven和jdk 1.7或者1.82、编译mvn -DskipTests -Pspark-2.2 -Dspark.version=2.2.0 clean package3、获取打包后的jar,打包后只有一个大

2017-12-21 15:56:16 1969

原创 linux下图形界面导向到xmanager

linux 下使用xmanager图形化界面开发

2017-12-06 16:41:39 1504

原创 Spark on yarn client 和cluster模式运行序列图

序列图是基于spark 2.1进行本地调试画的：通过这两张图给想看源码的的朋友应该会有很大的帮助。spark on yarn client模式： spark on yarn Cluster模式：

2017-06-19 11:52:59 534

原创 spark-2.2.0-rc4 编译 [error] javac: invalid source release: 1.8

编译环境：java version "1.8.0_131"Apache Maven 3.3.9linux进入linux:执行如下命令：cd $spark_home/spark-2.2.0-rc4./dev/make-distribution.sh --name custom-spark --tgz -Psparkr -Phadoop-2.6 -Phive -Ph

2017-06-14 16:02:09 2790

原创 spark-2.2.0-rc1 编译

我们采用mvn编译：Apache Maven 3.3.9Java version: 1.7.0_79 执行命令:mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -DskipTests clean package出现如下异常：Failed to execute goal net.alc

2017-05-02 10:09:27 1285

原创 spark ListenerBus 监听器

Spark 源码中对livelistenerBus进行了这样的注释：即所有spark消息SparkListenerEvents 被异步的发送给已经注册过的SparkListeners. 在SparkContext中, 首先会创建LiveListenerBus实例,这个类主要功能如下:保存有消息队列,负责消息的缓存保存有注册过的listener,负责消息的分发li

2017-03-17 16:59:27 6314

原创 Spark Shuffle FetchFailedException解决方案

在大规模数据处理中，这是个比较常见的错误。报错提示SparkSQL shuffle操作带来的报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 org.apache.spark.shuffle.FetchFailed

2017-03-17 16:45:12 6102

原创 spark sql 表分区出现损坏

表分区出现损坏 1) Create a table"test". "create table test (n string) partitioned by (pstring)"2) Load some data into partition(p='1')3)Remove the path related to partition(p='1') of table test manua

2017-03-17 16:44:08 1922

原创 hadoop namnode 挂掉以及解决的过程记录如下

现将namnode 挂掉以及解决的过程记录如下：1、时间（2016-03-08-22:20）发现namnode2状态为DOWN的告警2、采取措施重启namenode2。集群正常3、分析原因们的hadoop集群采用的是默认的hadoop-heapsize大小，1000m，内存过小导致namenode2出现内存溢出

2017-03-17 16:39:27 3997

转载 IntelliJ Idea 常用快捷键列表

Alt+回车导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space 自动

2016-09-21 16:25:17 378

原创 spark core 1.6.0 源码分析10 Task的运行

org.apache.spark.executorExecutor下面：TaskRunneroverride def run(): Unit = { val taskMemoryManager = new TaskMemoryManager(env.memoryManager, taskId) val deserializeStartTime = System.cu

2016-07-20 17:33:55 594

原创 spark 1.6.0 core源码分析9 从简单例子看action

这一节以reduce为例讲解action操作首先看submitJob方法，它将我们reduce中写的处理函数随JobSubmitted消息传递出去，因为每个分区都需要调用它进行计算；而resultHandler是指最后合并的方法，在每个task完成后，需要调用resultHandler将最终结果合并。所以它不需要随JobSubmitted消息传递，而是保存在JobWaiter中org.

2016-07-20 15:46:00 1015

原创 spark 1.6.0 core源码分析8 从简单例子看transformation

前面提到过spark自带的一个最简单的例子，介绍了SparkContext的部分，这节介绍剩余的内容中的transformation。object SparkPi { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Spark Pi") val spark = new SparkC

2016-07-18 20:28:56 570

原创 spark 1.6.0 core源码分析7 Spark executor的运行

源码位置：org.apache.spark.executor.CoarseGrainedExecutorBackendprivate def run( driverUrl: String, executorId: String, hostname: String, cores: Int, appId: String, wo

2016-07-18 18:42:33 743

原创 spark 1.6.0 core源码分析6 Spark job的提交

本节主要讲解SparkContext的逻辑首先看一个spark自带的最简单的例子：

2016-07-15 18:59:45 848

原创 spark 1.6.0 core源码分析5 spark提交框架

从sparkSubmit脚本中可以看到现在spark提交任务都是是用：exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"首先来看main方法：def main(args: Array[String]): Unit = { val appArgs = new SparkSubmit

2016-07-08 20:36:14 715

sql-parser-master.zip

2021-07-23

tpch_2_14_3

TPC-H 基准测试是由 TPC-D(由 TPC 组织于 1994 年指定的标准,用于决策支持系统方面的测试基准)发展而来的.TPC-H 用 3NF 实现了一个数据仓库,共包含 8 个基本关系,其数据量可以设定从 1G~3T 不等。TPC-H 基准测试包括 22 个查询(Q1~Q22),其主要评价指标是各个查询的响应时间,即从提交查询到结果返回所需时间.TPC-H 基准测试的度量单位是每小时执行的查询数( QphH@size)，其中 H 表示每小时系统执行复杂查询的平均次数，size 表示数据库规模的大小,它能够反映出系统在处理查询时的能力.TPC-H 是根据真实的生产运行环境来建模的,这使得它可以评估一些其他测试所不能评估的关键性能参数.总而言之,TPC 组织颁布的TPC-H 标准满足了数据仓库领域的测试需求,并且促使各个厂商以及研究机构将该项技术推向极限

2015-11-13

MySQL驱动包

非常棒的驱动包，对你来说在开发中时不可的。

2012-08-12

java 图书馆管理系统网络编程

关于java图书管理系统建立数据库上的编程.

2011-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人