ustbxyls-CSDN博客

原创 java网络编程 BufferedReader的readLine方法读不到数据且一直阻塞

基于Java的BIO API，实现简单的客户端和服务端通信模型，客户端使用BufferedReader的readLine方法读取System.in上的用户输入，然后通过字节输出流发送给服务端，服务端使用BufferedReader的readLine方法读取客户端的数据，进行打印；可以看到，for循环中有个条件，当读取到的字节中包含'\n' 或者 '\r'的时候，会设置eol = true，后面会根据该eol标志，return读取到的字符串，结束readLine方法；

2024-04-19 15:22:24 272

原创 Java 网络编程之TCP：基于BIO

然后开启两个客户端，在idea中需要打开Run -> Edit Configurations，选择我们的Application, 然后在右侧点击【Modify options】，选择【Allow multiple instances】，即可开启多个相同的Application;本文，我们使用最简单的方式，一个线程处理一个客户端数据，线程不复用；需求如下：基于BIO实现一个简单的服务端接收客户端的数据的网络模型；既然服务端有阻塞，我们要想提高效率，得用多线程，一个负责处理一个客户端的业务数据；

2024-04-19 11:01:29 136

原创 Java NIO中的mmap

Java中的mmap，是通过MappedByteBuffer实现，是一种DirectBuffer，也就是说是操作系统直接管理的内存。

2024-04-16 17:21:38 135 1

原创 json串和java对象互相转换by jackson

System.out.println("json字符: " + jsonStr +" 串转换成对象出错");System.out.println("对象转换成json字符串出错");* 将对象转换成json字符串,用于将发送的报文打印出到日志。* 将json字符串转换成对象,用于将发送的报文打印出到日志。* 从文件中读取json字符串，转换成对象列表。* 将对象列表转换成json字符串，写入文件。

2023-08-13 23:14:25 224

原创 Java中String进行split的注意事项

常见String进行split的方法有：1. JDK中String对象自带的split方法，public String[] split(String regex)2. commons-lang包中StringUtils提供的splitPreserveAllTokens方法， public static String[] splitPreserveAllTokens(String str, ...

2020-11-16 17:15:05 545

原创 Standalone模式下_taskScheduler和executor运行原理解密

环境：spark 2.3.3scala 2.11.8Java 1.8.0_141工作原理说明：一：Spark Executor工作原理：1.创建并启动TaskScheduler在SparkContext中调用内部方法createTaskScheduler创建TaskScheduler，并启动TaskScheduler；1.1在Standalone模式下createTaskScheduler匹配到如下代码：SparkContext:case SPARK_REGE.

2020-07-13 16:25:20 1380

转载关联规则之FpGrowth算法以及Spark实现

Aprori算法利用频繁集的两个特性，过滤了很多无关的集合，效率提高不少，但是我们发现Apriori算法是一个候选消除算法，每一次消除都需要扫描一次所有数据记录，造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集，效率比Aprori算法高很多。　　FpGrowth算法通过构造一个树结构来压缩数据记录，使得挖掘频繁项集只需要扫描两次数据记录，而且该算法不需要生成候选集合，所以效率会比较高。我们还是以上一篇中用的数据集为例： TIDItemsT1...

2020-07-10 10:10:28 776 2

原创 Spark checkpoint 功能源码详解

环境：spark 2.3.3scala 2.11.8Java 1.8.0_141为什么要checkpoint？checkpoint和persist功能相似，都是为了更高效的复用RDD，但是Checkpoint可以进行容错，即driver失败后，可以基于checkpoint 数据进行重新启动。checkpoint推荐使用方式：一般在进行checkpoint方法调用前都要进行persist，来把当前RDD的数据持久化到内存或者磁盘上，这是因为checkpoint是lazy级别..

2020-07-09 15:35:30 248

原创 spark master HA流程和源码详解(standalone)

环境：spark 2.3.3scala 2.11.8Java 1.8.0_141spark集群安装部署节点分布 Master Worker node01.zf.com √ 192.168.0.100 node02.zf.com √ √ ...

2020-06-17 18:31:12 392

原创 Spark Worker 启动流程及源码详解

环境：spark 2.3.3scala 2.11.8Java 1.8.0_141可以参考【Spark Master启动流程详解】${SPARK_HOME}/sbin/start-slaves.sh# Launch the slaves"${SPARK_HOME}/sbin/slaves.sh" cd "${SPARK_HOME}" \; "${SPARK_HOME}/sbin/start-slave.sh" "spark://$SPARK_MASTER_HOST:$SPARK_

2020-06-17 09:48:25 1006

原创 Spark Master启动流程及源码详解

环境：spark 2.3.3scala 2.11.8Java 1.8.0_141${SPARK_HOME}/sbin/start-master.sh# NOTE: This exact class name is matched downstream by SparkSubmit.# Any changes need to be reflected there.CLASS=“org.apache.spark.deploy.master.Master"..."${S.

2020-06-17 09:39:02 729

原创 spark-shell启动命令详细解析2

环境：spark 2.3.3scala 2.11.8Java 1.8.0_141接上篇【spark-shell启动命令详细解析1】下面我们来看下org.apache.spark.repl.Main是如何处理spark-shell中输入的命令的在org.apache.spark.repl.Main$main方法中，调用doMain方法通过doMain方法，调用SparkILoop$process方法SparkILoop是spark交互式shell，继...

2020-06-17 09:36:03 896

原创 spark-shell启动命令详细解析1

环境：spark 2.3.3scala 2.11.8Java 1.8.0_141执行spark-shell命令后，会启动spark-shell交互命令行窗口：那么spark-shell命令的启动流程是怎样的呢？下面让我们来一步一步分析首先，查看${SPARK_HOME}/bin/spark-shell启动脚本可以看到，spark-shell脚本使用启动参数调用main方法spark-shell脚本中的main方法最终会调用命令："${SPAR..

2020-06-17 09:34:17 6198 1

原创 Spark最佳实践

参考：https://yq.aliyun.com/articles/727445?spm=a2c4e.11155472.0.0.6d431140fF9I8E

2019-12-26 18:33:28 167

原创本地ToolRunner调试MapReduce，报错org.apache.hadoop.crypto.key.KeyProviderTokenIssuer

参考： https://blog.csdn.net/qq_39625998/article/details/80356159报错org.apache.hadoop.crypto.key.KeyProviderTokenIssuer原来是版本问题，原来Hadoop版本为2.7.2，确实没有这个类。将hadoop版本升级为3.10即可正常运行。...

2019-12-20 17:39:17 3357

原创 MapReduce输出avro文件，报错GenericData.createDatumWriter...NoSuchMethodError

Hadoop 2.7.2<dependency> <groupId>org.apache.avro</groupId> <artifactId>avro</artifactId> <version>1.7.7</version></dependency><...

2019-12-20 17:37:44 302

原创 MapReduce程序调整Map/Reduce task内存参数

参考：https://blog.csdn.net/u014665013/article/details/809230441.先看yarn.scheduler.minimum-allocation-mb和yarn.scheduler.maximum-allocation-mbyarn.scheduler.minimum-allocation-mb：决定MapReduce使用的最小内存...

2019-12-20 17:24:33 4506

原创 MapReduce程序通过-libjar参数指定第三方jar包，step by step 调试

hadoop 3.1.0日常开发的程序，我们都是通过Maven管理相关jar包依赖，但有时一些第三方包没有提供maven源，只能手动管理jar包。对于hadoop jar 使用第三方依赖的方式有很多：参考：https://www.cnblogs.com/yyy-blog/p/10249646.html#_label1https://www.iteye.com/blog/...

2019-12-20 17:22:28 4006

原创 MapReduce任务报错：Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1

问题描述：之前写了一个读取RCFile的MapReduce任务，现在放到测试集群上报错了错误信息：Error: java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1at org.apache.hadoop.hive.shims.ShimL...

2019-11-29 20:44:37 11545 2

转载 Hadoop HDFS (3) JAVA訪问HDFS

如今我们来深入了解一下Hadoop的FileSystem类。这个类是用来跟Hadoop的文件系统进行交互的。尽管我们这里主要是针对HDFS。可是我们还是应该让我们的代码仅仅使用抽象类FileSystem。这样我们的代码就能够跟不论什么一个Hadoop的文件系统交互了。在写測试代码时，我们能够用本地文件系统測试，部署时使用HDFS。仅仅需配置一下，不须要改动代码了。在Hadoop 1....

2019-11-28 10:07:40 3635

原创 Mac上Spark本地模式调试报错-no snappyjava in java.library.path

Idea本地运行Spark，SparkContext.textFile()读取文件时报错，具体报错：Caused by: java.lang.UnsatisfiedLinkError: no snappyjava in java.library.pathat java.lang.ClassLoader.loadLibrary(ClassLoader.java:1867)...

2019-11-19 15:20:28 4238

原创 MapReduce的Avro多路输出默认输出路径踩坑

环境：hadoop 2.7.2 avro 1.7.4现象：在进行Avro多路输出的时候，有一路分支输出到了默认的outPath中了。 FileOutputFormat.setOutputPath(job, outPath);why？原来在配置多路输出路径的时候，忘记配置这一路分支的路径了。。。汗????。。。搞了很长时间。...

2019-11-12 14:30:33 216

转载可能是全网最深度的 Apache Kylin 查询剖析

本文已被 Apache Kylin 官方收录，传送门：https://kyligence.io/zh/resources/apache-kylin-query-analysis/?utm_source=wechat&utm_medium=social&utm_campaign=kylin阅读本文前，请先阅读：Apache Kylin 概览 - 简书 Apache Kyli...

2019-11-12 13:33:34 435

原创 Apache Kylin的精确去重Measure的使用和探索

Kylin版本：apache-kylin-3.0.0-alpha2-bin-cdh60Apache Kylin在构建Cube的时候，提供的Count Distinct功能，有近似去重和精确去重。近似去重是基于HyperLogLog算法实现的，可以指定不同的精度。精度越高，使用的存储也越多。精确去重是基于bitmap实现的。由于我们的DMP广告...

2019-11-11 17:24:46 4545

转载企业数据湖与大数据 Lambda 架构

目录 1.Lambda架构背景介绍 2.大数据系统的关键特性 3.数据系统的本质 3.1.数据的本质 3.1.1.数据的特性：When & What 3.1.2.数据的存储：Store Everything Rawly and Immutably 3.2.查询的本质 4.Lambda架构 4.1.Batch Layer ...

2019-11-07 09:34:02 4585

原创 docker创建镜像，常见报错

1.Error: Cannot find a valid baseurl for repo: base参考：https://www.jianshu.com/p/8c3f0004e06ahttps://blog.csdn.net/liu251890347/article/details/41281263但是要把From centos注释掉，否则相当于新起了一个环境，前面不在起作用...

2019-11-05 14:54:24 6352 2

原创 Mysql优化碎片空间

mysql的表在使用的过程，会不断产生碎片空间，占用存储1.查询表的碎片空间select ROW_FORMAT,TABLE_ROWS,DATA_LENGTH,INDEX_LENGTH,MAX_DATA_LENGTH,DATA_FREE,ENGINE from information_schema.TABLES where TABLE_SCHEMA='clcz' and TABLE_NAME...

2019-10-31 15:41:11 6775

原创 hadoop jar执行任务，报错 java.io.FileNotFoundException:/tmp/hadoop-unjarxxxx/...(no space left on device)

问题描述：使用hadoop jar命令执行MapReduce任务，报错如下查看大数据提交机的磁盘使用情况：df -h发现/tmp目录空间没有用满查看inode使用情况：df -i/tmp目录的inode已经用满了。。。查看/tmp目录的使用情况：发现有许多MapReduce任务提交的临时目录，可以清理掉：清理完后，再次统计，发现inode...

2019-10-31 10:16:00 8115

原创 VirtualBox中windows虚拟机复制/粘贴和主机共享（Mac）

由于VirtualBox是免费的，所以在Mac中经常使用，缺点就是虚机的分辨率不够。（有钱的话可以买个Parallels Desktop）1.设置—>常规—>高级—>共享粘贴板和拖放调整为双向。2.安装vitural box增强插件参考：https://jingyan.baidu.com/article/e75057f21684daebc91a891b....

2019-10-29 09:34:17 13967 1

转载全球名校课程作业分享系列(11)--斯坦福CS231n之生成对抗网络

2019-10-26 10:08:19 7996 1

原创 Mac 使用Apache httpd服务

参考：https://www.jianshu.com/p/78c53d4e9ed21.启动Mac自带的Apache httpd服务首先查看httpd的版本信息：apachectl -v或者 httpd -v由于Mac中Apche httpd服务是以root用户安装的，可以用sudo apachectl start启动Apache httpd服务打开浏览器地址栏输...

2019-10-25 09:09:34 14381