自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 java网络编程 BufferedReader的readLine方法读不到数据且一直阻塞

基于Java的BIO API,实现简单的客户端和服务端通信模型,客户端使用BufferedReader的readLine方法读取System.in上的用户输入,然后通过字节输出流发送给服务端,服务端使用BufferedReader的readLine方法读取客户端的数据,进行打印;可以看到,for循环中有个条件,当读取到的字节中包含'\n' 或者 '\r'的时候,会设置eol = true,后面会根据该eol标志,return读取到的字符串,结束readLine方法;

2024-04-19 15:22:24 272

原创 Java 网络编程之TCP:基于BIO

然后开启两个客户端,在idea中需要打开Run -> Edit Configurations,选择我们的Application, 然后在右侧点击【Modify options】,选择【Allow multiple instances】,即可开启多个相同的Application;本文,我们使用最简单的方式,一个线程处理一个客户端数据,线程不复用;需求如下:基于BIO实现一个简单的服务端接收客户端的数据的网络模型;既然服务端有阻塞,我们要想提高效率,得用多线程,一个负责处理一个客户端的业务数据;

2024-04-19 11:01:29 136

原创 Java NIO中的mmap

Java中的mmap,是通过MappedByteBuffer实现,是一种DirectBuffer,也就是说是操作系统直接管理的内存。

2024-04-16 17:21:38 135 1

原创 json串和java对象互相转换by jackson

System.out.println("json字符: " + jsonStr +" 串转换成对象出错");System.out.println("对象转换成json字符串出错");* 将对象转换成json字符串,用于将发送的报文打印出到日志。* 将json字符串转换成对象,用于将发送的报文打印出到日志。* 从文件中读取json字符串,转换成对象列表。* 将对象列表转换成json字符串,写入文件。

2023-08-13 23:14:25 224

原创 Java中String进行split的注意事项

常见String进行split的方法有:1. JDK中String对象自带的split方法,public String[] split(String regex)2. commons-lang包中StringUtils提供的splitPreserveAllTokens方法, public static String[] splitPreserveAllTokens(String str, ...

2020-11-16 17:15:05 545

原创 Standalone模式下_taskScheduler和executor运行原理解密

环境:spark 2.3.3scala 2.11.8Java 1.8.0_141工作原理说明:一:Spark Executor工作原理:1.创建并启动TaskScheduler在SparkContext中调用内部方法createTaskScheduler创建TaskScheduler,并启动TaskScheduler;1.1在Standalone模式下createTaskScheduler匹配到如下代码:SparkContext:case SPARK_REGE.

2020-07-13 16:25:20 1380

转载 关联规则之FpGrowth算法以及Spark实现

Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。  FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。我们还是以上一篇中用的数据集为例: TIDItemsT1...

2020-07-10 10:10:28 776 2

原创 Spark checkpoint 功能源码详解

环境:spark 2.3.3scala 2.11.8Java 1.8.0_141为什么要checkpoint?checkpoint和persist功能相似,都是为了更高效的复用RDD,但是Checkpoint可以进行容错,即driver失败后,可以基于checkpoint 数据进行重新启动。checkpoint推荐使用方式:一般在进行checkpoint方法调用前都要进行persist,来把当前RDD的数据持久化到内存或者磁盘上,这是因为checkpoint是lazy级别..

2020-07-09 15:35:30 248

原创 spark master HA流程和源码详解(standalone)

环境:spark 2.3.3scala 2.11.8Java 1.8.0_141spark集群安装部署节点分布 Master Worker node01.zf.com √ 192.168.0.100 node02.zf.com √ √ ...

2020-06-17 18:31:12 392

原创 Spark Worker 启动流程及源码详解

环境:spark 2.3.3scala 2.11.8Java 1.8.0_141可以参考【Spark Master启动流程详解】${SPARK_HOME}/sbin/start-slaves.sh# Launch the slaves"${SPARK_HOME}/sbin/slaves.sh" cd "${SPARK_HOME}" \; "${SPARK_HOME}/sbin/start-slave.sh" "spark://$SPARK_MASTER_HOST:$SPARK_

2020-06-17 09:48:25 1006

原创 Spark Master启动流程及源码详解

环境:spark 2.3.3scala 2.11.8Java 1.8.0_141${SPARK_HOME}/sbin/start-master.sh# NOTE: This exact class name is matched downstream by SparkSubmit.# Any changes need to be reflected there.CLASS=“org.apache.spark.deploy.master.Master"..."${S.

2020-06-17 09:39:02 729

原创 spark-shell启动命令详细解析2

环境:spark 2.3.3scala 2.11.8Java 1.8.0_141接上篇【spark-shell启动命令详细解析1】下面我们来看下org.apache.spark.repl.Main是如何处理spark-shell中输入的命令的在org.apache.spark.repl.Main$main方法中,调用doMain方法通过doMain方法,调用SparkILoop$process方法SparkILoop是spark交互式shell,继...

2020-06-17 09:36:03 896

原创 spark-shell启动命令详细解析1

环境:spark 2.3.3scala 2.11.8Java 1.8.0_141执行spark-shell命令后,会启动spark-shell交互命令行窗口:那么spark-shell命令的启动流程是怎样的呢?下面让我们来一步一步分析首先,查看${SPARK_HOME}/bin/spark-shell启动脚本可以看到,spark-shell脚本使用启动参数调用main方法spark-shell脚本中的main方法最终会调用命令:"${SPAR..

2020-06-17 09:34:17 6198 1

原创 Spark最佳实践

参考:https://yq.aliyun.com/articles/727445?spm=a2c4e.11155472.0.0.6d431140fF9I8E

2019-12-26 18:33:28 167

原创 本地ToolRunner调试MapReduce,报错org.apache.hadoop.crypto.key.KeyProviderTokenIssuer

参考: https://blog.csdn.net/qq_39625998/article/details/80356159报错org.apache.hadoop.crypto.key.KeyProviderTokenIssuer原来是版本问题,原来Hadoop版本为2.7.2,确实没有这个类。将hadoop版本升级为3.10即可正常运行。...

2019-12-20 17:39:17 3357

原创 MapReduce输出avro文件,报错GenericData.createDatumWriter...NoSuchMethodError

Hadoop 2.7.2<dependency> <groupId>org.apache.avro</groupId> <artifactId>avro</artifactId> <version>1.7.7</version></dependency><...

2019-12-20 17:37:44 302

原创 MapReduce程序调整Map/Reduce task内存参数

参考:https://blog.csdn.net/u014665013/article/details/809230441.先看yarn.scheduler.minimum-allocation-mb和yarn.scheduler.maximum-allocation-mbyarn.scheduler.minimum-allocation-mb:决定MapReduce使用的最小内存...

2019-12-20 17:24:33 4506

原创 MapReduce程序通过-libjar参数指定第三方jar包,step by step 调试

hadoop 3.1.0日常开发的程序,我们都是通过Maven管理相关jar包依赖,但有时一些第三方包没有提供maven源,只能手动管理jar包。对于hadoop jar 使用第三方依赖的方式有很多:参考:https://www.cnblogs.com/yyy-blog/p/10249646.html#_label1https://www.iteye.com/blog/...

2019-12-20 17:22:28 4006

原创 MapReduce任务报错:Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1

问题描述: 之前写了一个读取RCFile的MapReduce任务,现在放到测试集群上报错了错误信息:Error: java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1at org.apache.hadoop.hive.shims.ShimL...

2019-11-29 20:44:37 11545 2

转载 Hadoop HDFS (3) JAVA訪问HDFS

如今我们来深入了解一下Hadoop的FileSystem类。这个类是用来跟Hadoop的文件系统进行交互的。尽管我们这里主要是针对HDFS。可是我们还是应该让我们的代码仅仅使用抽象类FileSystem。这样我们的代码就能够跟不论什么一个Hadoop的文件系统交互了。在写測试代码时,我们能够用本地文件系统測试,部署时使用HDFS。仅仅需配置一下,不须要改动代码了。在Hadoop 1....

2019-11-28 10:07:40 3635

原创 Mac上Spark本地模式调试报错-no snappyjava in java.library.path

Idea本地运行Spark,SparkContext.textFile()读取文件时报错,具体报错:Caused by: java.lang.UnsatisfiedLinkError: no snappyjava in java.library.pathat java.lang.ClassLoader.loadLibrary(ClassLoader.java:1867)...

2019-11-19 15:20:28 4238

原创 MapReduce的Avro多路输出默认输出路径踩坑

环境:hadoop 2.7.2 avro 1.7.4现象:在进行Avro多路输出的时候,有一路分支输出到了默认的outPath中了。 FileOutputFormat.setOutputPath(job, outPath);why?原来在配置多路输出路径的时候,忘记配置这一路分支的路径了。。。汗????。。。搞了很长时间。...

2019-11-12 14:30:33 216

转载 可能是全网最深度的 Apache Kylin 查询剖析

本文已被 Apache Kylin 官方收录,传送门:https://kyligence.io/zh/resources/apache-kylin-query-analysis/?utm_source=wechat&utm_medium=social&utm_campaign=kylin阅读本文前,请先阅读:Apache Kylin 概览 - 简书 Apache Kyli...

2019-11-12 13:33:34 435

原创 Apache Kylin的精确去重Measure的使用和探索

Kylin版本:apache-kylin-3.0.0-alpha2-bin-cdh60Apache Kylin在构建Cube的时候,提供的Count Distinct功能,有近似去重和精确去重。 近似去重是基于HyperLogLog算法实现的,可以指定不同的精度。精度越高,使用的存储也越多。 精确去重是基于bitmap实现的。由于我们的DMP广告...

2019-11-11 17:24:46 4545

转载 企业数据湖与大数据 Lambda 架构

目录 1.Lambda架构背景介绍 2.大数据系统的关键特性 3.数据系统的本质 3.1.数据的本质 3.1.1.数据的特性:When & What 3.1.2.数据的存储:Store Everything Rawly and Immutably 3.2.查询的本质 4.Lambda架构 4.1.Batch Layer ...

2019-11-07 09:34:02 4585

原创 docker创建镜像,常见报错

1.Error: Cannot find a valid baseurl for repo: base参考:https://www.jianshu.com/p/8c3f0004e06ahttps://blog.csdn.net/liu251890347/article/details/41281263但是要把From centos注释掉,否则相当于新起了一个环境,前面不在起作用...

2019-11-05 14:54:24 6352 2

原创 Mysql优化碎片空间

mysql的表在使用的过程,会不断产生碎片空间,占用存储1.查询表的碎片空间select ROW_FORMAT,TABLE_ROWS,DATA_LENGTH,INDEX_LENGTH,MAX_DATA_LENGTH,DATA_FREE,ENGINE from information_schema.TABLES where TABLE_SCHEMA='clcz' and TABLE_NAME...

2019-10-31 15:41:11 6775

原创 hadoop jar执行任务,报错 java.io.FileNotFoundException:/tmp/hadoop-unjarxxxx/...(no space left on device)

问题描述:使用hadoop jar命令执行MapReduce任务,报错如下查看大数据提交机的磁盘使用情况:df -h发现/tmp目录空间没有用满查看inode使用情况:df -i/tmp目录的inode已经用满了。。。查看/tmp目录的使用情况:发现有许多MapReduce任务提交的临时目录,可以清理掉:清理完后,再次统计,发现inode...

2019-10-31 10:16:00 8115

原创 VirtualBox中windows虚拟机复制/粘贴和主机共享(Mac)

由于VirtualBox是免费的,所以在Mac中经常使用,缺点就是虚机的分辨率不够。(有钱的话可以买个Parallels Desktop)1.设置—>常规—>高级—>共享粘贴板和拖放调整为双向。2.安装vitural box增强插件参考:https://jingyan.baidu.com/article/e75057f21684daebc91a891b....

2019-10-29 09:34:17 13967 1

转载 全球名校课程作业分享系列(11)--斯坦福CS231n之生成对抗网络

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-26 10:08:19 7996 1

原创 Mac 使用Apache httpd服务

参考:https://www.jianshu.com/p/78c53d4e9ed21.启动Mac自带的Apache httpd服务首先查看httpd的版本信息:apachectl -v或者 httpd -v由于Mac中Apche httpd服务是以root用户安装的,可以用sudo apachectl start启动Apache httpd服务打开浏览器地址栏输...

2019-10-25 09:09:34 14381

转载 机器学习系列(22)_SVM碎碎念part5:凸函数与优化

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-24 15:46:30 8111

转载 全球名校课程作业分享系列(8)--斯坦福计算机视觉与深度学习CS231n之tensorflow实践

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-24 15:32:26 9132

转载 全球名校课程作业分享系列(6)--斯坦福计算机视觉与深度学习CS231n之神经网络细解与优化尝试

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-24 15:30:09 9193

转载 全球名校课程作业分享系列(7)--斯坦福计算机视觉与深度学习CS231n之基于cifar10的卷积神经网络实践

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-24 15:27:14 9129

转载 全球名校课程作业分享系列(9)--斯坦福CS231n之RNN与计算机看图说话

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-24 15:15:54 8980

转载 VirtualBox虚拟机导出导入实战练习

摘要: VirtualBox虚拟机导出导入实践创建好虚拟机后,我们配置好虚拟机的一些配置信息,然后想多克隆几个,这时我们...

2019-10-24 09:40:20 9690

转载 从FM推演各深度CTR预估模型(附代码)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-23 11:43:24 9105

转载 图解Transformer(完整版)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-23 10:17:18 9748 1

转载 图解Word2vec

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-10-23 10:12:02 9161

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除