- 博客(48)
- 收藏
- 关注
原创 java网络编程 BufferedReader的readLine方法读不到数据且一直阻塞
基于Java的BIO API,实现简单的客户端和服务端通信模型,客户端使用BufferedReader的readLine方法读取System.in上的用户输入,然后通过字节输出流发送给服务端,服务端使用BufferedReader的readLine方法读取客户端的数据,进行打印;可以看到,for循环中有个条件,当读取到的字节中包含'\n' 或者 '\r'的时候,会设置eol = true,后面会根据该eol标志,return读取到的字符串,结束readLine方法;
2024-04-19 15:22:24 272
原创 Java 网络编程之TCP:基于BIO
然后开启两个客户端,在idea中需要打开Run -> Edit Configurations,选择我们的Application, 然后在右侧点击【Modify options】,选择【Allow multiple instances】,即可开启多个相同的Application;本文,我们使用最简单的方式,一个线程处理一个客户端数据,线程不复用;需求如下:基于BIO实现一个简单的服务端接收客户端的数据的网络模型;既然服务端有阻塞,我们要想提高效率,得用多线程,一个负责处理一个客户端的业务数据;
2024-04-19 11:01:29 136
原创 Java NIO中的mmap
Java中的mmap,是通过MappedByteBuffer实现,是一种DirectBuffer,也就是说是操作系统直接管理的内存。
2024-04-16 17:21:38 135 1
原创 json串和java对象互相转换by jackson
System.out.println("json字符: " + jsonStr +" 串转换成对象出错");System.out.println("对象转换成json字符串出错");* 将对象转换成json字符串,用于将发送的报文打印出到日志。* 将json字符串转换成对象,用于将发送的报文打印出到日志。* 从文件中读取json字符串,转换成对象列表。* 将对象列表转换成json字符串,写入文件。
2023-08-13 23:14:25 224
原创 Java中String进行split的注意事项
常见String进行split的方法有:1. JDK中String对象自带的split方法,public String[] split(String regex)2. commons-lang包中StringUtils提供的splitPreserveAllTokens方法, public static String[] splitPreserveAllTokens(String str, ...
2020-11-16 17:15:05 545
原创 Standalone模式下_taskScheduler和executor运行原理解密
环境:spark 2.3.3scala 2.11.8Java 1.8.0_141工作原理说明:一:Spark Executor工作原理:1.创建并启动TaskScheduler在SparkContext中调用内部方法createTaskScheduler创建TaskScheduler,并启动TaskScheduler;1.1在Standalone模式下createTaskScheduler匹配到如下代码:SparkContext:case SPARK_REGE.
2020-07-13 16:25:20 1380
转载 关联规则之FpGrowth算法以及Spark实现
Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。 FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。我们还是以上一篇中用的数据集为例: TIDItemsT1...
2020-07-10 10:10:28 776 2
原创 Spark checkpoint 功能源码详解
环境:spark 2.3.3scala 2.11.8Java 1.8.0_141为什么要checkpoint?checkpoint和persist功能相似,都是为了更高效的复用RDD,但是Checkpoint可以进行容错,即driver失败后,可以基于checkpoint 数据进行重新启动。checkpoint推荐使用方式:一般在进行checkpoint方法调用前都要进行persist,来把当前RDD的数据持久化到内存或者磁盘上,这是因为checkpoint是lazy级别..
2020-07-09 15:35:30 248
原创 spark master HA流程和源码详解(standalone)
环境:spark 2.3.3scala 2.11.8Java 1.8.0_141spark集群安装部署节点分布 Master Worker node01.zf.com √ 192.168.0.100 node02.zf.com √ √ ...
2020-06-17 18:31:12 392
原创 Spark Worker 启动流程及源码详解
环境:spark 2.3.3scala 2.11.8Java 1.8.0_141可以参考【Spark Master启动流程详解】${SPARK_HOME}/sbin/start-slaves.sh# Launch the slaves"${SPARK_HOME}/sbin/slaves.sh" cd "${SPARK_HOME}" \; "${SPARK_HOME}/sbin/start-slave.sh" "spark://$SPARK_MASTER_HOST:$SPARK_
2020-06-17 09:48:25 1006
原创 Spark Master启动流程及源码详解
环境:spark 2.3.3scala 2.11.8Java 1.8.0_141${SPARK_HOME}/sbin/start-master.sh# NOTE: This exact class name is matched downstream by SparkSubmit.# Any changes need to be reflected there.CLASS=“org.apache.spark.deploy.master.Master"..."${S.
2020-06-17 09:39:02 729
原创 spark-shell启动命令详细解析2
环境:spark 2.3.3scala 2.11.8Java 1.8.0_141接上篇【spark-shell启动命令详细解析1】下面我们来看下org.apache.spark.repl.Main是如何处理spark-shell中输入的命令的在org.apache.spark.repl.Main$main方法中,调用doMain方法通过doMain方法,调用SparkILoop$process方法SparkILoop是spark交互式shell,继...
2020-06-17 09:36:03 896
原创 spark-shell启动命令详细解析1
环境:spark 2.3.3scala 2.11.8Java 1.8.0_141执行spark-shell命令后,会启动spark-shell交互命令行窗口:那么spark-shell命令的启动流程是怎样的呢?下面让我们来一步一步分析首先,查看${SPARK_HOME}/bin/spark-shell启动脚本可以看到,spark-shell脚本使用启动参数调用main方法spark-shell脚本中的main方法最终会调用命令:"${SPAR..
2020-06-17 09:34:17 6198 1
原创 Spark最佳实践
参考:https://yq.aliyun.com/articles/727445?spm=a2c4e.11155472.0.0.6d431140fF9I8E
2019-12-26 18:33:28 167
原创 本地ToolRunner调试MapReduce,报错org.apache.hadoop.crypto.key.KeyProviderTokenIssuer
参考: https://blog.csdn.net/qq_39625998/article/details/80356159报错org.apache.hadoop.crypto.key.KeyProviderTokenIssuer原来是版本问题,原来Hadoop版本为2.7.2,确实没有这个类。将hadoop版本升级为3.10即可正常运行。...
2019-12-20 17:39:17 3357
原创 MapReduce输出avro文件,报错GenericData.createDatumWriter...NoSuchMethodError
Hadoop 2.7.2<dependency> <groupId>org.apache.avro</groupId> <artifactId>avro</artifactId> <version>1.7.7</version></dependency><...
2019-12-20 17:37:44 302
原创 MapReduce程序调整Map/Reduce task内存参数
参考:https://blog.csdn.net/u014665013/article/details/809230441.先看yarn.scheduler.minimum-allocation-mb和yarn.scheduler.maximum-allocation-mbyarn.scheduler.minimum-allocation-mb:决定MapReduce使用的最小内存...
2019-12-20 17:24:33 4506
原创 MapReduce程序通过-libjar参数指定第三方jar包,step by step 调试
hadoop 3.1.0日常开发的程序,我们都是通过Maven管理相关jar包依赖,但有时一些第三方包没有提供maven源,只能手动管理jar包。对于hadoop jar 使用第三方依赖的方式有很多:参考:https://www.cnblogs.com/yyy-blog/p/10249646.html#_label1https://www.iteye.com/blog/...
2019-12-20 17:22:28 4006
原创 MapReduce任务报错:Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1
问题描述: 之前写了一个读取RCFile的MapReduce任务,现在放到测试集群上报错了错误信息:Error: java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1at org.apache.hadoop.hive.shims.ShimL...
2019-11-29 20:44:37 11545 2
转载 Hadoop HDFS (3) JAVA訪问HDFS
如今我们来深入了解一下Hadoop的FileSystem类。这个类是用来跟Hadoop的文件系统进行交互的。尽管我们这里主要是针对HDFS。可是我们还是应该让我们的代码仅仅使用抽象类FileSystem。这样我们的代码就能够跟不论什么一个Hadoop的文件系统交互了。在写測试代码时,我们能够用本地文件系统測试,部署时使用HDFS。仅仅需配置一下,不须要改动代码了。在Hadoop 1....
2019-11-28 10:07:40 3635
原创 Mac上Spark本地模式调试报错-no snappyjava in java.library.path
Idea本地运行Spark,SparkContext.textFile()读取文件时报错,具体报错:Caused by: java.lang.UnsatisfiedLinkError: no snappyjava in java.library.pathat java.lang.ClassLoader.loadLibrary(ClassLoader.java:1867)...
2019-11-19 15:20:28 4238
原创 MapReduce的Avro多路输出默认输出路径踩坑
环境:hadoop 2.7.2 avro 1.7.4现象:在进行Avro多路输出的时候,有一路分支输出到了默认的outPath中了。 FileOutputFormat.setOutputPath(job, outPath);why?原来在配置多路输出路径的时候,忘记配置这一路分支的路径了。。。汗????。。。搞了很长时间。...
2019-11-12 14:30:33 216
转载 可能是全网最深度的 Apache Kylin 查询剖析
本文已被 Apache Kylin 官方收录,传送门:https://kyligence.io/zh/resources/apache-kylin-query-analysis/?utm_source=wechat&utm_medium=social&utm_campaign=kylin阅读本文前,请先阅读:Apache Kylin 概览 - 简书 Apache Kyli...
2019-11-12 13:33:34 435
原创 Apache Kylin的精确去重Measure的使用和探索
Kylin版本:apache-kylin-3.0.0-alpha2-bin-cdh60Apache Kylin在构建Cube的时候,提供的Count Distinct功能,有近似去重和精确去重。 近似去重是基于HyperLogLog算法实现的,可以指定不同的精度。精度越高,使用的存储也越多。 精确去重是基于bitmap实现的。由于我们的DMP广告...
2019-11-11 17:24:46 4545
转载 企业数据湖与大数据 Lambda 架构
目录 1.Lambda架构背景介绍 2.大数据系统的关键特性 3.数据系统的本质 3.1.数据的本质 3.1.1.数据的特性:When & What 3.1.2.数据的存储:Store Everything Rawly and Immutably 3.2.查询的本质 4.Lambda架构 4.1.Batch Layer ...
2019-11-07 09:34:02 4585
原创 docker创建镜像,常见报错
1.Error: Cannot find a valid baseurl for repo: base参考:https://www.jianshu.com/p/8c3f0004e06ahttps://blog.csdn.net/liu251890347/article/details/41281263但是要把From centos注释掉,否则相当于新起了一个环境,前面不在起作用...
2019-11-05 14:54:24 6352 2
原创 Mysql优化碎片空间
mysql的表在使用的过程,会不断产生碎片空间,占用存储1.查询表的碎片空间select ROW_FORMAT,TABLE_ROWS,DATA_LENGTH,INDEX_LENGTH,MAX_DATA_LENGTH,DATA_FREE,ENGINE from information_schema.TABLES where TABLE_SCHEMA='clcz' and TABLE_NAME...
2019-10-31 15:41:11 6775
原创 hadoop jar执行任务,报错 java.io.FileNotFoundException:/tmp/hadoop-unjarxxxx/...(no space left on device)
问题描述:使用hadoop jar命令执行MapReduce任务,报错如下查看大数据提交机的磁盘使用情况:df -h发现/tmp目录空间没有用满查看inode使用情况:df -i/tmp目录的inode已经用满了。。。查看/tmp目录的使用情况:发现有许多MapReduce任务提交的临时目录,可以清理掉:清理完后,再次统计,发现inode...
2019-10-31 10:16:00 8115
原创 VirtualBox中windows虚拟机复制/粘贴和主机共享(Mac)
由于VirtualBox是免费的,所以在Mac中经常使用,缺点就是虚机的分辨率不够。(有钱的话可以买个Parallels Desktop)1.设置—>常规—>高级—>共享粘贴板和拖放调整为双向。2.安装vitural box增强插件参考:https://jingyan.baidu.com/article/e75057f21684daebc91a891b....
2019-10-29 09:34:17 13967 1
转载 全球名校课程作业分享系列(11)--斯坦福CS231n之生成对抗网络
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-26 10:08:19 7996 1
原创 Mac 使用Apache httpd服务
参考:https://www.jianshu.com/p/78c53d4e9ed21.启动Mac自带的Apache httpd服务首先查看httpd的版本信息:apachectl -v或者 httpd -v由于Mac中Apche httpd服务是以root用户安装的,可以用sudo apachectl start启动Apache httpd服务打开浏览器地址栏输...
2019-10-25 09:09:34 14381
转载 机器学习系列(22)_SVM碎碎念part5:凸函数与优化
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-24 15:46:30 8111
转载 全球名校课程作业分享系列(8)--斯坦福计算机视觉与深度学习CS231n之tensorflow实践
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-24 15:32:26 9132
转载 全球名校课程作业分享系列(6)--斯坦福计算机视觉与深度学习CS231n之神经网络细解与优化尝试
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-24 15:30:09 9193
转载 全球名校课程作业分享系列(7)--斯坦福计算机视觉与深度学习CS231n之基于cifar10的卷积神经网络实践
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-24 15:27:14 9129
转载 全球名校课程作业分享系列(9)--斯坦福CS231n之RNN与计算机看图说话
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-24 15:15:54 8980
转载 VirtualBox虚拟机导出导入实战练习
摘要: VirtualBox虚拟机导出导入实践创建好虚拟机后,我们配置好虚拟机的一些配置信息,然后想多克隆几个,这时我们...
2019-10-24 09:40:20 9690
转载 从FM推演各深度CTR预估模型(附代码)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-23 11:43:24 9105
转载 图解Transformer(完整版)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...
2019-10-23 10:17:18 9748 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人