自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 java 实现穷举算法

参考:https://blog.csdn.net/changyuanchn/article/details/51417796题目/** * * [0-1背包问题]有一个背包,背包容量是M=150kg。有7个物品,物品不可以分割成任意大小。 * 要求尽可能让装入背包中的物品总价值最大,但不能超过总容量。 * 物品 A B C D E F G * 重量 35kg 30kg 6kg 50kg 40kg 10kg 25kg * 价值 10 40 30

2021-01-04 17:33:29 1082

原创 spark scala.util.control.BreakControl

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 12.0 failed 1 times, most recent failure: Lost task 0.0 in stage 12.0 (TID 18, localhost, executor driver): scala.uti...

2020-03-23 17:31:50 348

原创 java Djava.ext.dir

jar -jar 指定lib启动java -Xms1g -Xmx4g -Djava.ext.dirs=/opt/test/lib -jar /opt/test/untitled.jar提示报错用-Djava.ext.dirs=指定lib的会覆盖系统ext包 所以需要重新指定系统ext包java -Xms1g -Xmx4g -Djava.ext.dirs=/opt/te...

2020-01-10 16:21:57 393 1

原创 将当前目录下所有jar合并成一个jar

在linux上1.进入当前目录解压所有jar通过jar解压命令将jar包全部解压,命令为 >jar –xvf xx.jar;如果jar太多了 可以编写个shell脚本解压1.touch run.sh2.vim run.sh3.进入编辑模式 然后保存#!/bin/bashfor wav in ./*.jar; do echo "Extracting...

2019-09-10 15:45:53 706

原创 mr中理解分区和分组(转)

原文链接:https://blog.csdn.net/qq_21292551/article/details/502613911.MapReduce中数据流动(1)最简单的过程:map-reduce(2)定制了partitioner以将map的结果送往指定reducer的过程: map-partition-reduce(3)增加了在本地先进性一次reduce(优化)...

2019-08-29 11:58:37 1090 1

原创 MapReduce中自定义文件输出名

import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.RecordWr...

2019-08-23 14:46:27 120

原创 父子类强转失败 类加载器隔离问题

今天遇到一个BUG 在做调试的时候发现子类不能强转父类。。DEBUG一下 发现 instanceof 结果是false回想一下 在Oracle的时候驱动有两个版本 都是自定义类加载器去加载驱动(为了区分Oracle版本)...

2019-08-01 10:50:16 557

原创 最大堆排序最小堆排序

//堆是一种完全二叉树 就是每个节点都有两个子节点public static void maxHeapSort(int[] arrays,int node,int size){ //获取左节点和右节点位置 int left = node*2+1; int right = node * 2 +2 ; //假设node 是最...

2019-07-19 16:07:58 173

原创 实时计算工具库 stream-lib 分位数计算 T-Digest 求中位数

图片来源https://dataorigami.net/blogs/napkin-folding/19055451-percentile-and-quantile-estimation-of-big-data-the-t-digest中位数、95% 分位数,这类计算在描述性统计中很常见。相较于平均数,中位数不会受到异常值的影响,但它的计算过程比较复杂,需要保留所有具体值,排序后取得中间位...

2019-07-12 09:52:08 1961

原创 实时计算工具库 stream-lib Top K 排名 CountMinSketch

图片来源https://stackoverflow.com/questions/6811351/explaining-the-count-sketch-algorithm/35356116#35356116CountMinSketch是一种“速写”算法,能够使用较小的空间勾勒出数据集内各类事件的频次。比如,我们可以统计出当前最热门的推特内容,或是计算网站访问量最大的页面。当然,这一算法...

2019-07-12 09:48:21 465

原创 实时计算工具库 stream-lib 唯一值计算 HyperLogLog

独立访客(UV)是网站的重要指标之一。我们通常会为每一个用户生成一个 UUID,并在 HTTP Cookie 中记录和跟踪,或直接使用 IP 地址做近似计算。我们可以使用一个 HashSet 来计算 UV 的准确值,但无疑会占用大量的空间。HyperLogLog 则是一种近似算法,用于解决此类唯一值计算的问题。该算法在对超过 10^9 个唯一值进行计算时可以做到 2% 的标准差,并只占用 1.5 ...

2019-07-12 09:44:19 461

原创 大数据算法-重复率计算 ICardinality

import com.clearspring.analytics.stream.cardinality.ICardinality;// 重复率计算器private ICardinality repeatCardinality = AdaptiveCounting.Builder.obyCount(Integer.MAX_VALUE).build();//重复率repeatC...

2019-07-12 09:41:47 1656

原创 中文分词器hankcs/HanLP简单使用

githubhttps://github.com/hankcs/HanLPmaven坐标<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.4</ver...

2019-07-12 09:37:17 3550

原创 FuzzyWuzzy:字符串匹对得分计算

最近的项目需要在大数据里面匹对字典里面最意思相近的字符串两个字符串之间匹对的准确率得分计算 使用FuzzyWuzzy可以简单计算出分数FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据Levenshtein Distance 算法计算两个序列之间的差异。Levenshtein Distance算法,又叫Edit Distance算法,是指两个字符串...

2019-07-12 09:32:40 936

原创 kafka httpclient connectors rest api

导入两个Httpclient包 kakfa 使用httpclient测试 connectors restAPI 测试public enum HttpEnum { HTTP("http://"), HTTP_GET("get"), HTTP_POST("post"), HTTP_PUT("put"), HTTP_DELETE("delete"), ...

2019-06-04 12:35:05 743

原创 kafka集群版 connectors 通过REST API实现控制

之前一直用单机版控制connectors 测试两台服务器为什么不能实现mysql增量同步 原来单机模式不支持 只能集群模式集群模式是通过REST API实现的linux常用命令如下: curl -s <Kafka Connect Worker URL>:8083/ 获取 Connect Worker 信息 curl -s <Kafka Conn...

2019-05-31 16:16:47 1409 1

原创 安装kafka单机版

前提条件 安装jdk 略1.安装zookeeper-3.4.9.tar.gz原来没有zoo.cfg配置文件的 复制一份 改dataDir输入位置即可解压 进入conf cp zoo_sample.cfg zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/opt/test/zookpeeper/zookeeper-3.4.9/...

2019-05-28 15:40:48 2369

原创 MLSQL 概念

MLSQL不只是一门语言,也是一个分布式计算引擎。MLSQL可以实现批处理,流式处理,机器学习,爬虫,API服务等多领域功能。MLSQL 目前由三部分构成:1.MLSQL EngineMLSQL-Engine 是一个分布式执行引擎,可以解释执行MLSQL 脚本。用户可以使用http协议和MLSQL-Engine进行交互。MLSQL-Engine 内核为Spark,所以它可以运行在多个...

2019-05-22 17:02:43 1060

原创 JDK代理和Cglib代理 练习

 

2018-08-23 11:29:21 139

原创 关于springmvc拦截器 controll aop执行顺序

拦截器部分代码control部分代码aop部分代码执行之后的结果可以看出进入顺序是 1.拦截器preHandle- 2.control-aop- 3.拦截器postHandle- 4.拦截器afterCompletion- 5.拦截器preHandle1 2 3 4 步骤都是同一个线程处理 在最后一个步骤还会执行一次拦截器pre方法 但是是另外调用新的线程 ...

2018-08-20 14:27:02 1156

原创 System.getProperty("user.dir") 在linux和window tomcat的位置

windows系统中 tomcat运行项目 其中System.getProperty("user.dir") 输出的位置是当前tomcat所在的位置的bin目录linux System.getProperty("user.dir")输出的位置是当前tomcat所在位置webapps目录里...

2018-08-17 11:03:22 9853 1

转载 bat发布成服务

命令 sc create  ElasticSearch binPath= "D:\elasticsearch-5.2.0\bin\elasticsearch.bat"  type= share start= auto displayname= "elasticSearch Services"  描述:        在注册表和服务数据库中创建服务项。用法:        sc &...

2018-07-31 15:40:35 2481

原创 es searchResponse.getAggregations().get("xxx")用法

这里分组根据时间字符串SearchResponse searchResponse = client.prepareSearch("company") .addAggregation(AggregationBuilders.terms("group_country").field("country") .subAggregation(Aggregatio...

2018-07-31 15:32:55 10327

转载 定制自己的分词器

standard tokenizer:以单词边界进行切分standard token filter:什么都不做lowercase token filter:将所有字母转换为小写stop token filer(默认被禁用):移除停用词,比如a the it等等定制化自己的分词器PUT /my_index{  "settings": {    "analysis": {   ...

2018-07-30 14:30:06 306

原创 fielddata fields type不能为text

 测试 PUT /test123/type111/1{  "aaaa": "test aaaa",  "test1": "content aaaa",  "test2": "2018-01-01",  "test3": 110}GET /test123/type111/_search{  "query": { 

2018-07-30 11:04:34 763

转载 webSocket

 一直以为ServerSocket是webSockethttps://www.cnblogs.com/xdp-gacl/p/5193279.html 亲测可用 需要打war放在tomcat运行即可 编译器直接启动会失败 

2018-07-23 17:37:51 109

原创 java自动导出数据库

需要在数据库所在的服务器执行;java文件:import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.util.Scanner;public class ExportDatabase {       String fileLocati...

2018-07-23 14:20:02 347

转载 shell 脚本学习

https://www.cnblogs.com/gaosheng-221/p/6794429.html  

2018-07-17 10:40:49 88

转载 ubuntu nginx安装

https://blog.csdn.net/q549244663/article/details/70315339

2018-07-13 16:19:51 162

转载 windows tomcat设置成服务自动启动

windows tomcat做成服务 实际上在bin目录下面有个service.bat 双击即可一般开发人员习惯命令https://www.cnblogs.com/tommy-huang/p/6240083.html   也可以换成命令启动  设置成功后还需要去设置开关机自动开启 命令窗口services.msc 找到对应的tomcat 右键属性去设置自动即可...

2018-06-04 09:47:40 287

转载 pdf模板 java后端实现

后端生成pdf不漂亮 目前公司是前端做成pdf模板链接https://github.com/superad/pdf-kit

2018-05-24 15:01:52 536

转载 生成图片

https://github.com/xtyxtyx/sorry

2018-05-23 14:42:37 157

转载 netty样例

https://github.com/menacher/nerdronix/tree/master/spring-netty/src/main

2018-05-23 14:19:05 156

转载 window 部署redis集群

https://blog.csdn.net/qiuyufeng/article/details/70474001

2018-05-22 15:52:03 80

转载 hive安装

https://blog.csdn.net/pucao_cug/article/details/71773665

2018-05-18 10:44:23 112

转载 mysql 批量插入数据 存在 就更新

http://blog.itpub.net/29989552/viewspace-2109761/

2018-05-17 17:35:56 850

转载 读取十六进制

DataInputStream 可以读取无符号位 类似ObjectInputStream

2018-05-16 15:37:37 1273

转载 java自定义native方法 即java调用C函数

https://jingyan.baidu.com/article/6c67b1d68e33bc2787bb1ee6.html

2018-05-15 17:59:32 685

转载 安装hadoop mysql驱动包问题

https://blog.csdn.net/shenliang1985/article/details/51478151

2018-05-11 15:20:56 938

原创 responseBody返回jsonp格式

因为项目发布在公司自己服务器,没有绑定域名,只能在局域网之内使用。前端说正常访问不到,因为同源策略的原因,只能用jsonp请求。jsonp要求返回的格式前面加多一个名字,包裹着json串,接口大部分都是写好的,而且代码中用的都是@ResponseBody注解,如果要在代码用fastJson转json,完成这样的格式。相对来说会麻烦很多。个人百度看了好几篇文章。http://blog.csd

2017-11-10 09:40:13 6023

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除