自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (10)
  • 收藏
  • 关注

原创 多线程批量写入ES工具

业务背景: 读取本地大文件,或者读取ES的文件 进行业务处理 将结果存入ESBlukUtil工具import com.zrt.govername.waimai.BlukTask;import org.apache.log4j.Logger;import java.util.ArrayList;import java.util.List;import java.util.Map;import java.util.concurrent.*;/** * @Classname B..

2020-05-08 18:06:16 2249 2

翻译 使用java.io.File的renameTo方法移动文件失败的问题

今天在服务器上使用file.renameTo的时候一直报错https://my.oschina.net/u/2424727/blog/1933126 后来根据这个文章 查了下 确实文件系统类型不同:解决方法:使用apache的commons-io包中的工具类的进行文件移动。1.测试代码:import org.apache.commons.io.FileUtils...

2020-01-09 15:34:39 3068 3

原创 多线程查询ES返回结果

背景:现在人脸流水库有大概8W人脸数据需要提供给WEB组一个人脸检索接口(根据检索条件从ES中检索出相关数据 然后和传过来的人脸图片进行特征比对 筛选符合条件的数据 ):方案:根据上传的图片,已经相关查询条件:String place_id = json.getString("site_code");float start_time = json.getFloatValue("sta...

2019-11-26 09:57:17 1975

原创 读取consle的 工具类

package com.zrt.common;import com.ecwid.consul.v1.ConsulClient;import com.ecwid.consul.v1.Response;import com.ecwid.consul.v1.kv.model.GetValue;import java.io.Serializable;import java.util.Has...

2019-09-11 14:48:58 183

原创 Consul安装手册

Consul安装手册目录Consul安装手册.... 1一:安装准备.... 1二:配置consul 1三:配置导入导出.... 1一:安装准备1.consul最新版的下载地址https://releases.hashicorp.com/consul/1.5.2/consul_1.5...

2019-07-11 11:18:04 259

原创 关于静态方法和非静态方法 类锁和对象锁

划重点static方法是类中的一个成员方法,属于整个类,即使不用创建任何对象也可以直接调用!静态方法效率上要比实例化高,静态方法的缺点是不自动进行销毁,而实例化的则可以做销毁。静态方法和静态变量创建后始终使用同一块内存,而使用实例的方式会创建多个内存。在静态方法或者方法块上加的锁为 类锁 (锁类)非静态方法为 对象锁(锁对象)详细如下类锁 (锁类)...

2019-05-30 16:59:12 1253

原创 通过输入流获取APK签名

背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口通过输入流获取APK签名:思路:截取HDFS中APK输入流再截取A...

2019-04-28 10:14:40 153

原创 通过输入流获取APK权限列表

背景:因为HDFS小文件太多了 导致HDFS集群压力很大 所以项目由原来的存储文件方式改成了 把文件流以二进制的方式存入一个个大的文件块 通过文件 位置信息和偏移量信息来标记文件网上很多通过APK路径 来获取APK的签名和权限列表的 但是直接对接流的基本没有 而且封装的方法 也没有好的可以接入流的接口通过输入流获取APK权限列表:思路:APK权限列表存在于APK的 Andro...

2019-04-28 10:06:47 411

原创 ArrayList的last方法

最近在开发的时候看到一个问题 如下:val recordList2 =new util.ArrayList[util.HashMap[String,String]]val recordList=new util.ArrayList[Long]() recordList.add(12L) for(i <-0 until 11){ recordList.add(i.toL...

2019-04-11 14:55:26 867

翻译 rdd的特性

rdd:Resilient Distributed Dataset  弹性式分布数据集特点如下:1. A list of parttitions  一系列的分片:比如64M一片 类似hadoop中的split2.A function for computing each split 每个分片上都有一个函数去迭代/执行/计算它3.A list of dependencies ...

2019-02-27 17:48:49 173

原创 对数组里面的字符串按照长度排序,长度相同按照字典表顺序排序

最近碰到需要对字符串数组中的数据进行长度排序,长度相同按照字典顺序排序记录一下val re_list=Array("Runoob", "Baidu", "Google").toListval result_list=re_list.sortWith((s,t)=&gt;compareStrlen(s,t))  def compareStrlen(str1:String,str2...

2019-01-16 15:00:25 2111

原创 pythonl list去子集

碰到了需要去掉list中子集的需求 记录一下思路如下cur_list=["ab","abc","abe","abcde"]#需要先去重out_list=list()for cur_str1 in cur_list: contian_flag=0 for cur_str2 in cur_list: if(cur_str1 in cur_str2): ...

2019-01-02 18:03:36 2290

翻译 hive数据类型

通常在使用hive的时候更多的使用的是字符类型hive 数据类型1.基本数据类型 类型                       列子 tinyint                   20 smallint                20 int                        20bigint                    20bo...

2018-12-21 11:42:33 111

翻译 hive优化实例

1.提前过滤数据,减少中间数据依赖比如  select ... from A join B on A.key=B.key   where A.userid &gt;10 and B.userid &lt; 10 and A.dt='20120417' and B.dt='20120417'改成select ... from ( select ...  from A where ...

2018-12-20 11:45:20 184

原创 针对采购品类的用户相似性分析

数据描述: 取三级品类采购数据的top的 品类品类        被采购次数办公文具   36677纸类         21236纸品/湿巾 20646文件管理 15909本册便签 13781充电器/数据线 10240打印复印耗材 9803食用油    8368米面杂粮  8143以这些品类为基础筛选了采购过这10个品类里面3个以上的用户采购品类数...

2018-11-02 17:31:25 231

翻译 python抽样总结

import randomimport numpy as np#简单随机抽样data=np.loadtxt("E:/data/book/python_book/chapter3/data3.txt")# print(type(data))data_sample=random.sample(list(data),2000)#随机抽取2000个样本# print(data_sample[...

2018-11-01 15:17:54 2334

翻译 python数据分层抽样工具类

import pandas as pdimport random as rdimport numpy as npimport math as madef typeicalSampling(group, typeicalFracDict): name = group.name frac = typeicalFracDict[name] return group...

2018-11-01 10:37:46 2662

原创 订单,用户,商品关联分析记录

最近有做采购平台 订单,用户,商品关联分析 的任务目的在于希望能产出  商品推荐商品或者 商品 推荐给用户  的数据主要采用python的apriori  进行关联分析样例代码如下 大概如下:from apyori import aprioriimport pandas as pddef ResultDFToSave(rules): # 根据Qrange3关联分析生...

2018-10-31 14:13:51 3720

转载 使用Python进行数据关联分析

https://blog.csdn.net/qq_19528953/article/details/79412245

2018-10-18 17:25:25 2363

翻译 jieba分词中的特殊字符处理

最近在做jieba分词的时候出现一个有意思的问题 往词库里面加了TD-523 这个词然后拆分的时候 拆成了TD 523  怀疑是-影响的  然后在词库中修改为TD523 正确分出来TD523   但是如果非要拆分出来TD-523 呢参考下面这篇文章https://blog.csdn.net/wangpei1949/article/details/57...

2018-10-16 16:35:37 6742 1

翻译 matplotlib.pyplot绘制kmeans的聚合程度,以及轮廓系数

Kmeans2Pmml.py# -*- coding:utf-8 -*-import pandasfrom sklearn.model_selection import train_test_splitimport numpy as np # 导入numpy库import matplotlib.pyplot as plt # 导入matplotlib库from sklearn...

2018-10-15 14:15:46 3339

翻译 运营数据缺失值处理样例

import pandas as pdimport numpy as npfrom sklearn.preprocessing import Imputerdf=pd.DataFrame(np.random.rand(6,4),columns=["col1","col2","col3","col4"])df.iloc[1:2,1]=np.nandf.iloc[4,3]=np.nan...

2018-10-08 17:35:27 202

转载 数据化运营常见的数据预处理经验

       数据清洗中,主要的处理是缺失值,异常值和重复值,所谓清洗,就是对数据集进行丢弃,填充,替换,去重等操作,实现去除异常,纠正错误,补足缺失的目的。   数据列缺失,      1.行记录缺失,数据丢失(通常无法找回)     2.数据列值缺失----------------------------------------------------  这里主要说...

2018-10-08 10:48:58 234

翻译 python数据分析 常用方法总结(持续更新)

raw_data=pd.read_table("E:/data/book/python_book/chapter6/products_sales.txt",delimiter=",")1.查看数据样例,raw_data.tail(2)) 或者 head2.查看数据概况 print(raw_data.describe().round(1).T)  T 应该是转换行列的方法count...

2018-09-30 10:29:05 993 1

翻译 matplotlib.pyplot绘制决策树的准确率,召回率,ROC,特征重要性

因为训练模型需要返回模型评价指标,但是召回率和ROC 不能很好的展示返回,所以决定把相关评价指标绘制成图片DecisionTree2Pmml.pyimport sysimport oscurPath = os.path.abspath(os.path.dirname(__file__))rootPath = os.path.split(curPath)[0]sys.path.a...

2018-09-26 17:40:36 6593

searchface.rar

根据相关查询条件:将查询语句已设备为单位根据 device_id  为单位  将一个查询语句拆分成若干个查询语句 通过多线程异步提交任务 将查询到相关结果 和查询的人脸图片 进行特征对比 保存到结果索引里面

2019-11-25

ConfigUtil.java

读取consle配置的工具类

2019-09-11

CentOS7.4+HDP+Ambari+consul+Elasticsearch安装部署文档.rar

CentOS7.4+HDP+Ambari+consul+Elasticsearch 安装部署文档

2019-07-12

ajaxSubmit局部刷新

网上很多ajaxSubmit局部刷新的例子,很多没有附带jquery-form.js的下载链接 该例子实现文件上传ajaxSubmit提交局部刷新页面返回结果 不能选0分 所以给1分

2018-09-19

CHD升级spark2.X文档.docx

CDH升级spark2.X文档,安装步骤,详细命令,以及测试方法

2018-04-19

二维码生成

二维码图片生成,重写无边框二维码,二维码工具类。。

2017-11-27

echart2.0地图开发

echart地图资源,以及后台数据初始化,地图数组构造。

2017-11-27

解析excel另存为部分数据

解析excel 并另存为生成新的excel

2017-01-17

代码生成器

JS转义,正则校验 ,以及一些工具类的生成

2016-10-20

java面试宝典

面试的一些知识总结

2016-10-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除