自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

猫爷大数据学习笔记

总结这近2年来学习开发笔记和心得

  • 博客(41)
  • 资源 (4)
  • 收藏
  • 关注

原创 es使用同义词插件注意事项

springboot 集成es同义词,从安装到线上部署遇到的坑

2022-08-03 16:16:24 2188 1

原创 jenkins+svn+maven+tomcat一键构建部署

1背景 这是这种多人协同开发,自动构建,自动部署的方案。就不用自己打包,然后上传部署了,解放人力,便于管理。这里只是简单介绍各自软件的使用与集成,其实不论svn和maven还有很多实用的用法,svn的管理规划,maven的仓库等。 svn用来做代码版本管理,maven用来编译,tomcat是web容器,jenkins是自动化构建的工具。这里没使用nginx来做方向代理,以后做 软件版本 j

2017-04-14 11:33:19 21268

原创 基于Spark的Als算法+自迭代+Spark2.0新写法

主要介绍了一下几点: 1矩阵分解的几种算法 2spark使用矩阵分解的几种方式,1ml 包中使用,2mllib包中的使用,其实有不调用包自己写的案列(可以去看看哈,就在example目录) 3使用ALS做推荐的一个比较详细的流程:1自迭代确定比较优的参数是,2使用参数训练模型,3使用模型推荐topn的物品给用户 4讲了怎么自迭代ALS算法参数,感觉这个还重要点 5提交spark的报了一个错

2016-10-25 16:13:57 15893 9

原创 基于Spark的FPGrowth(关联规则算法)

在推荐中,关联规则推荐使用的比较频繁,毕竟是通过概率来预测的,易于理解且准确度比较高,不过有一个缺点为,想要覆盖推荐物品的数量,就要降低支持度与置信度。过高的支持度与置信度会导致物品覆盖不过,这里需要其他的推荐方法合作,建议使用基于Spark的模型推荐算法(矩阵分解+ALS).一FPGrowth算法描述:FPGrowth算法概念:支持度,置信度,提升度(Spark好像没有计算这个的函数,需要自己计算

2016-10-24 11:34:10 19646 4

原创 Spark的逻辑回归与P_R_F评估

Spark的逻辑回归与P_R_F评估1逻辑回归可以使用预测2分类的场景,必须使用已经有分类的样本,然后经过训练,预测未分类的样本的Lable,输出是概率,表示一般为正的概率是好多。输入: libsvn数据 样本如下: sample_binary_classification_data.txt在spark的目录中有,属性太多了就不复制了。一般这种数据是存在表中,att1,att2…attn,La

2016-10-21 18:49:37 4222

原创 spark基于用户的协同过滤算法与坑点,提交job

承接上文: http://blog.csdn.net/wangqi880/article/details/52875524 对了,每台机子的防火墙要关闭哈,不然spark集群启动不起来 前一次,已经把spark的分布式集群布置好了,今天写一个简单的案例来运行。会写一些关于spark的推荐的东西,这里主要有4点,1基于用户协同过滤,2基于物品协同过滤,3基于模型的协同过滤,4基于关联规则的推荐(

2016-10-21 15:48:00 8288 5

翻译 HiveServer2的客户端

hiveserver2的客户端使用hive的数据类型hive的各种url连接hive pythonhive rubyhive的认证

2016-01-23 14:58:50 6597 6

转载 百分点苏海波-用户画像的构建与使用1

转载 百分点是一个推荐服务的提供商,但是已经转型为大数据解决方案的提供商。 首先看一下大数据与应用画像的关系,现在大数据是炙手可热的,大数据的4个V都比较了解,大数据应该说是信息技术的自然延伸,意味的无所不在的数据。我们先看下数据地位发生转变的历史,在传统的IT时代,it系统围绕这业务服务,在这个服务的过程中沉淀了许多的数据,在数据的基础上做一些分析。但是到了DT时代就不一样了。数据是现实世

2015-11-18 22:13:32 3709

转载 今天来学习下美团推荐算法实践:机器学习重排序模型

转载,来自小象学院。 美团推荐算法实践:机器学习重排序模型 文章介绍了美团推荐系统的构架和优化过程,包括数据层,触发层,融合过滤层和排序层,采用了Hbase,Hive,Storm,Spark和机器学习等技术。两个优化两点将是候选集进行融合与引入重排序模型。 看的到这里顿时觉得高大上了,有木有…… 在用户意图明确时,我们通过用搜索引擎来结局互联网时代的信息过载问题,但当用户的意图不明确的时候或

2015-11-14 20:38:15 16189 4

转载 快速理解bootstrap,bagging,boosting-三个概念

1 booststraping:意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。2 bagging:bootstrap aggregating的缩写。让该学习算法训练多轮。3 boost:其中主要的是adaboost(adaptive boosting)4 bagging和boosting的区别:二者的主要区别是取样本方式不同

2015-11-10 21:35:38 27732

原创 设计模式-适配器模式

适配器模式谢谢1适配器概念2 3个角色3 uml图4 demo5真实案列 多种缓存统一使用方式谢谢你好!1适配器概念是一种转换器,把不兼容接口兼容了,也可以理解为把一个类的接口转成另外一个接口。分为结构适配器(调用)和类适配器(继承)。2 3个角色Target:目标,就是要实现的功能,接口或者抽象类Adaptee:适配者,就是适配器中的组件,可以理解为真实处理业务需求的类。Adapter:适配器,转换器,通过继承或者引用适配者的对象,把适配者接口转成目标接口3 uml图4 demopa

2020-08-04 22:05:57 220

原创 spring mvc的几种使用方式1

1将请求映射到方法上//get方式的rest风格请求,路径带有参数@RequestMapping("/accounts/{username}")//使用正则表达式@RequestMapping("/accounts/{username:.*}"//根据foo参数的有无匹配请求@RequestMapping(parameters="foo")@RequestMapping(paramete

2017-05-10 22:54:04 580

转载 GBDT和随机森林的区别

1背景 以前把这两个搞混了2随机森林 说道随机森林就要提bagging集成方法。bagging才用有放回的抽样。下图时bagging的示意图。 随机森林是bagging的一种扩展,在k个数据集选择的时候后,引入了随机属性选择。加入所有属性个数为d,k是随机选择的属性个数。那么k=d的时候,就没有改变。那么k=1的时候后,随机选择一个属性用于计算。推荐的k=log2d. 随机森林的基学习器

2017-04-17 10:38:59 3673

原创 kryo的速度测试

1背景介绍 这里主要想测试一些spark的优化方式之一的kryo。场景为通过数1000w的数据,通过日期分组,求一个点击字段的sum。使用了kryo和没使用kryo的时间对比。这里由于环境限制,主要是使用到了kryo在各个机器之间的传输序列化(这里是内网很快),传入内存序列化,磁盘数据RDD的序列化(这个案列没有用到)。数据格式: id,addtime,deviceNum,itemid,op_t

2017-04-09 10:44:51 1998

原创 SSO的一种方案

今天分享一个解决web开发中的SSO的一种方案。1背景 技术: java,redis,spring,spring mvc,jackson,httpclient,mybatis,mysql。 这里主要以后台服务的概念来实现,这要求前段会把很多效果都写好,后端只注重服务。下面是一个图片的介绍哈。 2要点讲解 所有的返回数据格式为json格式 1sso是一个单独的服务,这里单独抽象出来,功能有

2017-04-07 15:53:39 1124 2

原创 Codis的安装与使用2

一背景 上一篇谢了codis的安装与使用 这里解决以前遗留下来的问题 1修改zookeeper的ip地址,以前是127.0.0.1这里修改为192.168.247.140,因为java代码需要连接zk,需要ip和端口。 2java连接codis的一些坑点,需要配置proxy的jodis才行。一更新配置与启动服务 修改zk配置,全部修改为192.168.247.140 修改dashboar

2017-03-24 12:08:31 2424

原创 Codis的安装与使用

1背景 codis的github地址,里面很全,并且是中文的,但是按照他的步骤还是有些坑哈 https://github.com/CodisLabs/codiscodis是一种基于高可用的redis集群的一种带来,使用go语言编写。被广泛使用到豌豆荚和其他公司。 https://github.com/CodisLabs/codis/releases 可以下载各种版本 codis特点: 图形

2017-03-23 16:13:30 15264 1

原创 redis的集群搭建与添加节点

1背景 参考https://redis.io/topics/cluster-tutorial 官方redis集群创建环境: redis-3.2.8 虚拟机centos6.5 ip:192.168.247.135单机目录,前提已经把redis的单机环境配置过哈 /usr/local/redis集群目录结构,分别代表的是端口号7000-7005 /usr/local/rediscluster

2017-03-21 12:06:39 690

原创 性能测试Jmeter的使用

本次测试使用了分部署服务哈,并且tomcat的接口是从redis取数哈。 1环境 1个mysql数据库,内存1个,cpu 1核 tomcat的web服务器,内存2g,cpu 2核,部署分布式tomcat服务,2个tomcat reids缓存服务器,1g内存,cpu 1核 全部是虚拟机哈: /usr/local/tomcat tomcat1的端口为:8080 tomcat2的端

2017-03-17 23:28:15 4797

原创 open nsfw封装成接口

承接上文:http://blog.csdn.net/wangqi880/article/details/62037078 黄图识别-open nsfw为了使用的方便和提供别人好用,想把open nsfw封装成http形式的接口,别人通过上传图片,就可以得到这图片的nsfw score. 由于本人技术有限,python不太熟悉,自己整理了一套方案如下: 1因为图片需要上传到服务器之后,才能调用py

2017-03-14 12:45:57 4876 1

原创 黄图识别-open nsfw

大楷简介: open nsfw是一款开源的黄图识别的模型。对的,只是模型。并且有有python的代码作为预测图片是否黄图。 https://github.com/yahoo/open_nsfw 这里网址。 open nsfw是雅虎开源项目caffeonspark,使用深度学习训练得到caffe模型。nsfw翻译为不可在工作中看的图片。主要是针对黄图的,恐怖,血腥图片不能识别。 1 快速开始

2017-03-14 10:03:58 55130 2

原创 微信小程序的部署

部署环境: jdk1.7 mysql5.6 tomcat7 centos6.51资料准备 1)linux服务器,推荐使用阿里云,这里预算有限,所以使用了香港的低配服务器。 2)域名,这里是在阿里云平台上申请的,没有申请到cn,因为身份证信息和网上查询的有问题,我是转到学校的,所以没有审核通过。这里使用的是国际域名。通过审核才能用哈。 3)ac证书,这里也是在阿里云平台申请的,一年免费版

2017-03-08 11:56:01 23428 2

转载 Git与Github快速学习上手

一Github的学习和上手资料总结 对于我这种小白来说,git与github以前只听过大名,今天看了一篇博客之后,感觉别人写的很好,这里我大家分享下.看他的博客的话, 大楷2个小时,就基本比较了解git和github,并且可以练习完它的列子。 来自stormzhang从0开始学习 GitHub 系列之「01.初识 GitHub」 从0开始学习 GitHub 系列之「02.加入 GitHub」从0

2016-10-31 23:56:33 454

原创 ntp-实现时间同步

一背景介绍已经安装好crontab和ntp,系统centos6.5,一般不是最小化安装都会有哈。集群一定要搭建时间同步机制,不然运行久了,job运行会非常慢。 二搭建内网NTP服务器,通过此服务器进行时间同步1修改配置文件vim /etc/ntp.conf# For more information about this file, see the man pages# ntp.conf(5),

2016-10-31 17:24:12 3495

原创 shell半自动化部署standalone的spark分布式集群

背景:以前每次配置hadoop和spark都要各种输入配置,太烦了。这次花了点时间,自己做了个shell来辅助自己的spark部署方式。cdh的hadoop没有部署,以后再部署,hadoop和spark准备分开来搞。shell半自动化部署standalone的spark集群一搞定3个虚拟机我是使用的vm来做的三个虚拟机,系统为centos6.5,现在各种系统都支持吧,详细的可以看官网支持哪些系统。

2016-10-20 18:50:10 1758 1

转载 阿里云挂载硬盘

阿里云挂载硬盘挂载硬盘有三步 1)对磁盘格式化 2)格式化之后硬盘挂载到需要的挂载点 3)最后需要添加分区启动表,下次系统启动时自动硬盘挂载图文教程如下 1),查看数据盘在没有分区和格式化数据盘之前,使用df -lh是无法看到 数据盘的,可以使用fdisk -l查看 2)使用命令格式化磁盘 mkfs.ext3 /dev/vdb 下图表示格式化完成 3)格式化之后挂载硬盘,先创建了一

2016-10-08 23:12:19 753 1

原创 centos使用rpm安装mysql

centos使用rpm安装mysql本Markdown编辑器使用[StackEdit][6]修改而来,用它写博客,将会带来全新的体验哦: 环境:centos6.5,mysql5.6mysql5.6安装1下载资源: MySQL-server-5.6.32-1.linux_glibc2.5.x86_64.rpm, MySQL-client-5.6.33-1.linux_glibc2.5.x86_6

2016-10-08 23:05:55 565

翻译 Hive on Spark:起点

翻译自官网: https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started 开始时翻译,后面会出集成的具体步骤。主要是讲了一些概览,spark的参数设置,遇到的问题处理等。少环境的搭建。 spark的安装 配置Yarn 配置Hive 配置Spark 问题 推荐的配置 设计文档 H

2016-01-23 21:44:31 3103 1

翻译 Hive Hbase Integration(hive和habse的集成)

本文档翻译自官网网址 hive hbase integration hbase和hive集成 官方文档 翻译

2016-01-16 15:03:09 1915 1

原创 scala学习-if,while,for,try用法7

scala中if,for,while,try的一些简单用法

2016-01-16 13:58:13 573

翻译 hbase的table设计(翻译官网)-为完成

HBase and Schema Design 从官网翻译的,怎么设计hbase表 32 Schema Creation hbase的schema使用hbase的shell命令和使用JavaAPI的Admin类来创建和更新。在做列簇的修改的时候,必须要是表失效(disabled),最新的貌似不用了。 java的列子,增加一个新列簇,修改一个列簇Configuration config

2015-12-20 20:50:02 867

原创 scala学习-介绍scala的几种特性7

承接上篇,前提条件检查,使用require。 1添加成员变量 记得上篇的时候,使用了类参数的方式来构建主构造函数,但是这是由缺陷的。 现在我们构建一个两个rational相加的操作。class Rational (n:Int,d:Int){ println("i am a class construction~"+n+"/"+d) require(d!=0) override de

2015-11-23 21:22:05 1239

转载 5分钟深入spark运行机制

转载-包子铺里聊it 因为这篇文章说的简单明了,感觉有必要学习下哈…… 其中有写概念我会加入我自己的理解(个人见解啊)。 关键概念 spark的关键就是引入了RDD,resilient distributed datasets概念。其实没有什么太深,你可以把rdd想想成一组数据。 spark把要处理的数据,处理的中间结果,和输出结果都定义成RDD,这样一个场景的spark job就类似:

2015-11-22 21:52:48 1566

转载 百分点苏海波-用户画像的构建与使用2应用

转载自百分点苏海波 上篇写了画像的理论性的知识,这篇学习下应用。 用户画像的具体应用包括售前的精准营销,售中的个性化推荐以及售后的增值服务等。用户的标签纬度和应用是相互相城的关系,一面可以根据现有的标签纬度开发应用,另一方面可以通过应用需求扩展维度,两者互相促进。 我们在这里举的列子分为3类,第一类是售前的精准营销,比如电商客户和企业客户,需要经过精准营销,把站外的用户吸引到你的网站上面来

2015-11-21 13:43:29 4461

原创 scala学习-介绍scala的几种特性6

案例来自于引路蜂 本文介绍完整的定义一个类。定义函数化对象,函数化对象的意思是所定义的类和对象都不包含任何可以修改的状态。还会介绍Scala的几种特性:类参数和构造函数,方法,操作符,私有成员,重载,过载,条件查询,引用自身。 1类定义规范 定义一个有理数的类。有理数的定义:一个有理数可以表示成分数的形式:n/d,其中n和d都是整数,d不能为0。 因此我们定义的个有理数类,Rational类

2015-11-19 22:26:42 1174

原创 scala学习-基本数据类型和简单操作5

1基本数据类型 只要是java的基本数据类型,Scala都支持。不过Scala中的数据类型都是对象,这些基本类型都可以通过隐式自动转化的形式支持更多的方法。隐式自动转换的概念简单的就是,为基本类型提供扩展,比如(引路蜂例子),调用(-1).abs(),-1是Int型,基本类型Int步支持abs方法的,那么Scala就会把-1转化成RichInt类型,然后调用RichInt类型的abs方法。 基本

2015-11-15 19:53:46 1268

原创 scala学习-基本语法4

类和对象2: 前面提到,Scala是面向对象的编程,且Scala不允许保护静态元素-静态方法和静态变量。意思是社么呢,就是我虽然使用Private 定义了变量,在外面我还是可以访问。package org.wq.learnobject CheckSumAccumulator { def main(args:Array[String]):Unit={ val c = new Chec

2015-11-14 13:07:51 571

原创 scala学习-基本语法3

上接scala学习计算开始基本语法2 接上一篇的一点尾巴 第九步:读取文件操作 读取文件中的每行,读取文件,然后每行打印出来,使用相对路径,data目录里放在工程里。import scala.io.Sourceval file = Source.fromFile("data/data_test.txt") for(f<-file.getLines()){ println(

2015-11-14 10:04:30 433

原创 scala学习计算开始基本语法2

上接scala学习开始基本语法1 第五步:数组的使用 在scala中,可以使用new来实例化对象,当你创建一个数组对象的时候,你可以使用数值或者是类型参数。但是在scala中,是使用[]来指明对象,java是使用<>。如下代码package org.wq.learnobject day2 { def main(args: Array[String]): Unit = { val st

2015-11-13 20:27:57 534

原创 scala学习计算开始基本语法1-从今天开始更新

1环境: window linux 我的机子的系统ubonto不能用了,就是用window的eclipse for scala来学习。http://scala-ide.org/ 环境就不说了。linux上可以使用交互命令行,也可以使用eclipse这种ide,intellij idea比较火,但是内存消耗大。这次就步用了。 今天从scala的基本语法开始。 讲之前,要hello,很多语言

2015-11-12 23:30:42 707

一个sso的解决方案

一个sso的解决方案

2017-04-07

shell自动部署spark(免密码+ssh+scala+spark)

自动化部署,spark分布式集群,全过程只需要输入密码即可,部署spark是分分钟的事。参考文章:http://blog.csdn.net/wangqi880/article/details/52875524

2016-10-20

jsp html 路径解决

在写jsp的时候,要注意下路径。本文档中比较详细的介绍了各种路径的处理和实现。但是有点乱

2011-12-07

c++实现背包问题

实现了背包问题的解决方法,利用了回溯法 大学计算的编程的 可以拿来练习下

2011-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除