自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (13)
  • 收藏
  • 关注

原创 ES常用命令

Elasticsearch中信息很多,同时ES也有很多信息查看命令,可以帮助开发者快速查询Elasticsearch的相关信息。_cat$ curl localhost:9200/_cat=^.^=/_cat/allocation/_cat/shards/_cat/shards/{index}/_cat/master/_cat/nodes/_cat/indices/_cat/...

2020-01-15 12:53:03 435

转载 FTRL算法详解

一、算法原理二、算法逻辑三、个人理解从loss function的形式来看:FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上,并施加一个L2正则项。【PS:paper上是没有加L2正则项的】 这样达到的效果是: 累积加和限定了新的迭代结果W**不要离“已迭代过的解”太远**; 因为调整后的解不会离迭代过的解太远,所以保证了每次找到让之前所有...

2019-07-23 15:48:17 1369

转载 IntelliJ IDEA 快捷键终极大全

常用的有fori/sout/psvm+Tab即可生成循环、System.out、main方法等boilerplate样板代码 。例如要输入for(User user : users)只需输入user.for+Tab ;再比如,要输入Date birthday = user.getBirthday()只需输入user.getBirthday().var+Tab即可。代码...

2019-07-09 18:34:28 159

转载 FP-Growth算法详解

转载https://www.cnblogs.com/pinard/p/6307064.htmlFP Tree算法原理总结    在Apriori算法原理总结中,我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两...

2019-07-02 11:21:31 7536 8

转载 FP-Growth 算法

博客园|首页|新随笔|联系|订阅|管理 java实现fp-growth算法 本文參考韩家炜《数据挖掘-概念与技术》一书第六章,前提条件要理解 apriori算法。 另外一篇写得较好的文章在此推荐: http://hi.baidu.com/nefzpoht...

2019-07-02 10:33:17 180

原创 Rabbitmq服务器名中含有逗号

在配置文件中加入RABBITMQ_USE_LONGNAME=true即可解决

2019-05-28 16:32:26 283

转载 Airflow调度系统

Airflow能做什么Airflow是一个工作流分配管理系统,通过有向非循环图的方式管理任务流程,设置任务依赖关系和时间调度。Airflow独立于我们要运行的任务,只需要把任务的名字和运行方式提供给Airflow作为一个task就可以。安装和使用最简单安装在Linux终端运行如下命令 (需要已安装好python2.x和pip):pip install airflowpi...

2019-04-19 14:43:29 1029

转载 RabbitMq常用命令

RabbitMq常用命令一、消息对列常用命令1、启插件rabbitmq-plugins enable rabbitmq_management2、移除服务rabbitmq-service remove3、安装服务rabbitmq-service install4、重启服务rabbitmq-server restart5、启用RabbitMq服务rabbitmq-se...

2019-04-15 14:43:50 280

转载 ALS交替最小二乘法

ALS交替最小二乘法第一部分 算法原理及推导1.1 算法原理介绍背景介绍:ALS是交替最小二乘的简称,在机器学习上下文中,ALS特指使用交替最小二乘求解的一个协同过滤推荐算法。它通过观察到的所有用户给物品的打分,来推断每个用户的喜好并向用户推荐合适的物品。核心假设:打分矩阵是近似低秩的,也就是说一个mn阶的打分矩阵 Rmn 可以用两个小矩阵Xkm和 Ykn的乘积来近似,即:...

2019-04-02 16:02:55 1212

转载 Spark机器学习实战(三)电影评分数据处理与特征提取

Spark机器学习实战(三)电影评分数据处理与特征提取这部分主要讲了进行数据可视化之后如何进行必要的数据处理,原因是原始数据并非完整。随后,我们要从数据中提取出我们需要的特征。使用的数据集依然是MovieLens 100k数据集,平台为Python Spark。文章中列出了关键代码,完整代码见我的github repository,这篇文章的代码在chapter03/mo...

2019-04-01 15:02:16 1847

转载 机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)

机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected]前言:第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学...

2019-03-13 15:35:30 193

转载 使用Spark DataFrame实现基于物品的协同过滤算法(ItemCF)

简书不支持Markdown Math语法,请移步https://glassywing.github.io/2018/04/10/spark-itemcf/简介当前spark支持的协同过滤算法只有ALS(基于模型的协同过滤算法),但ALS算法对于某些特定的问题,效果并不理想,不像mahout提供了各种推荐算法。为了享受到spark在速度上带来的提升同时为满足一些业务需求,遂使用spark构建...

2019-01-25 16:27:30 1835

转载 基于领域的协同过滤算法 : UserCF and ItemCF​​​​​​​

推荐系统 1 基于用户的协同过滤算法(UserCF)1.1 基本思想该算法要计算两个用户之间的相似度,这里的相似度指的是两个用户的兴趣相似度。假设对于用户u和用户v,N(u)和N(v)分别是他们曾经有过正反馈的物品的集合,那么可以通过Jaccard公式来计算u和v的相似度:  或者通过余弦相似度来计算他们的相似度:   举例假设用户A对物品 {a, ...

2019-01-25 16:26:03 756

转载 Cloudera-server迁移

公司集群cloudera-scm-server所在的主机发生了故障,一直重启,需要拿去重做系统,但整个cloudera manager集群不想动,服务也不能停止,需要将cloudera-scm-server迁移到别的主机上面,网上没有找到有关的资料,就记录一下迁移过程。迁移步骤: 准备工作: 1.备份原cloudera-scm-server所在主机上的mysql数据库 2.在新的主节点安...

2019-01-17 18:41:51 352

转载 奇异值分解(SVD)原理与在降维中的应用

 奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量    我们首先回顾下特征值和特征向量的定义如下:Ax...

2019-01-16 17:34:44 338

转载 idea打包jar的多种方式

 这里总结出用IDEA打包jar包的多种方式,以后的项目打包Jar包可以参考如下形式:用IDEA自带的打包形式 用Maven插件maven-shade-plugin打包 用Maven插件maven-assembly-plugin打包用IDEA自带的打包方式:打开IDEA的file -> Project Structure,进入项目配置页面。如下图:点击Artifac...

2019-01-07 15:28:20 526

转载 Hive元数据在MySQL的存储逻辑及关系

 2017年11月01日 10:51:51 A_ChunUnique 阅读数:1037收起个人分类: HiveMySQL在大数据中,很多情况下是将hive的元数据存放在mysql数据库中,通过hive配置的连接字符串:       <property>               <name>javax.jdo.option.ConnectionURL&...

2018-12-18 14:28:33 947

转载 MySQL忘记root密码解决方法

   今天重新装了一遍MySQL,因为用的是免安装的,所以需要重新设置密码,然后一通设置,结果搞得自己也忘了,没办法,只能重新搞一下,这是网上的方法。亲测可用!一.windows下  1.以系统管理员身份运行cmd.  2.查看mysql是否已经启动,如果已经启动,就停止:net stop mysql.  3.切换到MySQL安装路径下:D:\WAMP\MySQL-5.6.36...

2018-12-13 10:54:05 106

转载 如何用cloudera manager接管已有hadoop的cdh版本集群

本文介绍如何搭建cloudera manager去接入已有hadoop组件(cdh),搜索国内资料并无整体介绍,没有任何参考文章可以借鉴;通过大数据qq交流群当中某老师提供的国外某篇cloudera cto的文章得到解决思路,经实验调试可以实现此功能。下面进入本文主题。一、下载必备文件:1.cloudera manager:大部分公司内大数据集群环境都无公网访问权限,针对当前集...

2018-11-28 16:53:16 1503 1

转载 编译安装rsyslog

 安装gcc-c++ 615 yum -y install gcc c++ 616 yum -y install gcc-c++安装libestr、libeewget http://libestr.adiscon.com/files/download/libestr-0.1.10.tar.gz 621 tar xvf libestr-0.1.10.tar.gz ...

2018-09-28 10:01:51 1197

转载 CDH5.X完全卸载步骤

 1. 关闭集群中的所有服务。 这个可以通过clouder manger 主页关闭集群。2. 卸载[root@master ~]# /usr/share/cmf/uninstall-cloudera-manager.sh  [root@slave1 ~]# service cloudera-scm-agent stop[root@slave1 ~]# service c...

2018-09-17 13:13:10 960

转载 性能测试工具--SIEGE安装及使用简介

官方网站http://www.joedog.org/ 概述 Siege是一个多线程http负载测试和基准测试工具。它有3种操作模式: 1) Regression (when invoked by bombardment)Siege从配置文件中读取URLs,按递归方式,逐个发送请求 2) Internet simulation (Siege从配置文件中读取URLs,随机选取URL发送请求) 3) B...

2018-03-12 10:44:59 565

转载 TensorFlow之Mac安装TensorFlow

TensorFlow 底层的图模型结构清晰,容易改造;支持分布式训练;可视化效果好。如果做长期项目,接触较大数据集的话,TensorFlow很适用,而且谷歌也在不断优化完备它,对于使用深度学习朋友,TensorFlow是一个很好的工具。一、 安装TensorFlow谷歌的官网和开源项目都有介绍各个系统的安装和使用(官网:https://www.tensorflow.org/installgit: ...

2018-02-26 18:51:21 310

转载 50道java面试题

不管你是新程序员还是老手,你一定在面试中遇到过有关线程的问题。Java语言一个重要的特点就是内置了对并发的支持,让Java大受企业和程序员的欢迎。大多数待遇丰厚的Java开发职位都要求开发者精通多线程技术并且有丰富的Java程序开发、调试、优化经验,所以线程相关的问题在面试中经常会被提到。在典型的Java面试中, 面试官会从线程的基本概念问起, 如:为什么你需要使用线程, 如何创建线程,用

2018-01-17 15:46:20 619 1

转载 nginx基本操作

nginx 服务器重启命令,关闭nginx -s reload  :修改配置后重新加载生效nginx -s reopen  :重新打开日志文件nginx -t -c /path/to/nginx.conf 测试nginx配置文件是否正确关闭nginx:nginx -s stop  :快速停止nginx         quit  :完整有序的停止ng

2017-12-25 17:41:50 163

转载 kafka 知识点整理

kafka原理解析

2017-11-23 11:07:11 331

转载 redis命令

redis命令

2017-11-20 19:17:29 216

转载 shell编程

shell

2017-11-07 18:04:56 175

转载 spark与storm的对比

spark与storm的对比

2017-09-26 15:52:02 228

转载 Flum+hdfs

关键字:flume、hdfs、sink、配置参数Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channeltypehdfspath写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host}表达式。fi

2017-09-12 15:35:39 431

转载 zookeeper kafka基本配置

1.安装Zookeeper下载: wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz 解压文件到/Usr/local下: tar zxvf zookeeper-3.4.6.tar.gz -C /usr/local 配置文件加入dataDir,文件须自己创

2017-09-04 14:31:58 283

原创 rsyslog omkafka集群配置 后感

这几天为了rsyslog日志检测搞得痛苦难言,将文档中的内容导入kafka中,听起来简单,过程却是十分复杂,走的弯路多,所以就把这几天的辛苦历程记录下来,给需要的同学们。        kafka+zookeeper集群的配置我就不想多说了,配通知后自己新建topic,启动producter输入数据查看consumer有没有数据到处即可;        具体的kafka那几条命令: 

2017-08-29 14:10:37 4018

转载 rsyslog基本介绍

rsyslog 配置简介rsyslog 配置简介2013-12-30Dec 31 22:02:36 linux-64 rsyslogd-2039: imuxsock begins to drop messages from pid 6927 due to rate-limiting Dec 31 22:02:39 linux-64 rsyslogd-2039: imuxso

2017-08-28 11:22:53 2787

转载 rsyslog配置(亲测成功)

rsyslog是一个开源工具,被广泛用于Linux系统以通过TCP/UDP协议转发或接收日志消息。rsyslog守护进程可以被配置成两种环境,一种是配置成日志收集服务器,rsyslog进程可以从网络中收集其它主机上的日志数据,这些主机会将日志配置为发送到另外的远程服务器。rsyslog的另外一个用法,就是可以配置为客户端,用来过滤和发送内部日志消息到本地文件夹(如/var/log)或一台可以路由到

2017-08-24 10:27:58 2684

转载 rsyslog客户端服务端配置与运行

Rsyslog配置文件详解

2017-08-22 16:02:07 6108 1

转载 rsyslog客户端配置

rsyslog是一个开源工具

2017-08-22 15:21:12 1122

转载 技术分享

2014-10-20每日一读每天进步一点云架构和openstack的思考http://www.aboutyun.com/thread-9579-1-1.html1、怎么才能够把云架构设计得好一些呢?2、云建设要解决的问题是什么?3、建设云需要从哪方面来看待?面试题、经验分享及新手问答整理http://www.aboutyun.com/thread-9

2017-07-19 18:06:39 3321

转载 Cloudera的目录配置

1. 相关目录/var/log/cloudera-scm-installer : 安装日志目录。/var/log/* : 相关日志文件(相关服务的及CM的)。/usr/share/cmf/ : 程序安装目录。/usr/lib64/cmf/ : Agent程序代码。/var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。/usr/

2017-07-19 11:15:56 531

转载 CDH5.X完全卸载步骤

//CDH5.X完全卸载步骤# by coco# 2015-01-141. 关闭集群中的所有服务。 这个可以通过clouder manger 主页关闭集群。2. 卸载[root@master ~]# /usr/share/cmf/uninstall-cloudera-manager.sh [root@slave1 ~]# service cloude

2017-07-18 11:18:01 283

ClouderaImpala_JDBC-2.6.15.1017.zip

ClouderaImpala_JDBC-2.6.15.1017.zip,官方文档最新版本The Cloudera JDBC Driver for Hive enables your enterprise users to access Hadoop data through Business Intelligence (BI) applications with JDBC support.

2019-12-18

深度学习+中文版.pdf

深度学习+中文版.pdf,希望对于深度学习的刚兴趣的同学有帮助

2018-05-15

go编程文档

go语言编程开发文档,对于新接触的同学希望有帮助,一起加油。

2018-05-15

Spark 入门之 Scala 语言解释及示例讲解

spark官方文档中文版本,希望对于刚入门的同学有帮助。

2018-05-15

kafka2.12安装程序

kafka2.12安装程序kafka2.12安装程序kafka2.12安装程序kafka2.12安装程序kafka2.12安装程序kafka2.12安装程序

2017-09-18

flume安装程序

flume安装程序 flume安装程序 flume安装程序 flume安装程序 flume安装程序 flume安装程序 flume安装程序

2017-09-18

json所需jar包

json所需jar包

2017-09-18

scala jar

有用

2017-07-26

jdbc连接hive数据库的驱动jar包

对大家有用

2017-07-26

java程序教程 张孝祥

快速提高java编程技巧,内容涉及广泛,适合java学习者的使用。。。

2012-09-25

sql 程序设计

一个完整的SQL程序设计,完整的架构,帮助学生很好的掌握数据库这门语言!

2012-07-24

数据库设计模板

一个数据库模版,希望有用!对于课程实际应用的人员,起到指导作用!

2012-07-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除