自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(256)
  • 资源 (6)
  • 收藏
  • 关注

转载 FCM聚类算法介绍

FCM聚类算法介绍FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。1 模糊集基本知识  首先说明隶属度函数的概念。隶属度函数是表示一个对象x隶属于集合A的程度的函数,通...

2018-03-23 17:06:29 10215 1

转载 Redis主从复制

概述一般来说,要将Redis运用于工程项目中,只使用一台redis是万万不能的,原因如下:从结构上,单个Redis服务器会发生单点故障,并且一台服务器需要处理所有的请求负载,压力较大;从容量上,单个Redis服务器内存容量有限,就算一台Redis服务器内容容量为256G,也不能将所有内容用作Redis存储内存,一般来说,单台Redis最大使用内存不应该超过20G。本文先讨论

2017-08-28 17:47:31 628

转载 深度学习参数技巧

1:优化器机器学习训练的目的在于更新参数,优化目标函数,常见优化器有SGD,Adagrad,Adadelta,Adam,Adamax,Nadam。其中SGD和Adam优化器是最为常用的两种优化器,SGD根据每个batch的数据计算一次局部的估计,最小化代价函数。学习速率决定了每次步进的大小,因此我们需要选择一个合适的学习速率进行调优。学习速率太大会导致不收敛,速率太小收敛速度慢。

2017-07-13 19:24:59 2144

转载 kafka在zookeeper中对应目录

Zookeeper DirectoriesThe following gives the zookeeper structures and algorithms used for co-ordination between consumers and brokers.NotationWhen an element in a path is denoted [xyz], that m

2017-07-13 16:17:45 1469

原创 Tensorflow contrib.layers 模块介绍

在tf.contrib.layers内部,有许多产生layer操作及其相关权重和偏差变量的函数。这些大部分都是用来构建不同深度学习架构的。也有些函数是提供归一化,卷积层,dropout层(注:Dropout是在训练过程中以一定概率1-p将隐含层节点的输出值清0),‘one-hot’编码等。下面来粗略浏览一下:tf.contrib.layers.optimizers模块:tf.contr

2017-07-13 15:54:48 14201

转载 Spark core 核心算子优化

算子优化 MapPartitionsspark中,最基本的原则,就是每个task处理一个RDD的partition。MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,functi

2017-03-16 21:27:59 720

转载 Spark常用函数讲解之键值RDD转换

摘要:RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子:        Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住       了数据集的逻辑操作     

2017-03-12 21:21:09 382

转载 SparkStreaming之窗口函数

WindowOperations(窗口操作)         Spark还提供了窗口的计算,它允许你使用一个滑动窗口应用在数据变换中。下图说明了该滑动窗口。如图所示,每个时间窗口在一个个DStream中划过,每个DSteam中的RDD进入Window中进行合并,操作时生成为窗口化DSteam的RDD。在上图中,该操作被应用在过去的3个时间单位的数据,和划过了2个

2017-03-12 10:42:07 745

转载 flume + kafka + sparkStreaming + HDFS 构建实时日志分析系统

搭建前提:Hadoop2.6、spark1.6-hadoop-2.6集群都是正确搭建并可运行一 、需求描述 日志文件预处理:运营商数据  kafka做队列缓冲  flume分发  streaming计算  HDFS存储二、 系统搭建No.1  flume-ng 1.6集群 1.下载安装并配置好flume的运行环境2.编写配置文件# ---

2017-03-10 20:53:15 2011

转载 Hadoop2.0的HA介绍

Hadoop2.0的HA介绍时间 2014-05-03 17:42:25  Linux公社原文  http://www.linuxidc.com/Linux/2014-05/101174.htm主题 Hadoop NFS前一篇文章介绍了Hadoop2.0(hadoop2.0架构,具体版本是hadoop2.2.0)的安装和最基本的配置(见 http://www.l

2017-03-08 21:57:10 384

转载 JS中使用EL表达式

分两种情况1. JS代码在JSP页面中, 这可以直接使用EL表达式. 如:[html] view plain copy print?script type="text/javascript">      $(function () {          new BacklogOverview("${param.al

2017-02-19 20:23:30 401

原创 申论语句

1、我们既要成为现行国际体系的建设者,又要增强规则制定能力、议程设置能力、舆论宣传能力、统筹协调能力,引导国际社会共同塑造更加公正合理的国际新秩序。不论国际形势如何变幻,我们要保持战略定力、战略自信、战略耐心,坚持以全球思维谋篇布局,坚持统筹发展和安全,坚持底线思维,坚持原则性和策略性相统一,把维护国家安全的战略主动权牢牢掌握在自己手中。

2017-02-19 20:20:15 340

转载 JVM调优总结(2):调优方法

调优设置堆大小设置JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制。我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。典型设置:java -Xmx355

2016-12-08 21:15:21 380

转载 JVM调优总结(1):基本垃圾回收算法

数据类型  Java虚拟机中,数据类型可以分为两类:基本类型和引用类型。基本类型的变量保存原始值,即:他代表的值就是数值本身;而引用类型的变量保存引用值。“引用值”代表了某个对象的引用,而不是对象本身,对象本身存放在这个引用值所表示的地址的位置。  基本类型包括:byte,short,int,long,char,float,double,Boolean,returnAd

2016-12-08 21:14:11 316

转载 JVM原理和优化

VM工作原理和特点主要是指操作系统装入JVM是通过jdk中Java.exe来完成,通过下面4步来完成JVM环境.1.创建JVM装载环境和配置2.装载JVM.dll3.初始化JVM.dll并挂界到JNIENV(JNI调用接口)实例4.调用JNIEnv实例装载并处理class类。在我们运行和调试Java程序的时候,经常会提到一个JVM的概念.JVM是Ja

2016-12-08 20:41:03 254

转载 JVM 优化经验总结

Java 虚拟机有自己完善的硬件架构, 如处理器、堆栈、寄存器等,还具有相应的指令系统。JVM 屏蔽了与具体操作系统平台相关的信息,使得 Java 程序只需生成在 Java 虚拟机上运行的目标代码 (字节码), 就可以在多种平台上不加修改地运行。Java 虚拟机在执行字节码时,实际上最终还是把字节码解释成具体平台上的机器指令执行。注意:本文仅针对 JDK7、HotSPOT Java 虚拟机

2016-12-08 20:32:46 384

转载 Spark的位置优先: TaskSetManager 的有效 Locality Levels

在Spark Application Web UI的 Stages tag 上,我们可以看到这个的表格,描述的是某个 stage 的 tasks 的一些信息,其中 Locality Level 一栏的值可以有PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY 几个值。这篇文章将从这几个值入手,从源码角度分析 TaskSetManager 的 Loca

2016-12-08 20:12:00 684

转载 spark rdd checkpoint的用法注意点

/**   * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint   * directory set with `SparkContext#setCheckpointDir` and all references to its parent   * RDDs will be

2016-12-08 07:16:57 529

转载 Spark累加器(Accumulator)陷阱及解决办法

Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示,可以帮助你了解程序运行的情况。Accumulator使

2016-12-08 06:59:32 438

转载 hive数据倾斜原因和解决方法

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2016-12-02 22:45:53 1793

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order byHive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。    这里跟传统的sql还有

2016-12-02 22:44:04 414

转载 hive 分组+组内排序 , 求topN

================================新的实例 更好理解数据:四列的表,第一列id,第二列渠道,第三列系统,第四类访问日期0: jdbc:hive2://hadoop009.dx.momo.com:2181,ha> select * from dc_dev.tmp_row_num;tmp_row_num.muid tmp_row_num.channel

2016-12-02 22:40:27 1085

转载 jvm的工作原理及调优

一、 JVM的生命周期1. JVM实例对应了一个独立运行的Java程序它是进程级别a) 启动;启动一个Java程序时,一个JVM实例就产生了,任何一个拥有public static void main(String[] args)函数的class都可作为JVM实例运行的起点b) 运行;main()作为该程序初始线程的起点,任何其他线程均由该线程启动。JVM内部有两种线程:

2016-12-02 22:27:30 515

转载 Redis配置文件详解(redis.conf)

摘要: # vi redis.conf daemonize yes #是否以后台进程运行 pidfile /var/run/redis/redis-server.pid    #pid文件位置 port 6379#监听端口 bind 127.0.0.1   #绑定地址,如外网需要连接,设置0.0.0.0...# vi redis.confdaemonize yes 

2016-12-02 21:31:30 538

转载 如何区分Oracle的数据库,实例,服务名,SID

在实际的开发应用中,关于Oracle数据库,经常听见有人说建立一个数据库,建立一个Instance,启动一个Instance之类的话。其实问他们什么是数据库,什么是Instance,很可能他们给的答案就是数据库就是Instance,Instance就是数据库啊,没有什么区别。在这里,只能说虽然他们Oracle用了可能有了一定的经验,不过基础的概念还是不太清楚。    什

2016-11-30 19:34:21 728

转载 Redis的Java客户端Jedis的八种调用方式(事务、管道、分布式)介绍

阅读目录一、普通同步方式二、事务方式(Transactions)三、管道(Pipelining)四、管道中调用事务五、分布式直连同步调用六、分布式直连异步调用七、分布式连接池同步调用八、分布式连接池异步调用九、需要注意的地方十、测试十一、完整的测试代码jedis是一个著名的key-value存储系统,而作为其官方推荐的java版客户端jedis也非常强大和稳定,支持事务、管

2016-11-30 19:31:09 277

转载 Redis 常见的性能问题和解决方法

1.Master写内存快照,save命令调度rdbSave函数,会阻塞主线程的工作,当快照比较大时对性能影响是非常大的,会间断性暂停服务,所以Master最好不要写内存快照。 2.Master AOF持久化,如果不重写AOF文件,这个持久化方式对性能的影响是最小的,但是AOF文件会不断增大,AOF文件过大会影响Master重启的恢复速度。 3.Master调用BGR

2016-11-30 19:29:20 334

转载 Redis核心知识之—— 时延问题分析及应对、性能问题和解决方法

参考网址:Redis时延问题分析及应对:http://www.cnblogs.com/me115/p/5032177.htmlRedis常见的性能问题和解决方法:http://www.searchdatabase.com.cn/showcontent_63439.htmRedis主从配置详细过程:http://sofar.blog.51cto.com/353572/8612

2016-11-30 19:27:46 1321

转载 Hive 基础之:分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join

2016-11-30 19:26:15 309

转载 Flume+Kafka+Spark-Streaming的实时流式处理完整流程

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备,四台测试服务器spark集群三台,spark1,spark2,spark3kafka集群三台,spark1,spark2,spark3zookeeper集群三台,spark1,spark2,spark3日志接收服务器, spark1日志收集服务器,Redis

2016-11-30 19:24:50 632

转载 Spark分析窗口函数

Spark1.4发布,支持了窗口分析函数(window functions)。在离线平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,使用方式如下:1、初始化数据创建表[sql] view p

2016-11-30 19:18:24 3179

转载 Kafka+Spark Streaming+Redis实时计算整合实践

转自:http://shiyanjun.cn/archives/1097.html基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.

2016-11-30 19:13:43 502

转载 java 利用Future异步获取多线程任务结果

Future接口是Java标准API的一部分,在java.util.concurrent包中。Future接口是Java线程Future模式的实现,可以来进行异步计算。有了Future就可以进行三段式的编程了,1.启动多线程任务2.处理其他事3.收集多线程任务结果。从而实现了非阻塞的任务调用。在途中遇到一个问题,那就是虽然能异步获取结果,但是Future的结果需要通过isdone来判断是否

2016-11-29 20:45:13 370

转载 Callable<V>、Future<V>详解 | Executor框架

一:关于 Callable的源码Java代码  package java.util.concurrent;    public interface Callable {      /**      * Computes a result, or throws an exception if unable to do so.      *      * @return

2016-11-29 20:34:27 891

转载 深入理解ThreadLocal

学习一个东西首先要知道为什么要引入它,就是我们能用它来干什么。所以我们先来看看ThreadLocal对我们到底有什么用,然后再来看看它的实现原理。ThreadLocal如果单纯从名字上来看像是“本地线程"这么个意思,只能说这个名字起的确实不太好,很容易让人产生误解,ThreadLocalVariable(线程本地变量)应该是个更好的名字。我们先看一下官方对ThreadLocal的描述:该类

2016-11-29 19:51:59 446

转载 大数据Web日志分析 用Hadoop统计KPI指标实例

可以带着下面问题来阅读文章问题:1.MapReduce在日志分析的作用思考:该如何架构kpi系统,需要考虑什么问题。kpi:关键绩效指标法,即KPI绩效考核,是企业绩效考核的方法之一,其特点是考核指标围绕关键成果领域进行选取,均对关键绩效指标考核法的应用及其特点有所介绍。前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访

2016-11-28 21:09:38 11078

转载 hadoop日志分析系统

环境:centos7+hadoop2.5.2+hive1.2.1+mysql5.6.22+indigo service 2思路:hive加载日志→Hadoop分布式执行→需求数据进入MySQL注意:hadoop日志分析系统网上资料很多,但是大多都有写小问题,无法顺利运行,但本文中都是经过亲自验证的,可以一气呵成。另外还包括可能遇到的异常的详细解释及相关解决方案。1) 日志格

2016-11-28 20:51:44 2716

转载 网站日志分析项目案例(三)统计分析

一、借助Hive进行统计1.1 准备工作:建立分区表  为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)hive>CREATE EX

2016-11-28 20:41:13 1038

转载 网站日志分析项目案例(二)数据清洗

一、数据情况分析1.1 数据情况回顾  该论坛数据有两部分:  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。  (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。  图1展示

2016-11-28 20:40:06 1552

转载 网站日志分析项目案例(一)项目介绍

一、数据情况分析1.1 数据情况回顾  该论坛数据有两部分:  (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。  (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。  图1展示

2016-11-28 20:35:12 3523

mybatis教程

mybatis教程源码,非常不错的,涵盖的mybatis的全部知识点。

2015-08-04

j2EE帮助文档

jdk1.6帮助文档,开发者的好工具,查疑解惑。

2015-07-27

jdk1.6 javaSE

jdk1.6,javaSE的帮助文档,帮组开发者的开发工具

2015-07-27

jdk1.7源码

jdk1.7的src文件,用于跟踪源码。

2015-07-27

httpClient4jar包

httpclient是用于web网络开发的重要工具。

2015-07-20

apache-cxf-3.1.1

cxf是用于webservice的开发的框架,可和spring集成开发。

2015-07-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除