技术蚂蚁-CSDN博客

转载 FCM聚类算法介绍

FCM聚类算法介绍FCM算法是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。1 模糊集基本知识首先说明隶属度函数的概念。隶属度函数是表示一个对象x隶属于集合A的程度的函数，通...

2018-03-23 17:06:29 10215 1

转载 Redis主从复制

概述一般来说，要将Redis运用于工程项目中，只使用一台redis是万万不能的，原因如下：从结构上，单个Redis服务器会发生单点故障，并且一台服务器需要处理所有的请求负载，压力较大；从容量上，单个Redis服务器内存容量有限，就算一台Redis服务器内容容量为256G，也不能将所有内容用作Redis存储内存，一般来说，单台Redis最大使用内存不应该超过20G。本文先讨论

2017-08-28 17:47:31 628

转载深度学习参数技巧

1：优化器机器学习训练的目的在于更新参数，优化目标函数，常见优化器有SGD，Adagrad，Adadelta，Adam，Adamax，Nadam。其中SGD和Adam优化器是最为常用的两种优化器，SGD根据每个batch的数据计算一次局部的估计，最小化代价函数。学习速率决定了每次步进的大小，因此我们需要选择一个合适的学习速率进行调优。学习速率太大会导致不收敛，速率太小收敛速度慢。

2017-07-13 19:24:59 2144

转载 kafka在zookeeper中对应目录

Zookeeper DirectoriesThe following gives the zookeeper structures and algorithms used for co-ordination between consumers and brokers.NotationWhen an element in a path is denoted [xyz], that m

2017-07-13 16:17:45 1469

原创 Tensorflow contrib.layers 模块介绍

在tf.contrib.layers内部，有许多产生layer操作及其相关权重和偏差变量的函数。这些大部分都是用来构建不同深度学习架构的。也有些函数是提供归一化，卷积层，dropout层（注：Dropout是在训练过程中以一定概率1-p将隐含层节点的输出值清0），‘one-hot’编码等。下面来粗略浏览一下：tf.contrib.layers.optimizers模块：tf.contr

2017-07-13 15:54:48 14201

转载 Spark core 核心算子优化

算子优化 MapPartitionsspark中，最基本的原则，就是每个task处理一个RDD的partition。MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，functi

2017-03-16 21:27:59 720

转载 Spark常用函数讲解之键值RDD转换

摘要：RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

2017-03-12 21:21:09 382

转载 SparkStreaming之窗口函数

WindowOperations（窗口操作） Spark还提供了窗口的计算，它允许你使用一个滑动窗口应用在数据变换中。下图说明了该滑动窗口。如图所示，每个时间窗口在一个个DStream中划过，每个DSteam中的RDD进入Window中进行合并，操作时生成为窗口化DSteam的RDD。在上图中，该操作被应用在过去的3个时间单位的数据，和划过了2个

2017-03-12 10:42:07 745

转载 flume + kafka + sparkStreaming + HDFS 构建实时日志分析系统

搭建前提：Hadoop2.6、spark1.6-hadoop-2.6集群都是正确搭建并可运行一、需求描述日志文件预处理：运营商数据 kafka做队列缓冲 flume分发 streaming计算 HDFS存储二、系统搭建No.1 flume-ng 1.6集群 1.下载安装并配置好flume的运行环境2.编写配置文件# ---

2017-03-10 20:53:15 2011

转载 Hadoop2.0的HA介绍

Hadoop2.0的HA介绍时间 2014-05-03 17:42:25 Linux公社原文 http://www.linuxidc.com/Linux/2014-05/101174.htm主题 Hadoop NFS前一篇文章介绍了Hadoop2.0（hadoop2.0架构，具体版本是hadoop2.2.0）的安装和最基本的配置（见 http://www.l

2017-03-08 21:57:10 384

转载 JS中使用EL表达式

分两种情况1. JS代码在JSP页面中, 这可以直接使用EL表达式. 如:[html] view plain copy print?script type="text/javascript"> $(function () { new BacklogOverview("${param.al

2017-02-19 20:23:30 401

原创申论语句

1、我们既要成为现行国际体系的建设者，又要增强规则制定能力、议程设置能力、舆论宣传能力、统筹协调能力，引导国际社会共同塑造更加公正合理的国际新秩序。不论国际形势如何变幻，我们要保持战略定力、战略自信、战略耐心，坚持以全球思维谋篇布局，坚持统筹发展和安全，坚持底线思维，坚持原则性和策略性相统一，把维护国家安全的战略主动权牢牢掌握在自己手中。

2017-02-19 20:20:15 340

转载 JVM调优总结(2)：调优方法

调优设置堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置：java -Xmx355

2016-12-08 21:15:21 380

转载 JVM调优总结(1)：基本垃圾回收算法

数据类型　　Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。　　基本类型包括：byte,short,int,long,char,float,double,Boolean,returnAd

2016-12-08 21:14:11 316

转载 JVM原理和优化

VM工作原理和特点主要是指操作系统装入JVM是通过jdk中Java.exe来完成,通过下面4步来完成JVM环境.1.创建JVM装载环境和配置2.装载JVM.dll3.初始化JVM.dll并挂界到JNIENV(JNI调用接口)实例4.调用JNIEnv实例装载并处理class类。在我们运行和调试Java程序的时候,经常会提到一个JVM的概念.JVM是Ja

2016-12-08 20:41:03 254

转载 JVM 优化经验总结

Java 虚拟机有自己完善的硬件架构, 如处理器、堆栈、寄存器等，还具有相应的指令系统。JVM 屏蔽了与具体操作系统平台相关的信息，使得 Java 程序只需生成在 Java 虚拟机上运行的目标代码 (字节码), 就可以在多种平台上不加修改地运行。Java 虚拟机在执行字节码时，实际上最终还是把字节码解释成具体平台上的机器指令执行。注意：本文仅针对 JDK7、HotSPOT Java 虚拟机

2016-12-08 20:32:46 384

转载 Spark的位置优先: TaskSetManager 的有效 Locality Levels

在Spark Application Web UI的 Stages tag 上，我们可以看到这个的表格，描述的是某个 stage 的 tasks 的一些信息，其中 Locality Level 一栏的值可以有PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY 几个值。这篇文章将从这几个值入手，从源码角度分析 TaskSetManager 的 Loca

2016-12-08 20:12:00 684

转载 spark rdd checkpoint的用法注意点

/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all references to its parent * RDDs will be

2016-12-08 07:16:57 529

转载 Spark累加器(Accumulator)陷阱及解决办法

Accumulator简介Accumulator是spark提供的累加器，顾名思义，该变量只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task只能对其做增加操作（使用 +=）。你也可以在为Accumulator命名（不支持Python），这样就会在spark web ui中显示，可以帮助你了解程序运行的情况。Accumulator使

2016-12-08 06:59:32 438

转载 hive数据倾斜原因和解决方法

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2016-12-02 22:45:53 1793

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order byHive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有

2016-12-02 22:44:04 414

转载 hive 分组+组内排序 , 求topN

================================新的实例更好理解数据:四列的表,第一列id,第二列渠道,第三列系统,第四类访问日期0: jdbc:hive2://hadoop009.dx.momo.com:2181,ha> select * from dc_dev.tmp_row_num;tmp_row_num.muid tmp_row_num.channel

2016-12-02 22:40:27 1085

转载 jvm的工作原理及调优

一、 JVM的生命周期1. JVM实例对应了一个独立运行的Java程序它是进程级别a) 启动;启动一个Java程序时，一个JVM实例就产生了，任何一个拥有public static void main(String[] args)函数的class都可作为JVM实例运行的起点b) 运行;main()作为该程序初始线程的起点，任何其他线程均由该线程启动。JVM内部有两种线程：

2016-12-02 22:27:30 515

转载 Redis配置文件详解（redis.conf）

摘要： # vi redis.conf daemonize yes #是否以后台进程运行 pidfile /var/run/redis/redis-server.pid #pid文件位置 port 6379#监听端口 bind 127.0.0.1 #绑定地址，如外网需要连接，设置0.0.0.0...# vi redis.confdaemonize yes

2016-12-02 21:31:30 538

转载如何区分Oracle的数据库，实例，服务名，SID

在实际的开发应用中，关于Oracle数据库，经常听见有人说建立一个数据库，建立一个Instance，启动一个Instance之类的话。其实问他们什么是数据库，什么是Instance，很可能他们给的答案就是数据库就是Instance，Instance就是数据库啊，没有什么区别。在这里，只能说虽然他们Oracle用了可能有了一定的经验，不过基础的概念还是不太清楚。什

2016-11-30 19:34:21 728

转载 Redis的Java客户端Jedis的八种调用方式(事务、管道、分布式)介绍

阅读目录一、普通同步方式二、事务方式(Transactions)三、管道(Pipelining)四、管道中调用事务五、分布式直连同步调用六、分布式直连异步调用七、分布式连接池同步调用八、分布式连接池异步调用九、需要注意的地方十、测试十一、完整的测试代码jedis是一个著名的key-value存储系统，而作为其官方推荐的java版客户端jedis也非常强大和稳定，支持事务、管

2016-11-30 19:31:09 277

转载 Redis 常见的性能问题和解决方法

1.Master写内存快照，save命令调度rdbSave函数，会阻塞主线程的工作，当快照比较大时对性能影响是非常大的，会间断性暂停服务，所以Master最好不要写内存快照。 2.Master AOF持久化，如果不重写AOF文件，这个持久化方式对性能的影响是最小的，但是AOF文件会不断增大，AOF文件过大会影响Master重启的恢复速度。 3.Master调用BGR

2016-11-30 19:29:20 334

转载 Redis核心知识之—— 时延问题分析及应对、性能问题和解决方法

参考网址：Redis时延问题分析及应对：http://www.cnblogs.com/me115/p/5032177.htmlRedis常见的性能问题和解决方法：http://www.searchdatabase.com.cn/showcontent_63439.htmRedis主从配置详细过程：http://sofar.blog.51cto.com/353572/8612

2016-11-30 19:27:46 1321

转载 Hive 基础之：分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个Hadoop/Hive/DW RD 必须掌握的部分，之前也有几篇文章聊到过 MR/Hive 中的 join

2016-11-30 19:26:15 309

转载 Flume+Kafka+Spark-Streaming的实时流式处理完整流程

基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备，四台测试服务器spark集群三台，spark1,spark2,spark3kafka集群三台，spark1,spark2,spark3zookeeper集群三台，spark1,spark2,spark3日志接收服务器， spark1日志收集服务器，Redis

2016-11-30 19:24:50 632

转载 Spark分析窗口函数

Spark1.4发布，支持了窗口分析函数(window functions)。在离线平台中，90%以上的离线分析任务都是使用Hive实现，其中必然会使用很多窗口分析函数，如果SparkSQL支持窗口分析函数，那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低，使用方式如下：1、初始化数据创建表[sql] view p

2016-11-30 19:18:24 3179

转载 Kafka+Spark Streaming+Redis实时计算整合实践

转自：http://shiyanjun.cn/archives/1097.html基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.

2016-11-30 19:13:43 502

转载 java 利用Future异步获取多线程任务结果

Future接口是Java标准API的一部分，在java.util.concurrent包中。Future接口是Java线程Future模式的实现，可以来进行异步计算。有了Future就可以进行三段式的编程了，1.启动多线程任务2.处理其他事3.收集多线程任务结果。从而实现了非阻塞的任务调用。在途中遇到一个问题，那就是虽然能异步获取结果，但是Future的结果需要通过isdone来判断是否

2016-11-29 20:45:13 370

转载 Callable<V>、Future<V>详解 | Executor框架

一：关于 Callable的源码Java代码 package java.util.concurrent; public interface Callable { /** * Computes a result, or throws an exception if unable to do so. * * @return

2016-11-29 20:34:27 891

转载深入理解ThreadLocal

学习一个东西首先要知道为什么要引入它，就是我们能用它来干什么。所以我们先来看看ThreadLocal对我们到底有什么用，然后再来看看它的实现原理。ThreadLocal如果单纯从名字上来看像是“本地线程"这么个意思，只能说这个名字起的确实不太好，很容易让人产生误解，ThreadLocalVariable（线程本地变量）应该是个更好的名字。我们先看一下官方对ThreadLocal的描述：该类

2016-11-29 19:51:59 446

转载大数据Web日志分析用Hadoop统计KPI指标实例

可以带着下面问题来阅读文章问题：1.MapReduce在日志分析的作用思考：该如何架构kpi系统，需要考虑什么问题。kpi：关键绩效指标法，即KPI绩效考核，是企业绩效考核的方法之一，其特点是考核指标围绕关键成果领域进行选取，均对关键绩效指标考核法的应用及其特点有所介绍。前言Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访

2016-11-28 21:09:38 11078

转载 hadoop日志分析系统

环境：centos7+hadoop2.5.2+hive1.2.1+mysql5.6.22+indigo service 2思路：hive加载日志→Hadoop分布式执行→需求数据进入MySQL注意：hadoop日志分析系统网上资料很多，但是大多都有写小问题，无法顺利运行，但本文中都是经过亲自验证的，可以一气呵成。另外还包括可能遇到的异常的详细解释及相关解决方案。1) 日志格

2016-11-28 20:51:44 2716

转载网站日志分析项目案例（三）统计分析

一、借助Hive进行统计1.1 准备工作：建立分区表　　为了能够借助Hive进行统计分析，首先我们需要将清洗后的数据存入Hive中，那么我们需要先建立一张表。这里我们选择分区表，以日期作为分区的指标，建表语句如下：（这里关键之处就在于确定映射的HDFS位置，我这里是/project/techbbs/cleaned即清洗后的数据存放的位置）hive>CREATE EX

2016-11-28 20:41:13 1038

转载网站日志分析项目案例（二）数据清洗

一、数据情况分析1.1 数据情况回顾　　该论坛数据有两部分：　　（1）历史数据约56GB，统计到2012-05-29。这也说明，在2012-05-29之前，日志文件都在一个文件里边，采用了追加写入的方式。　　（2）自2013-05-30起，每天生成一个数据文件，约150MB左右。这也说明，从2013-05-30之后，日志文件不再是在一个文件里边。　　图1展示

2016-11-28 20:40:06 1552

转载网站日志分析项目案例（一）项目介绍

一、数据情况分析1.1 数据情况回顾　　该论坛数据有两部分：　　（1）历史数据约56GB，统计到2012-05-29。这也说明，在2012-05-29之前，日志文件都在一个文件里边，采用了追加写入的方式。　　（2）自2013-05-30起，每天生成一个数据文件，约150MB左右。这也说明，从2013-05-30之后，日志文件不再是在一个文件里边。　　图1展示

2016-11-28 20:35:12 3523

mybatis教程

j2EE帮助文档

jdk1.6 javaSE

jdk1.7源码

httpClient4jar包

apache-cxf-3.1.1

空空如也