笔尖的痕-CSDN博客

转载单例模式的七种写法

转自：http://www.blogjava.net/kenzhh/archive/2013/03/15/357824.html第一种（懒汉，线程不安全）： 1 public class Singleton { 2 private static Singleton instance; 3 private Singleton (){} 4

2017-02-15 21:03:14 610

转载 Keras笔记 -- objective

Keras定义了以下几种objective fuction：(1) mean-squared-error def mean_squared_error(y_true, y_pred): return K.mean(K.square(y_pred - y_true), axis=-1)(2) root-mean-squared-error de

2016-10-01 21:18:58 1432

转载多标签分类（multilabel classification ）

这几天看了几篇相关的文章，写篇文章总结一下，就像个小综述一样，文章会很乱 1、multilabel classification的用途多标签分类问题很常见，比如一部电影可以同时被分为动作片和犯罪片，一则新闻可以同时属于政治和法律，还有生物学中的基因功能预测问题，场景识别问题，疾病诊断等。 2. 单标签分类在传统的单标签分类中，训练

2016-09-30 00:02:09 52274 4

转载文本自动分类

使用机器学习方法做文档的自动分类套路：1.根据每个文件生成该文件的一个特征2.根据特征选择分类器进行文本分类3.(可选)根据 2 步结果，调整参数/特征等示例：数据：搜狗文本分类语料库精简版分类器：朴素贝叶斯编程语言：Python+nltk自然语言处理库+jieba分词库[python]

2016-09-22 17:33:03 1369

转载 nltk-构建和使用语料库-可用于小说的推荐-完整实例

步骤1：构建语料库：[python] view plain copy#!/usr/bin/env python #-*-coding=utf-8-*- #数据源目录(二级目录) sourceDataDir='data' #数据源文件列表 fileLists = []

2016-09-22 16:29:05 3077 3

转载使用sklearn优雅地进行数据挖掘

目录1 使用sklearn进行数据挖掘　　1.1 数据挖掘的步骤　　1.2 数据初貌　　1.3 关键技术2 并行处理　　2.1 整体并行处理　　2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤　　数据挖掘通常包括数据采集，

2016-09-12 18:16:21 4408 2

转载使用sklearn做单机特征工程

目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾3 特征选择　　3.1 Filter　　　　3.1.1 方差选择法　

2016-09-12 16:53:25 1953

转载使用sklearn进行集成学习——实践

目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参？　　2.1 调参的目标：偏差和方差的协调　　2.2 参数对整体模型性能的影响　　2.3 一个朴实的方案：贪心的坐标下降法　　　　2.3.1 Random Forest调参案例：Digit Recognizer　　　　　　2.3.1.1 调整过程影响类参数　　　　

2016-09-12 16:04:07 2110

转载使用sklearn进行集成学习——理论

目录1 前言2 集成学习是什么？3 偏差和方差　　3.1 模型的偏差和方差是什么？　　3.2 bagging的偏差和方差　　3.3 boosting的偏差和方差　　3.4 模型的独立性　　3.5 小结4 Gradient Boosting　　4.1 拟合残差　　4.2 拟合反向梯度　　　　4.2.1 契机：引入损失函数　　　　4.2.2 难题

2016-09-12 15:02:19 1102

转载 xgboost原理及应用

1.背景关于xgboost的原理网络上的资源很少，大多数还停留在应用层面，本文通过学习陈天奇博士的PPT地址和xgboost导读和实战地址，希望对xgboost原理进行深入理解。2.xgboost vs gbdt说到xgboost，不得不说gbdt。了解gbdt可以看我这篇文章地址，gbdt无论在理论推导还是在应用场景实践都是相当完美的，但有一个问题：第n颗树训练时，需

2016-09-09 16:29:16 2487

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据

2016-09-05 14:48:06 1889

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速

2016-09-05 11:40:31 572

原创记录

http://blog.csdn.net/lsshlsw/article/details/49155087

2016-08-22 15:56:16 479

原创国内maven仓库

http://maven.aliyun.com/nexus/content/groups/public

2016-08-22 14:14:14 511

转载主题模型TopicModel：Unigram、LSA、PLSA主题模型详解

http://blog.csdn.net/pipisorry/article/details/42560693主题模型历史：Papadimitriou、Raghavan、Tamaki和Vempala在1998年发表的一篇论文中提出了潜在语义索引。1999年，Thomas Hofmann又在此基础上，提出了概率性潜在语义索引（Probabilistic Lat

2016-08-02 14:46:58 14254

转载 Docker部署私有仓库

今天和大家聊聊Docker的私有仓库。前段时间啊在CentOS6.x上玩Docker的私有仓库，由于https认证的原因，一直没有能解决，最后听群上的一朋友说，换成CentOS 7试试，也别说，最后实验成功啦！所以我建议朋友在玩docker的私有仓库的时候，也能现在CentOS7.x系统上玩，确定对整个过程熟悉后，然后换成你熟悉的6.x的系统，这样也是一个循循渐进的过程吧！

2016-06-02 17:44:56 2883

转载 ClassCastException Log4jLoggerFactory LoggerContex

http://my.oschina.net/u/249914/blog/192987 xception sending context initialized event to listener instance of class ch.qos.logback.ext.spring.web.LogbackConfigListener java.lang.ClassCastExcepti

2016-05-25 11:46:00 1755

原创 CaffeOnSpark in Ubuntu 15.04

check nvidia:lspci | grep -i nvidiacheck gcc:gcc --versioninstall cuda:apt-get install build-essentialll /etc/X11/xorg.confcd /etc/X11mv xorg.conf xorg.conf.bakvim /etc/modprobe.

2016-04-20 23:42:39 1857

转载 Ubuntu 14.04 LTS 版升级到 GCC 4.9.2

sudo add-apt-repository ppa:ubuntu-toolchain-r/testsudo apt-get updatesudo apt-get install gcc-4.9 g++-4.9(保留原来的4.8.2版本，便于快速切换)sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/

2016-04-14 21:14:50 727

原创 spark与elasticsearch整合

org.scala-lang scala-library ${scala.version} compile org.scala-lang scala-compiler ${scala.version}

2016-03-26 02:27:35 8506 3

原创 jedis usage examples

import java.utilimport java.util.Dateimport demo.spark.streaming.utils.RedisClientimport org.junit.{After, Before, Test}import redis.clients.jedis.{Jedis, SortingParams}/** * Created by cao o

2016-03-25 22:42:16 423

转载 GC调优在Spark应用中的实践

摘要：Spark立足内存计算，常常需要在内存中存放大量数据，因此也更依赖JVM的垃圾回收机制。与此同时，它也兼容批处理和流式处理，对于程序吞吐量和延迟都有较高要求，因此GC参数的调优在Spark应用实践中显得尤为重要。Spark是时下非常热门的大数据计算框架，以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库，正在工业界获得越来越广泛的应用。与Hadoop、HBase生态

2016-03-24 17:59:29 411

转载 centos安装redis3.0.0集群

这里创建6个redis节点，其中三个为主节点，三个为从节点。redis和端口对应关系：127.0.0.1:7000127.0.0.1:7001127.0.0.1:7002从：127.0.0.1:7003127.0.0.1:7004127.0.0.1:7005步骤：1,下载redis。官网下载3.0.0版本，之前几的版本不支持集群模式下

2016-03-24 17:06:26 381

原创 prictice

http://www.tuicool.com/articles/QFvARfrhttp://blog.csdn.net/myproudcodelife/article/details/49589627

2016-03-22 00:30:07 839

转载 Install Ganglia on Ubuntu 14.04 Server (Trusty Tahr)

Sponsored LinkGanglia is a scalable distributed monitoring system for high-performance computing systems such as clusters and Grids. It is based on a hierarchical design targeted at federations of

2016-03-15 22:53:12 389

转载 Spark Executor Driver资源调度小结

一、引子在Worker Actor中，每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程，Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGrainedExecutorBackend进程。那么到底是如何分配Execu

2016-03-14 17:04:33 3047

转载 Shuffle的性能调优

1.1.1 spark.shuffle.manager前文也多次提到过，Spark1.2.0官方支持两种方式的Shuffle，即Hash Based Shuffle和Sort Based Shuffle。其中在Spark 1.0之前仅支持Hash Based Shuffle。Spark 1.1的时候引入了Sort Based Shuffle。Spark 1.2的默认Shuffle机制从H

2016-03-14 15:37:43 1862

转载 Spark性能优化的10大问题及其解决方案

Spark性能优化的10大问题及其解决方案问题1：reduce task数目不合适解决方式：需根据实际情况调节默认配置，调整方式是修改参数spark.default.parallelism。通常，reduce数目设置为core数目的2到3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太少，任务运行缓慢。问题2：shuffle磁盘IO时间长解决方式：

2016-03-14 15:17:42 632

转载使用Ganglia监控Spark

在本博客的《Spark Metrics配置详解》文章中介绍了Spark Metrics的配置，其中我们就介绍了Spark监控支持Ganglia Sink。　　Ganglia是UC Berkeley发起的一个开源集群监视项目，主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能

2016-03-13 00:26:59 2821 1

转载 Spark Metrics配置详解

和Hadoop类似，在Spark中也存在很多的Metrics配置相关的参数，它是基于Coda Hale Metrics Library的可配置Metrics系统，我们可以通过配置文件进行配置，通过Spark的Metrics系统，我们可以把Spark Metrics的信息报告到各种各样的Sink，比如HTTP、JMX以及CSV文件。　　Spark的Metrics系统目前支持以下的实例：　

2016-03-13 00:26:18 3201 1

转载 Spark安装部署

集群概述本文章涉及spark安装部署，spark-sql,saprk-shell,streaming等等的应用demo…部署过程详解Spark布置环境中组件构成如下图所示。 Driver Program 简要来说在spark-shell中输入的wordcount语句对应于上图的Driver Program。Cluster Manager 就是对应于上面提到的mast

2016-03-13 00:25:19 2160

原创 DL

http://deeplearning4j.org/zh-index.htmlhttp://deeplearning4j.org/use_cases.htmlhttp://nd4j.org/gpu_native_backends.htmlhttp://deeplearning4j.org/spark.htmlhttp://deeplear

2016-03-11 17:55:47 415

转载 Spark的性能调优

下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。Data Serialization，默认使用的是Java Serialization，这个程序员最熟悉，但是性能、空间表现都比较差。还有一个选项是Kryo Serialization，更快，压缩率也更高，但是并非支持任意类的序列化。Memory Tuning，Java对象会占用原始

2016-03-10 18:02:10 669

转载 Spark性能调优

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】Spark提供了一些基本的Web监控页面，对于日常监控十分有用。1. Application Web UIhttp://master:4040（默认端口是4040，可以通过spark.ui.port修改）可获得这些信息：（1）

2016-03-10 18:00:59 644

转载 Spark的39个机器学习库－英文

Apache Spark itself 1. MLlibAMPLab Spark originally came out of Berkeley AMPLab and even today AMPLab projects, even though they are not in Apache Spark Foundation, enjoy a status a bit

2016-03-10 17:49:55 667

转载 PageRank算法和HITS算法

链接分析在链接分析中有2个经典的算法，1个是PageRank算法，还有1个是HITS算法，说白了，都是做链接分析的。具体是怎么做呢，继续往下看。PageRank算法要说到PageRank算法的作用，得先从搜索引擎开始讲起，PageRank算法的由来正式与此相关。搜索引擎最早时期的搜索引擎的结构，无外乎2个核心步骤，step1:建立庞大的资料库，step2:建立索引库

2016-03-09 15:24:34 5769

转载 Apriori算法

一、Apriori算法简介： Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori（先验的，推测的）算法应用广泛，可用于消费市场价格分析，猜测顾客的消费习惯；网络安全领域中的入侵检测技术；可用在用于高校管理中，根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作；也可用在移动通信领域中，指导运营商的

2016-03-09 15:01:51 969 1

转载 SVM算法

又有很长的一段时间没有更新博客了，距离上次更新已经有两个月的时间了。其中一个很大的原因是，不知道写什么好-_-，最近一段时间看了看关于SVM(Support Vector Machine)的文章，觉得SVM是一个非常有趣，而且自成一派的方向，所以今天准备写一篇关于关于SVM的文章。关于SVM的论文、书籍都非常的多，引用强哥的话“SVM是让应用数学家真正得到应用的一种算法”。SVM对于大部分

2016-03-09 14:24:31 388

转载数据挖掘算法之-关联规则挖掘(Association Rule)

一、关联规则的定义和属性考察一些涉及许多物品的事务：事务1 中出现了物品甲，事务2 中出现了物品乙，事务3 中则同时出现了物品甲和乙。那么，物品甲和乙在事务中的出现相互之间是否有规律可循呢？在数据库的知识发现中，关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说，关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。现

2016-03-07 17:54:03 5062

转载（EM算法）The EM Algorithm

EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实数的函数，如果对于所有的实数x，，那么f是凸函数。当x是

2016-03-07 16:27:07 459