自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

积微致著

蚓无爪牙之利,筋骨之强,上食埃土,下饮黄泉,用心一也

  • 博客(57)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark1.6.0+Hadoop2.6.0+Scala-2.11.7 搭建分布式集群

昨天又捣鼓了一下,网上有些写得很不错的教程,自己经过尝试后觉得需要整理一下。 spark的运行模式有多种(见官网和Spark的Standalone模式安装部署):local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程;standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持Zoo

2016-04-09 14:47:08 2121

原创 matlab 单双精度引发的血案

今天在测试一个算法时遇到了少见的问题,觉得值得记录,总结起来,可以用下面几行代码来表示:看到了么,这个数字在加减去1后都是不变的,然而,当bbb不是单精度时,答案就是正确的: 当然,在交互行中直接赋值的变量默认是double类型。这么写只是为了强调数据的格式。matlab在用双精度减(或加)单精度类型时,返回的结果竟然存储格式是单精度的,而单精度的实际有效位数为24位,也就是能够表示的范围最大

2016-04-05 16:02:20 1416

原创 局部敏感哈希matlab代码解读

很早就想写一篇关于LSH的文章,后来发现前辈们已经写好了,容我这里再推荐一下该文。 Locality Sensitive Hashing(LSH)之随机投影法 http://www.strongczq.com/2012/04/locality-sensitive-hashinglsh%E4%B9%8B%E9%9A%8F%E6%9C%BA%E6%8A%95%E5%BD%B1%E6%B3%95.h

2016-03-17 21:19:34 5369 3

原创 远程桌面环境Xfce4中Tab键失效的解决方法

可以发现是因为和切换窗口的热键冲突,删除该快捷键就可以了 方法是在终端中输入: xfwm4-settings 即xfce4 window manager的简称。 随后如图所示,选择switch windows for same application中的清除即可。

2016-03-04 09:19:56 892

翻译 spark下线性模型 spark.mllib

我还是参考官方的文档来写这个部分,顺便梳理下原理,给出对应代码及运行结果,一点也不复杂。数学公式许多的机器学习的算法实际上可以被写成凸优化的问题,比如说寻找凸函数ff的极小值,它取决于权重向量w,那么我们可以将优化目标函数写成: 这里xi∈Rdx_i \in R^d是训练数据,yi∈Ry_i \in R是它们对应的标签,线性方法可以表示成L(w;x,y)L(w;x,y),有几类mllib中的分

2016-02-16 16:29:56 3204

原创 Scala数组相关的操作

数组这一章需要注意的要点是:若长度固定则使用Array,若长度可能有变化则使用ArrayBuffer提供初始值时不要使用new用()来访问元素用for(elem <- arr)来遍历元素用for(elem <- arr if …) … yield … 来将原数组转型为新数组Scala数组和Java数组可以互操作;用ArrayBuffer,使用scala.collection.JavaC

2016-02-05 21:26:41 3043

原创 快学Scala练习题答案-第2章

scala运行在java虚拟机上,它在拥抱函数式编程的同时,又没有废弃面向对象,这是一种全新的编程范式。本文的内容为基本的控制结构和函数一章的答案。 一个数字如果为正数,则它的signum为1,如果为负数,则signum为-1,如果为0,则signum为0.编写一个函数来计算这个值。 一个空的表达式{}的值是什么?类型是什么?在scala中,{}块包含一系列表达式,其结果也是一个表达式,块中

2016-02-05 10:38:03 1233

转载 (转)史上最全的Spark综合帖

从博主个人收藏的角度而言,应该是放到印象笔记里一个连接就可以了。 不过考虑到本文实在总结的很好,所以就不辞辛苦搬过来收藏了。 感谢数据联盟网站博主的归纳整理,感谢小林子: http://dataunion.org/2824.html什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce

2016-01-30 00:21:19 426

原创 为什么要超越Hadoop(书摘)

弈者举棋不定,不胜其耦。——左传⋅\cdot襄公应用场景Hadoop并不适用所有类型的应用程序: 如果数据分片是互相关联的,或者需要进行跨数据分片的计算,就很难有效运行在Hadoop上。 比如说,想象下你有多支股票,这些股票在不同时间点有不同的价格,现在需要计算这些股票间的关联度,比如你想预测某只股票什么时候会下跌(虽然在国内不靠谱,但是我还是容易想到AR模型),如果不同块中存储了不同的股票,

2016-01-29 23:23:19 471

原创 Semi-Supervised Affinity Propagation with Soft Instance-Level Constraints 阅读笔记1

太上忘情,最下不及情,情之所钟,正在我辈。 —— 世说新语·伤逝目前AP算法有几个扩展研究方向。 一个是约束聚类的上限数目,比如算法: A Binary variable model for affinity propagation. 2009 ,Neural Comput 允许相似度矩阵的不确定性,或者发生变化: Clutering with uncertainties : An

2015-12-31 22:46:54 741

原创 深入浅出设计模式(1)

故学然后知不足,教然后知困。知不足,然后能自反也;知困,然后能自强也,故曰:教学相长也。——礼记⋅\cdot学记OOD(面向对象设计)如何才算是好的呢?我们可以用GRASP模式原则指导。 GRASP(General Responsibility Assignment Software Patterns)General / 通用的、抽象的、广泛应用的Responsibility/ 责任、义务、

2015-12-31 15:55:33 404

原创 ubuntu权限窗口闪退

在图形界面安装或执行一些操作时需要用到root权限,然而这时权限窗口出现闪退的情况,提示错误为: org.freedesktop.PolicyKit.Error.NotAuthorized: (‘system-bus-name’, {‘name’: ‘:1.159’}): org.debian.apt.install-or-remove-packages这时只需要安装 sudo apt-get

2015-12-22 10:09:48 1726

原创 Multi-Exemplar Affinity Propagation

AP算法存在的固有缺陷是它不能对包含很多子类的category进行建模,而在image categorization, face categorization, 多字体optical character recognition,手写数字分类,每个category可能包含很多子类。 比如说,在自然场景类别可能包含很多主题,比如说,街景中可能包含一些主题,比如road,car,pedestrian,b

2015-12-08 20:22:40 1074 2

原创 安装scipy

直接使用pip更新目前遇到了错误:numpy.distutils.system_info.NotFoundError: no lapack/blas resources found这是因为安装scipy需要安装Blas和lapack, 它们是线性代数必备的库。Blas and lapack are linear algebra packages which will need to be insta

2015-11-28 11:29:16 591

原创 pip使用,由pip安装scikit-learn

pip 是一个安装和管理 Python 包的工具 , 是 easy_install 的一个替换品。Ubuntu14.04 下pip 的安裝方法: sudo apt-get install python-pip 有趣的是,pip 可以透過 easy_install 安裝,而且也會裝到 Scripts 資料夾下。安装套件: pip install PackageName 升级包到当前最新的版本,

2015-11-28 09:23:35 8499

原创 AP算法实现解读

过而不悛,亡之本也。——《左传·襄公七年》上文讲了算法数学表达式,本文就其Matlab实现以及Python实现进行代码解析,重点是理解其应用。 matlab表达式的解读是原论文已经粘贴出来的,所以直接摘抄,希望能在矩阵运算上一探究竟。 python的实现基于sklearn工具包。Matlab 代码解读原数学表达式为: 下面这段代码是论文中给出的示例matlab代码,但是有助于我们了解基本

2015-11-27 19:18:36 6184

原创 剑指offer 66题 下篇

第四十三题:孩子们的游戏(圆圈中最后剩下的数)题目描述 每年六一儿童节,NowCoder都会准备一些小礼物去看望孤儿院的小朋友,今年亦是如此。HF作为NowCoder的资深元老,自然也准备了一些小游戏。其中,有个游戏是这样的:首先,让小朋友们围成一个大圈。然后,他随机指定一个数m,让编号为0的小朋友开始报数。每次喊到m的那个小朋友要出列唱首歌,然后可以在礼品箱中任意的挑选礼物,并且不再回到圈

2015-11-24 21:26:29 674

原创 剑指offer66题 中篇

第二十三题:二叉搜索树的后序遍历序列题目描述 输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历的结果。如果是则输出Yes,否则输出No。假设输入的数组的任意两个数字都互不相同。 解题思路 二叉搜索树的特点,左子树比根结点小,右子树都比根结点大。后序遍历的特点,最后一个数字是根结点。所以我们找到比根结点小的部分,其最后一个数字,应该是左子树的根结点,对于右子树亦然,应该都是比根结点

2015-11-24 19:58:59 820

原创 MySQL学习笔记----创建修改删除表

数据类型mysql中什么数据类型可以存储路径? char, varchar, text, 等数据类型都可以存储路径。但是如果路径中使用”\”符号就会被过滤,所以应该使用”/”或”\”替换”\”。 其中varchar类型的长度是在范围内可变的,因此占用的空间比char类型小。虽然如此char处理的速度比varchar快,对变化长度不大,而查询速度要求较高的字符串类型,最好选择char类型。mysq

2015-11-21 22:26:44 562

原创 对称加密和非对称加密

需于沙,小有言,终吉。 —— 需⋅\cdot九二对称加密和非对称加密属于密码学的范畴。说到密码学可能会想起二战时期的密码破译,我个人会想起伪装者中军统截获中统的几组电波以及假的密码本。事实上,自古希腊时代就已经有将文字写成密文的事例,叫做斯巴达密码棒,古罗马也有凯撒密码。密码学,这里指的是密码编码学(cryptology),而不是密码使用学(cryptography)。 密码使用学: 为了达

2015-11-19 16:07:29 2152

原创 Affinity propagation 近邻传播算法

终日乾乾,与时偕行。 — 周易⋅\cdot乾⋅\cdot文言近邻传播算法是一种基于代表点的聚类方法,它会同时考虑所有数据点都是潜在的代表点,通过结点之间的信息传递,最后得到高质量的聚类。这个信息的传递,是基于sum-product或者说max-product的更新原则,在任意一个时刻,这

2015-11-18 16:27:26 5156

原创 剑指offer 66题(上篇)

惭愧自己断断续续用了一个月才刷完了剑指offer的66题,发现很多题的思路自己已经遗忘,这里就再整理一次。 主要还是以理清算法思路为主,部分题进行适当的补充。感谢牛客网提供了良好的刷题环境和讨论氛围。第一题 二维数组中查找题目描述: 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数

2015-11-15 17:05:10 1088

原创 Hadoop 深入浅出学习记录1

目前活跃的项目有:Common Avro MapReduce HDFS Pig HiveHbaseZooKeeper Sqoop OozieHDFS设计目标very large files 单个文件的大小可以很大,可以达到几百G,文件总的大小可以到T和P级别。streaming 数据获取 一次写,多次读,可以向文件结尾添加新的内容,不允许在中间修改内容

2015-11-13 16:04:10 384

原创 高斯模型EM算法推导

上文可能花了较多的时间在编辑公式,不过对于它们的由来却没有去深究。 第一眼看到一些结论仍然是很诧异的。此文就是用来梳理推导过程的,在参考文献1中其实有一个手写版的比较详尽的推导,不过仅仅推了μ\mu的计算。 先把这几个公式再罗列一遍吧⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪ϕj=1m∑mi=1I{z(i)=j}μj=∑mi=1I{z(i)=j}x(i)∑mi=1I{z(i)=j}Σj=∑mi=1I{z(i)=j}

2015-11-13 15:53:57 635

原创 高斯混合模型EM算法

k-means算法对于数据点和clusters之间的关系,是all-or-nothing的关系,这是一个hard decision,往往会导致的局部最小值,这不是理想的求解。一种常见的做法,是学习这个协方差矩阵,而不是固定它们为单位矩阵。GMM模型及算法流程GMM的全称是Gaussian Mixture Model,即高斯混合模型。 假设我们有一个训练集{x1,...,xm}\{x^{1},...

2015-11-10 22:39:45 2237

原创 ubuntu下使用360wifi2

在百度经验上照做了一次,但是并不成功,后来发现了一个更始祖的版本。 http://www.aichengxu.com/view/19205 随后仍然不能直接使用(据说是android不支持adhoc的方式),遂转向virtualbox+xp。 现记录流程如下:下载linux上的驱动,可以去官网下载,官网驱动不好找,原作者上传到了百度网盘: http://pan.baidu.com/s/1p

2015-11-07 10:47:16 1310

原创 python自然语言处理:NLTK+Ubuntu+Eclipse环境配置

配置环境安装eclipse添加pydev插件 安装完提示重启eclipse首先通过下面的命令安装pip,pip是Python的一个安装和管理扩展库的工具 sudo apt-get install python-pip安装Python开发环境,方便今后编译其他扩展库 sudo apt-get install python-dev 安装missing的包 apt-get update –

2015-11-07 10:27:03 1180

原创 ubuntu TeXStudio 遇到 File `moderncv.cls' not found. 问题

解决方案: 使用apt-cache search 命令可以看到很多包。 可以查询具体moderncv 具体所在的包。hadoop@lucy-desktop:~$ sudo apt-cache search moderncv texlive-latex-extra - TeX Live: LaTeX additional packages随后安装: sudo apt-get install t

2015-11-06 17:09:15 4361

原创 win32 多线程知识点梳理六 IOCP

IOCP的全称就是I/O Completion ports。 虽然名称看上去相似,但是它和APCs 中所用的I/O completion routines 没有任何关联。 IOCP 可以解决目前为止我们看到的所有问题:与WaitForMultipleObjects()不同,这里不限制handles个数。I/O completion ports 允许一个线程将一个请求暂时保存下来,而由另一个线

2015-10-02 23:02:14 907

原创 Win32 线程知识点梳理五

本章整理overlapped I/O 也就是异步I/O(asynchronous I/O)的内容。overlapped I/O + completion ports 常被设计为多线程处理,可在I/O bound的程序中获得高效率。

2015-10-02 17:00:28 448

原创 C++单例模式

很久就想写一篇关于单例模式的文章,感觉自己看了一些资料但是一直没有对思路进行整理。为什么需要单例模式如果希望在系统中某个类的对象只能存在一个,那么单例模式是最好的选择,比如说,你的系统只有一个台打印机,所以你希望打印机的对象个数限定为1,或者你希望你的PC只连接一个键盘,应用程序的日志文件,你希望只有一个实例去操作,Windows 的任务管理器,多线程的线程池设计。详见单例模式常见应用场景如何阻止对

2015-10-02 15:39:33 275

原创 最大的稳定版本号

笔试题思路记录

2015-10-01 23:59:15 434

原创 使用层序遍历序列化和反序列化二叉树

// write your code here cpp#include <iostream>#include <vector>#include <queue>using namespace std;#define LOCALstruct TreeNode { int val; struct TreeNode *left; struct TreeNode *righ

2015-10-01 22:02:58 607

翻译 RPC(译)

本文内容是关于Remote Procedure Calls的一篇overview。什么是RPCRPC提供了一套强大的机制用来构建分布式的、基于客户端-服务器架构的应用。它对传统的本地过程调用进行扩展,这样被调用端不需要与调用段的过程存在于同一个地址空间。通过使用RPC,写分布式系统的程序员们可以避免网络接口的实现细节。RPC的传输独立性(transport independence)将应用

2015-10-01 17:50:31 1257

转载 那些不安全的库函数

C 和 C++ 不能够自动地做边界检查,边界检查的代价是效率。一般来讲,C 在大多数情况下注重效率。然而,获得效率的代价是,C 程序员必须十分警觉以避免缓冲区溢出问题。C语言标准库中的许多字符串处理和IO流读取函数是导致缓冲区溢出的罪魁祸首。我们有必要了解这些函数,在编程中多加小心。一、字符串处理函数strcpy()strcpy() 函数将源字符串复制到缓冲区。没有指定要复制字符的具体数目!如果源字

2015-09-28 16:45:00 814 1

转载 分布式计算学习先验知识

What are some good resources for learning about distributed computing? Why?PrerequisitesUnix shell basics C OS basics Unix Programming http://www.kohala.com/start/ Networking Basics Network

2015-09-27 22:37:29 380

原创 走迷宫的题目

一个迷宫n*m的迷宫格,每格都有一份价值为aija_{ij}的礼物,从左上角开始到右下角(且只能向下和向右),小明可以选择收获路径上的每个单元格的礼物,但必须满足其值比手中所有礼物的价值都要高,也可以选择不拿礼物,一直到迷宫右下角时,小明手中有k份礼物总共有多少种方案。 比如 1 2 2 1 长度为

2015-09-27 21:22:27 1337

原创 最长上升子序列

算法在编程之美上有比较全面的介绍,第一种算法: 时间复杂度O(n2)O(n^2) //假设在前i个元素中,最长的递增子序列长度为LIS[i] //LIS[i+1] = max{1,LIS[k]+1},if for k<=i LIS[i+1]>LIS[k] //总的时间复杂度为o(n2)int LIS2(vector<int>&arr){ vector<int> dp(arr.size(

2015-09-27 21:18:47 294

原创 删除链表中重复的数字

需要注意下,重复的数字可能是首字符,所在在开头增加一个空结点。

2015-09-26 22:04:42 565

原创 编程技巧总结-用位运算表示极大极小值

编程中常常遇到要判断一个序列中的极大值和极小值, 在比较的时候我以前可能从保存第一个位开始,其实可以按照范围给定一个极大值和极小值。C++中,在include limits头文件后,可以使用: numeric_limits<int>::max() numeric_limits<int>::min()其实可以利用位运算,int占用4个字节,因此可以用下面的方法:int int_max=~(1<<

2015-09-25 17:22:31 507

tuneup_utilities 2012注册机

这是个系统优化的软件,功能很好,这是它的注册机,请大家自己在网上下载软件,

2012-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除