ice110956-CSDN博客

原创 SimHash

关键字：字符串降维，汉明匹配，顺序无关基本原理simhash是google用于解决海量数据去重的问题，通过降维到hash_code，在通过降维后的code进行两两匹配。流程如下： - 1、分词，把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重。2、hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“5

2017-03-29 16:21:40 987

原创我又回来了，自己的站点维护太费力了

哈哈，又回到csdn了，高估了自己维护站点的能力，还是csdn配置齐全，blog继续更新。个人站点：http://1.hwcblog.sinaapp.com/ ，后续有经历会再维护的，也欢迎来访。

2014-12-01 12:58:00 1571

原创 [Python]networkx入门

networkx是python的一个第三方包，可以方便地调用各种图算法的计算。通过调用python画图包matplotlib能实现图的可视化。这里简单记录一些networkx的安装，使用。完整的networkx文档在官方页面时又较详细的记载

2014-08-24 15:39:44 12451

线性规划：目标函数与约束条件都是线性的。线性的函数也是凸函数（非严格凸）。那么，线性规划也是在凸集上的凸规划。线性约束的线性就是一个线性方程组，我们解这个方程组得到的解也就是这个规划的可行解。一般来说，约束的秩小于变量个数，即线性方程组有无数个解。假设约束矩阵秩为m，我们取其中的m个线性无关向量为其基向量，设其他的非基向量系数为0，就得到了约束方程A的一个解，称为基解。定理：如线性规划存在可行解，则它必定存在基可行解是最优解。也就是，我们在这些基解中就可以得到最终的最优解。

2014-07-11 19:40:49 2299

原创 [Python]通过websocket与js客户端通信

网站大多使用HTTP协议通信，而HTTP是无连接的协议。只有客户端请求时，服务器端才能发出相应的应答，HTTP请求的包也比较大，如果只是很小的数据通信，开销过大。于是，我们可以使用websocket这个协议，用最小的开销实现面向连接的通信。具体的websocket介绍可见http://zh.wikipedia.org/wiki/WebSocket 这里，介绍如何使用Python，使用websocket与前端js进行通信

2014-06-24 18:17:34 13176 2

转载 cookie 和session 的区别详解

这些都是基础知识，不过有必要做深入了解。先简单介绍一下。二者的定义：当你在浏览网站的时候，WEB 服务器会先送一小小资料放在你的计算机上，Cookie 会帮你在网站上所打的文字或是一些选择，都纪录下来。当下次你再光临同一个网站，WEB 服务器会先看看有没有它上次留下的 Cookie 资料，有的话，就会依据 Cookie里的内容来判断使用者，送出特定的网页内容给你。

2014-06-17 12:11:01 898 1

原创 [Python]socket使用

python socket可以实现socket通信功能，还可以与php, js等程序进行socket通信，达到在网页中嵌入Python程序的目的。 Python中使用socket模块完成socket通信功能，其提供底层的套接字访问接口。项目中，Python通过socket与前端js通信，读入数据，处理后传回。

2014-06-10 14:13:05 5920

原创 git使用入门

git是常用的分布式版本控制系统，每个本地版本都包含整个工程。故在不联网的情况下也能够进行工程。如果在Internet上放一个远端库，就可以作为一个版本服务器，用来充当集中式版本控制的角色。如github这样的网站就提供版本库托管的服务。这里简单介绍git,git的入门使用方法。

2014-06-09 13:10:21 1162

原创分类器效果分析

假设有两个分类器A,B。A在1000个样本的集合上有75%的准确率；B在200个样本的集合上有85%的准确率。我们要怎样评价这两个分类器的效果？这就是这里要讨论的分类器效果分析。我们先假设一个分布，然后用置信区间来比较两个分类器。

2014-06-08 12:43:11 2667

原创决策树扩展

之前写过决策树的一篇blog。这几天看数据挖掘导论发掘一些新的东西，记录下来。增加了过拟合，剪枝，即其他纯度计算方法等内容。

2014-06-07 09:59:27 2068

原创 Tanimoto相似度与Bregman距离

之前写过一篇距离与相似性度量的blog，这里添加两个少见的相似性度量方法，并且再扩展一些东西。Tanimoto系数由Jaccard系数扩展而来。用来计算稀疏非二值不平衡向量的相似性，类似cosine距离Bregman距离是一个数学通式，许多的距离，如欧式距离，KL距离等等都可以有Bregman公式推导而来。

2014-06-06 20:26:36 18379 2

原创 [Python]多线程入门

Python的多线程有两种实现方法：函数，线程类1.函数：调用thread模块中的start_new_thread()函数来创建线程，以线程函数的形式告诉线程该做什么2.线程类：调用threading模块，创建threading.Thread的子类来得到自定义线程类。 def f(name): #定义线程函数 print "this is " + name

2014-06-04 22:07:21 10328

原创 [Python]使用MYSQL

学习Python使用MYSQLdb操作MYSQL数据库

2014-06-04 12:34:47 1319

原创 [Python]linux自定义Python脚本命令

在window下写好的程序配置到Linux上，要实现任意目录下的命令调用。由于初学Linux，这里从文件传输等最基本的方法入手，记录配置的过程中遇到的各种问题。

2014-05-22 17:57:19 3259

原创 [Python]处理压缩文件

这里讨论Python处理如下五种文件：gz tar tgz zip rargz：即gzip，通常只能压缩一个文件。于tar结合起来就可以实现先打包，再压缩。tar： linux系统下的打包工具，只打包，不压缩tgz：即tar.gz。先用tar打包，然后再用gz压缩得到的文件zip：不同于gzip，虽然使用相似的算法，可以打包压缩多个文件，不过分别压缩文件，压缩率低于tar。rar：打包压缩文件，最初用于DOS，基于window操作系统。压缩率比zip高，但速度慢，随机访问的速度也慢。关于z

2014-05-22 16:27:23 12976 1

原创 [Python]BeautifulSoup—HTML解析包

在用Python写爬虫时，一个常见的操作是对抓下的HTML做分析处理，得到想要的内容。一般的方法为使用Python的re库中，用正则表达式来解析文本。不过这种方法适用于所有的文本，而针对于特定格式的文本，如这里的HTML，BeautifulSoup更具有针对性，使用起来也更方便。BeautifulSoup可以解析HTML，XML等文件，这里只说明其解析HTML的功能。 Beautifu

2014-05-19 14:07:44 3288

原创 [Python]Google翻译小程序

用Python写的Google翻译小程序

2014-05-17 20:31:45 2827

原创 [Python]南邮OJ代码备份爬虫

之前看过Python学习的经验，说以工程为导向学习。自己分析了一下，一般接触Python的都有一定的其他语言基础，对于程序设计的基本逻辑，语法都有一个大概的了解。而Python这种脚本语言，没有过于独特的语法，在一定的其他语言的基础上，更是可以直接上手的。之前看Python简明教程，半天没有进度。正好遇上Python爬虫项目，直接上手，方便快捷。网站：http://acm.njupt.edu.cn/welcome.do?method=index，正值系统更新，于是写一个备份代码的爬虫。

2014-05-17 20:29:45 1778

原创 Linux安装vsftp

Vsftpd 即very secure ftp。是在类UNIX操作系统上运行的服务器，是一种守护进程，即开机即运行，关机结束的后台进程。Vsftp的特性· 非常高的安全性需求· 带宽限制· 良好的可伸缩性· 创建虚拟用户的可能性· IPv6支持· 中等偏上的性能· 分配虚拟 IP 的可能性· 高速

2014-04-16 21:01:25 1168

原创在线学习

一般的算法当中，我们有一个训练模型的集合。通过假设，拟合得到模型。而在在线学习模型中，我们是在一个不断扩充的集合中不断训练，不断改变模型参数。这种方法适用于许多在线训练的场景，边测试，边训练，不断优化模型。也就是，每回在线地加入新样本，然后更新模型。根据这种方法只用于训练的，也就是随机下降的方法。边测试，然后把之后得到的真实结果再加入训练集训练，就是在线学习。比如我们预测前一天的天气对第二天穿衣的影响。过了那天之后，原先的测试数据可以转化为训练数据，更新数据集。

2014-04-16 18:27:36 1397

原创特征选择

特征选择是一种特殊的模型选择方法。考虑一种情况，当样本维数n远大于样本个数m的时候，根据经验风险与结构风险的关系样本维数n很大，那么即使是用最简单的线性回归，模型的VC维也能达到O(n)。样本数量m很小，也会导致模型过拟合。处理这种情况，由于VC维很难再降低了，而样本数的增加也是受限制的，我们选择减小样本维数。一种方法是PCA，LDA等模式识别中常见的方法，类似小波变换，求得线性高能量子空间。还有一种就是这里要论述的特征选择。

2014-04-12 22:32:25 2007

原创交叉验证

之前的blog讨论过经验风险与结构风险之间相互限制的关系。http://blog.csdn.net/ice110956/article/details/14002791我们在相同VC维的模型中，选择经验风险最小的模型，能够得到与真实风险误差有一定上限的结果，即这种策略的结果可控，虽然不是最优的。那么，在不同的VC维模型中，比如遇到一个分类问题，是使用SVM，贝叶斯，还是决策树？这时候如何选择呢？一个常见的方法就是交叉验证。交叉验证就是把训练样本的一部分独立出来作为测试样本，用这时候的测试误差来估计

2014-04-11 21:58:08 2591

原创 SVM(二)——宽松SVM

之前的SVM（http://blog.csdn.net/ice110956/article/details/23436171）推导前提条件是样本线性可分，或者至少在高维空间中线性可分。但是许多情况下，并不是高维可分的。还有一种情况，由于一小部分的离群点导致SVM的结果相差很大。为了解决高维线性不可分，以及离群点影响过大的情况，放宽约束，并加入惩罚项，从而构造错分可容忍，离群点鲁棒的宽松SVM方法。在解的时候，使用坐标迭代求解的坐标上升法，每次更新两个变量，虽然增加了迭代次数，但是使得每次都求解相对容易

2014-04-11 13:31:26 1336

原创 SVM(一)

SVM（support vector machine，支持向量机）是最好的分类模型之一。通过寻找高维空间上的超平面，把样本分隔为两类，并且计算复杂度并没有因为高维映射而增加。这篇blog从间隔的定义出发，以最优化的形式定义SVM的最大间隔分类问题。在KKT条件下，一个不好解的最优化问题可以转化为其对偶规划求解。SVM运用对偶规划，能够得到关于样本的内积形式。核方法是一种以核函数替代高维点积，而时间复杂度不提高的方法。在SVM中，通过对偶规划得到内积形式后，运用核函数，我们得到高维空间的线性可分的分类器

2014-04-11 13:12:05 1912

原创朴素贝叶斯模型

在生成学习算法中，特征向量是连续值，从而我们假设一个连续分布，来拟合P（x|y）。如果x是离散的并且维数很大又该怎么处理？以文本分类为例子，引出朴素贝叶斯方法。考虑分类邮件的例子。我们要通过邮件中的文本，来建立模型，从而把垃圾邮件与正常邮件区分开开来。而邮件一般由文字组成，我们要把这些文字提取作为邮件的特征。一个简单的方法就是建立字典，每一维代表一个字母是否出现，于是每个邮件可以提取得到基于此的特征向量。如果我们选择一个5000个单词的字母表，那么邮件的特征便为5000维。根据生成模型的方法，我们要假

2014-04-07 11:27:02 2204 1

南邮acm一键备份

南邮acm备份

。NET框架文件，用于运行。NET框架

CLBP人脸识别程序及运行结果

计算机图形学学习课件

空空如也