caohao2008-CSDN博客

转载生成特定分布随机数的方法

贴转载内容前说明：生成指定分布与采样的区别是：采样是不知道数据分布，通过采样来估计或者近似建模分布常用方法有MC采样（蒙特卡洛采样）等方法指定分布生成是，已知指定分布，生成指定分布的随机数常用方法有Inverse Ttransform和Acceptance-Rejection等方法转自： http://blog.csdn.net/pizi0475/article

2017-08-17 10:19:38 2643

原创数据采样后的CTR矫正

一般训练模型时，会做样本的采样。采样后训练的模型，预测的分数相比于采样前会发生变化。可以通过矫正，得到不采样的CTR，也就是预测的CTR

2017-08-16 15:59:54 5743 1

原创结合美团下单率预测详解机器学习中的数据清洗与特征处理

分别发布在美团技术博客,并被csdn转载了。http://tech.meituan.com/machinelearning-data-feature-process.html 机器学习中的数据清洗与特征处理综述 http://www.csdn.net/article/2015-02-10/2823915 结合美团下单率预测详解机器学习中的数据清洗与特征处理

2015-02-12 09:37:42 1021

原创 Spark学习

RDD模型经典论文：https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf

2014-11-01 19:35:12 820

原创线性回归

线性回归目标函数：y=3x+2生成测试数据程序genData.py#!/usr/bin/pythonfori in range(0,100):label= 3*i+20feature= "1:"+str(i)print label,feature生成数据如下201:0231:1261:2291:3321:4351:5

2014-07-28 09:41:19 826

原创程序员与医生的相同之处

主要体现在调bug的时候。中医看病是望闻问切。程序员调bug的望：程序执行出core了。产生了core dump文件。程序员调bug的闻：暂时先不debug core dump文件，先看看程序执行的日志输出，可以快速定位到出core的大体位置。过去看看代码，对程序比较熟悉并且有丰富的编程经验的人基本上这个阶段就可以定位到问题所在。程序员调bug的问：现在就是debug core d

2012-05-04 08:44:05 1009

转载 API Design Principles

API设计原则。转载自：http://wiki.qt-project.org/API_Design_Principles#Six_Characteristics_of_Good_APIsAPI Design PrinciplesFrom QtProjectJump to: navigation, searchOne of Qt's most reputed me

2011-11-22 11:58:21 1796

原创线程不安全函数

这几天调bug，该bug的特点是随机出现，而且不可重现！找了一天之后，终于发现，是因为在多线程函数中用了线程不安全的strtok函数导致的。从网上搜了些资料，多线程环境小心多线程不安全函数:strtok、asctime、ctime、gmtime and soo改成线程安全的函数strtok_r即可。strtok不是一个线程安全的函数，多线程下应该用strtr

2011-11-17 13:31:23 5633

原创 KL散度

KL散度，又称KL距离。详情请见：http://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence下面是转载内容：===========================KL-divergence，俗称KL距离，常用来衡量两个概率分布的距离。根据shannon的信息论，给定一个字符集的概率分布，我们可以设计一

2011-10-27 15:27:29 18993 2

转载如何使用 Yahoo! Finance stock API 获取股票数据

本站曾介绍过，通过代码添加雅虎财经的股票走势图到自己网站的方法（添加美国股市，添加沪深股市），调用的是一张图片。今天在德馨网站，看到了从雅虎财经频道获取股票数据的API（Yahoo! Finance stock API），觉得 API 使用更广泛，作个转引。 1、通过API获取实时数据 请求地址 http://finance.yahoo.com/d/quotes.csv?s=<股票名称>&f=<数据列选项> 参数s – 表示股票名称

2011-05-28 08:38:00 25397

转载 Java程序执行超时——Future接口介绍

版权声明：转载时请以超链接形式标明文章原始出处和作者信息及本声明 http://westyi.blogbus.com/logs/69479773.html 在Java中，如果需要设定代码执行的最长时间，即超时，可以用Java线程池ExecutorService类配合Future接口来实现。 Future接口是Java标准API的一部分，在java.util.concurrent包中。Future接口是Java线程Future模式的实现，可以来进行异步计算。<br

2011-01-16 12:53:00 1253

转载广告模式解释

最近拿到了tb的计算广告的offer(还没有正式决定要不要去),于是调研了下常用的网络广告模式,以下为转文。 ================================================== 一个网络媒体(网站)会包含有数十个甚至成千上万个页面，网络广告所投放的位置和价格就牵涉到特定的页面以及浏览人数的多寡。这好比平面媒体(如报纸)的“版位”、“发行量”，或者电波媒体(如电视)的“时段”、“收视率”的概念。 1.CPM(Cost Per M

2010-11-02 11:20:00 1387

转载百度的实时搜索架构分析

王鹏云：大家下午好，感谢主办方把我安排在第一个演讲，有一个好处，听众还醒着。不过今天的演讲应该是很有吸引力，后面两位都会很精彩，应该大家不会这么轻易的睡着了。我们在交流的时候，刘主编在很早的时候给我们发了一个邮件说这次报名非常踊跃很快达到250了。跟大家开一个玩笑，我们下面开始我今天的主题演讲。 我讲的是实时搜索架构分析，今天大概内容主要是先简单了解一下实时搜索是什么东西，其实实时搜索和传统搜索技术体系基本是一样的，没有太大的变化，简单介绍一下搜索系统基础知识，再把它跟传统搜索区别关键

2010-09-19 10:29:00 6214

原创关于腾讯2010的划词搜索的思考

腾讯2010里新推出的划词搜索，让我非常激动。这项功能可能会大大提升soso的访问量，而且基于这项功能，可以做很多上下文相关搜索和广告推荐的改进。 目前想到的有这么几点： 1.在用户划词搜索时，他选取的应该是在一段话中的一部分内容。而他没选取的内容，并不是没有用的。这些未选取的内容，可以帮助提高检索结果的相关性，使搜索结果更加精确。比如，用户搜索“苹果”，他可能希望搜索的是水果苹果，也有可能想搜索的是苹果公司。这样的查询在一般的网页搜索中是难以准确判定用户查询意

2010-07-28 19:18:00 1374 4

原创民间总结的Google排序特征

原内容见页面：http://www.vaughns-1-pagers.com/internet/google-ranking-factors.htm1. AllegedPOSITIVE ON-Page SEO Google Ranking Factors (38)(Keeping in mind the converse, of course, that when violated, some of these factorsimmediately jump into the NEGATIVE On-Pag

2010-06-27 16:22:00 3601

原创字符，字节及编码

[原创文章，转载请保留或注明出处：http://www.regexlab.com/zh/encoding.htm] 级别：中级 摘要：本文介绍了字符与编码的发展过程，相关概念的正确理解。举例说明了一些实际应用中，编码的实现方法。然后，本文讲述了通常对字符与编码的几种误解，由于这些误解而导致乱码产生的原因，以及消除乱码的办法。本文的内容涵盖了“中文问题”，“乱码问题”。 掌握编码问题的关键是正确地理解相关概念，编码所涉及的技术其实是很简单的。因此，阅读本文时需要慢读多

2010-06-22 18:04:00 749

转载各种开源协议的比较

转载说明：在中国软件行业和知识保护越来越重要的今天，使用开源代码时，要注意他们遵守和要求遵守的协议，以免引起法律争端。 以下内容为转载 现今存在的开源协议很多，而经过Open Source Initiative组织通过批准的开源协议目前有58种（http://www.opensource.org/licenses/alphabetical）。我们在常见的开源协议如BSD, GPL, LGPL,MIT等都是OSI批准的协议。如果要开源自己的代码，最好也是选择这些被

2010-06-22 17:26:00 1255

转载内存泄漏检查工具valgrind使用方法

调试内存问题的工具和技术 动态内存分配看起来似乎非常简单：您可以根据需要分配内存 —— 使用 malloc() 或其变种 —— 并在不需要时释放这些内存。实际上，内存管理的问题是软件中最为常见的 bug，因为通常在程序启动时这些问题并不明显。例如，程序中的内存泄漏可能开始并不为人注意，直到经过多天甚至几个月的运行才会被发现。接下来的几节将简要介绍如何使用流行的调试器 Valgrind 来发现并调试这些最常见的内存 bug。 在开始使用任何调试工具之前，请考虑这个工具是否对重新

2010-06-20 21:44:00 26327

转载 Linux中的swap区

Swap，即交换区，除了安装Linux的时候，有多少人关心过它呢？其实，Swap的调整对Linux服务器，特别是Web服务器的性能至关重要。通过调整Swap，有时可以越过系统性能瓶颈，节省系统升级费用。 　　Swap的原理是一个较复杂的问题，需要大量的篇幅来说明。在这里只作简单的介绍，在以后的文章中将和大家详细讨论Swap实现的细节。 　　众所周知，现代操作系统都实现了“虚拟内存”这一技术，不但在功能上突破了物理内存的限制，使程序可以操纵大于实际物理内存的空间，更重要的是，“

2010-06-20 21:26:00 847

转载 C++中文字符的处理

首先谈谈我的问题，对于非宽字符的字符串string，如果有汉字，那么如何获取汉字字符呢？直接用索引的话只能获取单字节，因此需要处理下，方法如下： wchar_t word = *(wchar_t*)(&(mystring[j])); 对于string对象，要输出其中某个汉字，可以这样 string word(mystring,pos,2)；(原文中第3个参数为pos+1,经过我的测试，应该为2，为截取的长度)//pos为某个汉字的偏移位置，由于汉字占两个

2010-06-20 19:54:00 1307

转载 Introsort

STL 中sort的实现就是用的introsort,是对quicksort的一种改进，因为quicksort在某些情况下会是N^2复杂度。 以下内容为转帖： STL(Standard Template Library)的算法据说是经过精心优化的。那么在它的排序算法方面做了哪些优化呢？ 　　自从快速排序算法出世以后，从平均性能上来说，除了在数据量极少(<=20)的的情况下其性能不如插入排序外，快速算法的性能起码是其他同阶算法的2到3倍，这也已经是教科书里不争的事实。<

2010-06-12 09:57:00 1223

转载 [转]面试算法小记

从分享里找来的，只可惜没早点看到 ++++++++++++++++++++++++++++++++++++++++++ 看来我真的人老珠黄了，这些日子重新拿起算法书，发现思维能力又再次下了一个台阶，成功回到地下一层。翻看一些题目，觉得毫无思路，再一看附近的笔记，我靠，原来这些东西我原来都曾搞定过的。。。赶在十一长假结束，整理了一些零星的算法笔记，顺手都分享了，希望对面试有些帮助。不要相信有一夜壮阳的九阳神功，算法这玩意靠得是一点一滴的积累和思维的磨练。一些所谓的方法和技巧，都只是给面试来只强心

2010-06-07 16:00:00 822

原创小曹谈技术之索引&词典结构

基于散列表的索引结构，全匹配速度快，实现简单，但是不支持部分匹配。基于前缀树，后缀树的索引结构，部分匹配一个前缀树(Prefix tree)的实现http://whiteboxcomputing.com/java/prefix_tree/In addition to the efficiency, triealso provides flexibility in sea

2010-05-05 14:22:00 1906

转载 Viterbi算法（转）

先用一句话来简单描述一下：给出一个观测序列o1,o2,o3 …，我们希望找到观测序列背后的隐藏状态序列s1, s2, s3, …；Viterbi以它的发明者名字命名，正是这样一种由动态规划的方法来寻找出现概率最大的隐藏状态序列（被称为Viterbi路径）的算法。首先从最简单的离散Markov过程入手，我们知道，Markov随机过程具有如下的性质：在任意时刻，从当前状态转移到下一个状态的概

2010-04-20 13:41:00 1213

原创 Lucene索引结构

先转一篇中文的介绍，适合入门级阅读。再转篇Lucene官网的解释。Lucene是一个高性能的java全文检索工具包，它使用的是倒排文件索引结构。该结构及相应的生成算法如下：0）设有两篇文章1和2文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too.文章2的内容为：He once lived in Shanghai.

2010-04-10 10:22:00 1358

转载 AVL树插入和删除源代码

//AVL树的介绍参考>Ellis Horowitz等著，李建中等译P307/* * 2008/07/14 By YaoJianming * * avl tree insert and delete * * */#include #include #define TRUE 1#define FALSE 0int flag = FALSE;str

2010-04-07 15:44:00 1544

转载 B树算法

这个结构一般用于数据库的索引，综合效率较高。另外还有一种与此类似的树结构叫B+树，像 Berkerly DB , sqlite , mysql 数据库都使用了B+树算法处理索引。这两种处理索引的数据结构的不同之处： 1。B树中同一键值不会出现多次，并且它有可能出现在叶结点，也有可能出现在非叶结点中。而B+树的键一定会出现在叶结点中，并且有可能在非叶结

2010-04-07 15:41:00 669

原创小曹谈技术之中文分词

中文分词是中文信息处理的一项基础性技术。与英文不同，中文句子中的词汇之间没有用空格隔开，在对中文信息处理时，第一步就是要对中文句子进行中文分词。要进行中文分词，首先需要一本中文词汇词典。最简单的分词方法就是基于词典的正向最大匹配或者反向最大匹配了。复杂一点的处理方法有将中文分词建模成序列标注问题的，然后使用隐马尔科夫HMM模型或者条件随机场模型CRF来进行分词。另外还有基于概率的，例如使用

2010-03-07 11:10:00 2572

原创小曹谈技术之网络爬虫

网络爬虫，主要作用是信息采集。自己最初接触信息检索系统就是接触的这一块。当时借助于开源的Nutch，构建了一个自己的垂直搜索引擎（中英文词检索）。Nutch中提供了构建一个自己的垂直搜索的所有必需的所有功能：网页爬取，分布式平台，分布式存储(Hadoop implemention of Mapreduce)，网页正文提取(HtmlParser)，倒排索引建立(Lucene)，检索接口提供。当时

2010-03-05 18:10:00 2604

原创小曹谈技术之机器翻译

机器翻译，顾名思义，就是使用计算机来进行语言之间的翻译。机器翻译是一个非常困难的人工智能任务，研究了多年了，目前有一些可行的方法，但是效果还是不能与人工翻译的效果相比。最简单的一个机器翻译系统的实现，就是一个查词表的翻译。例如“我今天在学校吃的午餐”，现在手头上有一个词表，可以得到每个词的翻译。首先分词“我今天在学校吃的午餐”，词表内容“

2010-03-05 12:18:00 2193

原创小曹谈技术之中文拼音输入法

首先说明中文输入法，由于在计算机的输入设备中，输入使用的键盘使用的是ascii码，只能输入英文字符串。中文输入法的作用是将用户输入的英文字符串转换为有意义的中文输入组合，输入计算机。常用的是拼音输入法，这种输入法是将汉字的拼音与英文字母直接映射起来，由于这是一一映射的关系，所以理解起来最直观，也应用的最广泛。其他的还有如五笔输入法，是将汉字的偏旁部首映射到英文字母上去，每个英文字母对应于若干个偏旁

2010-03-04 19:06:00 3283 1

原创 Linux文件系统分析

这是交Linux报告的论文: 部分资料是从IBM提供给我们学院的资料上翻译的. 主要是关于Linux文件系统的,希望对大家了解Linux系统有所帮助. Linux的根文件系统下各个目录的作用:在Linux中文件系统构建和UNIX中差不多，但两者还是有一些小的出入。下图是Linux中文件系统结构的一个示意图：(略) 从上图中我们可以看到在Linux下如下

2010-02-19 20:08:00 973

转载线段树

线段树是用来解决区间覆盖等问题非常好的一个数据结构。转帖一个线段树相关知识，学习学习。 ===================================================================== 线段树入门好久没写过算法了，添一个吧，写一个线段树的入门知识，比较大众化。上次在湖大，其中的一道题数据很强，我试了好多种优化都TLE，相信

2010-01-15 21:59:00 916

原创模拟浏览器抓取网页

使用开源爬虫和wget爬取网页都被robots.txt给block了。自己模拟浏览器行为写了段脚本，这次你封不了我了吧！哈哈！ #!/usr/bin/perl -w #use CGI qw(:standard); use LWP::UserAgent; use HTTP::Request::Common; use HTTP::Request::Common

2009-12-17 11:21:00 3173

转载深入理解abstract class和interface

abstract class和interface是Java语言中对于抽象类定义进行支持的两种机制，正是由于这两种机制的存在，才赋予了Java强大的面向对象能力。abstract class和interface之间在对于抽象类定义的支持方面具有很大的相似性，甚至可以相互替换，因此很多开发者在进行抽象类定义时对于abstract class和interface的选择显得比较随意。其实，两者之间还是有

2009-11-09 09:32:00 472

转载双数组trie树基本构造及简单优化

acm社区(http://www.608088.com/)上的一篇文章，不错。一、基本构造 Trie树是搜索树的一种，来自英文单词"Retrieval"的简写，可以建立有效的数据检索组织结构，是中文匹配分词算法中词典的一种常见实现。它本质上是一个确定的有限状态自动机（DFA），每个节点代表自动机的一个状态。在词典中这此状态包括＂词前缀＂，＂已成词＂等。双数组Tri

2009-11-02 11:39:00 998 1

转载 Tire字典树(zz)

最近接触的字典算法中就用到Tire树，老听他们在说什么双Trie树，今天搜了下Tire树。转载一篇。 Trie树就是字符树，其核心思想就是空间换时间。举个简单的例子。给你100000个长度不超过10的单词。对于每一个单词，我们要判断他出没出现过，如果出现了，第一次出现第几个位置。这题当然可以用hash来，但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词，

2009-10-31 20:41:00 1818

转载用matlab做聚类分析

说明：如果是要用matlab做kmeans聚类分析，直接使用函数kmeans即可。使用方法:kmeans(输入矩阵，分类个数k)。转载一：MATLAB提供了两种方法进行聚类分析：1、利用clusterdata 函数对数据样本进行一次聚类，这个方法简洁方便，其特点是使用范围较窄，不能由用户根据自身需要来设定参数，更改距离计算方法；2、分步聚类：（1）用p

2009-09-19 10:11:00 31538 3

原创发表的专利

去年申请的国家发明专利公布出来了。一种数据检索方法及一种数据检索系统申请号】 CN200710175757.4 【申请日】 2007-10-11 【公开号】 CN101154241 【公开日】 2008-04-02 【申请人】北京金山软件有限公司;北京金山数字娱乐科技有限公司;哈尔滨工业大学【地址】 10

2009-09-11 14:09:00 1104

原创 Java中调用SVM

首先将"libsvm.jar"加载进入项目然后可以使用如下程序调用import java.io.*;import java.util.StringTokenizer;import libsvm.*;/* * 作者：曹浩 * 功能：在Java语言中调用SVM模型对特征文件进行分类。 */public class TestLibsvm{ private static double at

2009-07-28 13:52:00 6567 7

空空如也

空空如也