好多鱼哦-CSDN博客

原创 matlab中libsvm的svmtrain函数用法

这里的LIBSVM是一个由台湾大学林智仁(Lin Chih-Jen)教授等开发的SVM模式识别与回归的软件包，使用简单，功能强大，本文主要介绍其在Matlab中的使用。注意不是matlab自带的svm实现函数，自带的svm实现函数仅支持分类问题，不支持回归问题；而libsvm不仅支持分类问题，亦支持回归问题，参数可调节，功能更强大。libsvm的配置很简单，只需要下载高级版本的matlab

2016-12-06 21:39:46 50855 3

原创处理缺失值的方法

数据清理中，处理缺失值的方法有两种：删除法：1）删除观察样本 2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除 3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析 4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同

2016-09-13 16:44:51 9021

原创序列挖掘算法比较

AprioriAll + GSP + FreeSpan + PrefixSpan1.基本概念AprioriAll算法属于Apriori类算法，其基本思想为首先遍历序列数据库生成候选序列并利用Apriori性质进行剪枝得到频繁序列。GSP（generalized sequential pattern）算法是AprioriAll算法的扩展算法，不同在于GSP引入了时间约束、滑动

2016-09-13 16:26:57 2628

原创 194. Transpose File

Given a text file file.txt, transpose its content.You may assume that each row has the same number of columns and each field is separated by the ' ' character.For example, if file.txt has th

2016-09-03 18:56:20 631

原创 5. Longest Palindromic Substring

Given a string S, find the longest palindromic substring in S. You may assume that the maximum length of S is 1000, and there exists one unique longest palindromic substring.Subscribe to see w

2016-09-03 16:18:43 329

原创 338. Counting Bits

Given a non negative integer number num. For every numbers i in the range 0 ≤ i ≤ num calculate the number of 1's in their binary representation and return them as an array.Example:For num =

2016-09-01 10:16:08 266

原创基于物品的协同过滤算法

场景：猜你喜欢数据量：大数据架构检验：准确率、召回率、覆盖率、流行度步骤：构建物品的同现矩阵建立用户对物品的评分矩阵同现矩阵*评分结果=矩阵计算结果选择结果列向量中最大的未评价的推荐具体实现：Hadoop+Mahout（数据模型、相似度、近邻、推荐、评分）测试数据集：rating.csv3列：用户ID，图书ID，评分数据记录数：4000次评

2016-08-30 00:14:55 734

原创图形推理

现在好多公司面试前都喜欢搞行政测试，尤其是图形推理。图形推理主要有以下几类：(一)数量类若一组图形中每幅图的组成较为凌乱，但局部显示有一定的数量变化。对于有这样特点的图形，通常从数量的角度来进行解题。重点仍然集中在点、线、角、面、素。例如：每列线的数量，选A。(二)位置类对于位置类图形推理题，一般来说，一组图形中元素个数完全相同，不同的是

2016-08-24 18:45:29 1160

原创机器学习基础

1.向量偏导公式2.标量对向量求导3.线性回归极大似然求解参数解析式->扰动解析式 4.梯度下降法求梯度批量梯度下降算法随机梯度下降算法5.Logistic回归参数求解与线性回归形式相同。

2016-08-23 13:51:38 304

原创数据仓库的基本架构

数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（ Decision Support）。数据仓库的基本架构主要包含的是数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用：数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是 ETL （抽取 Extra, 转化 Transfer, 装载 Load）的过程， ETL 是数据仓库的流水线

2016-08-22 17:01:38 2292

原创大数据挖掘笔记2——PageRank

1.PageRankPageRank是一个函数，为Web中每个网页赋予一个实数值。PageRank值越高，越重要。Web转移矩阵：描述随机冲浪者下一步的访问行为。网页数目为n，则M为一个n*n的方阵。网页j有k条出链，则对链向网页i的元素值Mij=1/k。第一列表示处于A的随机冲浪者将以1/3的概率访问其他3个网页。随机冲浪者位置的概率分布可以通过n维列向量描述，第j个分量代表

2016-08-21 15:53:04 1477

原创大数据挖掘笔记

1、度量给定词语在少数文档中的重要性：TF.IDF得分其中：tfij指词项i在文档j的词项频率，idfi指词项i在文档集中出现的逆文档频率。词项频率：逆文档频率：例如：文档集有2^20篇文档，w在其中2^10篇中出现，在文档k中，只出现1次，该文档任一赐予做多出现20次。于是有：tf(w,k) = 1/20, idf(w) = log(2^20/2^10) = 1

2016-08-20 22:33:16 587

原创 FP-growth算法

当搜索引擎输入一个单词的时候，会自动补全查询词项。用的就是FP-growth算法，一种用来高效发现频繁集的方法。比Apriori算法更快。应用：用于识别经常出现的元素相，制定决策、推荐元素或进行预测等。任务：将数据集存储在一个特定的称作FP树的结构之后发现频繁项对，即常在一块出现的元素项的集合FP树。执行速度比Apriori性能要好两个数量级以上。每次增加频繁项集的大小，Apriori

2016-08-18 19:01:56 771

原创 Static变量的作用

C++的static有两种用法：面向过程程序设计中的static和面向对象程序设计中的static。前者应用于普通变量和函数，不涉及类；后者主要说明static在类中的作用。1.面向过程设计中的static1.1静态全局变量在全局变量前，加上关键字static，该变量就被定义成为一个静态全局变量。静态全局变量有以下特点： • 该变量在全局数据区分配内存； • 未经初始化

2016-08-15 21:43:59 323

原创一定要看的几个问题（无序）

1.统计学习相关知识模型、策略、算法、logistic、SVM、决策树、KNN及各种聚类方法能写出核心伪代码和优化表达式、算法（梯度下降、牛顿法、随机搜索算法（基因、蚁群等））2.hadoop、python3.项目：ctr、搜索、广告、垃圾过滤、安全、推荐系统等4.推荐：各类协同过滤的好与坏5.LDA：共轭分布。6.Top-N推荐问题7.MapReduce模型

2016-08-13 17:56:55 817

原创数据挖掘面试常见的问题

一、进程与线程的区别，线程的缺点进程和线程都是由操作系统程序运行的基本单元，系统利用该基本单元实现系统对应用的并发性。区别在于：简而言之，一个程序至少有一个进程，一个进程至少有一个线程。线程的划分尺度小于进程，使得多线程程序的并发性高。另外，进程在执行过程中拥有独立的内存单元，而多个线程共享内存，从而极大地提高了程序的运行效率。线程在执行过程中与进程还是有区别的。每个独立的

2016-08-13 11:31:59 1315

原创 Python线程使用

一般创建threading.Thread的子类来包装一个线程对象import threadingimport timeclass timer(threading.thread): def __init__(self,num,interval): thredaing.thread__init__(self) self.thread_num = num self.interval

2016-08-12 21:50:24 307

原创 188. Best Time to Buy and Sell Stock IV

Say you have an array for which the ith element is the price of a given stock on day i.Design an algorithm to find the maximum profit. You may complete at most k transactions.Note:You may

2016-08-11 21:57:45 436

原创 c++一些用法小结（排序+数据结构）

1、各种排序算法的复杂度与稳定性：2、各数据存储结构的运行速度、存储效率及应用场景运行速度存储效率适用场景数组快高查找、矩阵操作链表较快较高频繁增删改、动态分配内存队列较快较高任务调度栈一般较高递归改写树较快一般层次关系描述

2016-08-10 16:46:25 295

原创 Apriori算法小结

1、Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成挖掘频繁项集。2、步骤：1).依据支持度找出所有频繁项集（频度）2).依据置信度产生关联规则（强度）3、概念对于A->B①支持度：support = P(A ∩B)，既有A又有B的概率②置信度：P(B|A) = p(AB)/P(A)，在A发生的事件中同时发生

2016-08-10 10:39:07 1951

原创各聚类算法比较

聚类的目标是使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。1.基于划分：给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K特点：计算量大。很适合发现中小规模的数据库中小规模的数据库中的球状簇。算法：K-MEANS算法、K-MEDOIDS算法、CLARANS算法2.基于层次：对给定的数据集进行层次似的分解，直到某种条件满

2016-08-09 21:57:16 4001

原创 c++字符串转数字的方法

1.stoi函数string ss;int temp = stoi(ss);2. stringstream类stringstream ss;ssint temp;ss>>temp;3.减法string ss;int temp = ss - '0';

2016-08-07 16:13:05 788

原创 Random Forest和Gradient Boosting调参小结

先补充一下相关概念：Bagging对样本重采样，对每一重采样得到的子样本集训练一个模型，最后取平均，降低模型的 variance。Boosting 则是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行加权，所以随着迭代不断进行，误差会越来越小， bias 会不断降低。bagging中的模型是强模型，偏差低，方差高。目标是降低方差。在bagging中，每个模型的b

2016-08-04 22:12:59 2858

原创 OJ在线判题注意事项（C++版）

1.正确处理输入格式常见的输入格式预先不输入数据的组数预先输入数据的组数一组数据应对措施读到文件结尾读数据组数然后循环直接读数据代码while (cin>>a>>b) { cout<<a + b<< endl;}cin<<n;for (int i = 0; i < n; i++) { int a, b; cin>>a>>b; cout<<

2016-08-04 16:50:29 2034

原创堆排序算法

堆实际上是一棵完全二叉树，其任何一非叶节点满足性质： Key[i]=Key[2i+1]&&key>=key[2i+2]堆排序的思想:利用大顶堆(小顶堆)堆顶记录的是最大关键字(最小关键字)这一特性，使得每次从无序中选择最大记录(最小记录)变得简单，很适合求解top k.其基本思想为(大顶堆)： 1)将初始待排序关键字序列(R1,R2....R

2016-08-04 10:58:54 192

原创两个排序算法：快排+归并

快速排序算法实现：#includeusing namespace std;void quick_sort(int s[], int l, int r) { int i = l, j = r, mid = s[l]; while(i < j) { while(s[i] < mid) ++i; while(s[j] > mid) --j; if(i <= j) { swa

2016-08-03 11:37:08 410

原创 Hash表算法小结

Hash 表：O(1) 时间数据的插入删除和查找，无序，查找最大数据或者最小数据的时间是 O(N) 。由于存储的数据数量远远大于 hash 表存储单元的数量，所以再好的 hash 函数也可能使不同的数据得到相同的映射位置，这就造成了冲突。但是好的 hash 函数可以将这种冲突降到最低。解决冲突的办法：1.借助链表当产生冲突的时候，将两个数据都链接在同一 hash 存储单元保

2016-08-03 10:10:39 335

You are a product manager and currently leading a team to develop a new product. Unfortunately, the latest version of your product fails the quality check. Since each version is developed based on the

2016-07-31 22:11:17 260

原创 155. Min Stack

Design a stack that supports push, pop, top, and retrieving the minimum element in constant time.push(x) -- Push element x onto stack.pop() -- Removes the element on top of the stack.top() -- Get

2016-07-31 21:56:30 230

原创 7. Reverse Integer

Reverse digits of an integer.Example1: x = 123, return 321Example2: x = -123, return -321思路：反转数字，按位拆解，注意正负号及溢出的问题class Solution {public: int reverse(int x) { long long res = 0

2016-07-31 21:22:13 187

原创 1. Two Sum

Given an array of integers, return indices of the two numbers such that they add up to a specific target.You may assume that each input would have exactly one solution.Example:Given nums =

2016-07-31 19:57:46 218

原创 204. Count Primes

escription:Count the number of prime numbers less than a non-negative number, n.思路：构造大小为n的布尔型vector存储所有小于n的素数情况，将所有的非素数置为true.class Solution {public: int countPrimes(int n) { if (

2016-07-31 19:37:04 174

原创 KMP算法小结

文本串长度为n，模式串长度为m，匹配过程的时间复杂度为O(n)，计算next的O(m)时间，KMP的整体时间复杂度为O(m + n)。步骤：文本串S = “BBC ABCDAB ABCDABCDABDE”模式串P = “ABCDABD”1.寻找P的最长公共元素表（前后缀最长序列长度）失配时，模式串向右移动的位数为：已匹配字符数 - 失配字符的上一位字符所对应的

2016-07-31 16:54:30 1676

原创 28. Implement strStr()

Implement strStr().Returns the index of the first occurrence of needle in haystack, or -1 if needle is not part of haystack.思路：字符串匹配，返回匹配成功的位置，一是暴力匹配，二是KMP算法。暴力匹配class Solution {publi

2016-07-31 15:28:39 231

原创 67. Add Binary

Given two binary strings, return their sum (also a binary string).For example,a = "11"b = "1"Return "100".Subscribe to see which companies asked this question思路：字符串形式“二进制”相加，从低位对应相

2016-07-31 14:56:14 230

原创 14. Longest Common Prefix

Write a function to find the longest common prefix string amongst an array of strings.寻找最长公共前缀。思路：先sort排序，再对第0和第n-1项对比即可。class Solution {public: string longestCommonPrefix(vector &strs) {

2016-07-30 11:14:04 182

原创 190. Reverse Bits

Reverse bits of a given 32 bits unsigned integer.For example, given input 43261596 (represented in binary as 00000010100101000001111010011100), return 964176192 (represented in binary as 001110010

2016-07-30 10:54:24 180

原创 LSH相似网页查找

寻找相似网页：如何快速判断网页的相似度网页文本对比方法：分词后Jaccard相似度一一比对很慢Top N长度的句子，hash成n个签名简单粗暴，准确率和召回率高（80%）Shingle算法原理复杂局部敏感度hash：Simhashgoogle用它完成亿级别的网页去重，汉明距离文档->分词->TF-IDF权重->普通ha

2016-07-29 23:50:12 950

原创 234. Palindrome Linked List

Given a singly linked list, determine if it is a palindrome.Follow up:Could you do it in O(n) time and O(1) space?判断链表是否回文。思路：将后半部分翻转，两个指针分别从头结点和中间的结点向后遍历。/** * Definition for singly-linked

2016-07-29 22:28:13 184

空空如也

空空如也