xiaoranone-CSDN博客

原创 markdown 转 pdf

markdown转成pdfinstall pandoc （https://github.com/jgm/pandoc/releases/tag/2.7.2）If you want to create a PDF, you’ll need to have LaTeX installed. (See MacTeX on OS X, MiKTeX on Windows, or install...

2019-04-09 13:15:44 630

原创面试题目: 第一个非重复的字符

面试题目: 第一个非重复的字符面试官: 看你的简历还不错，本科也是学的计算机专业，要不咱们先做道题.我: (瑟瑟发抖)好.面试官: 给你一个字符串，请找出第一个只出现一次的字符.我: 我思考一下，如果不存在只出现一次的字符，返回什么？面试官: 返回空’ '.顺便说一下，字符串中只包含acii码字符.我: (内心独白:这个题目简单啊，可以直接暴力，管他呢，先给出一个暴力解) ok. 我可...

2019-03-28 10:30:22 578

原创简单好用的特征选择器

featselectorfeatselector是一个基于统计分析和模型选择的特征选择器.Github: https://github.com/xiaorancs/feature-select背景特征过多会导致如下后果:引起维数灾难，模型推广能力差特征过于稀疏，模型效果不好很多冗余特征和相关性高的特征，降低模型精度在机器学习任务中，有两大难题:特征提取和选择模型选择和优...

2019-03-04 10:55:57 455

统计学习方法笔记-决策树很多集成学习器，他们的基本模型都是决策树，我们经常提到的gbdt模型，它的基模型就是CRAT树.决策树是什么东西？就是我们平常所说的if-then条件，我们把它组合成树的结构. 决策树中有两种结点，叶子结点和非叶子结点. 其中非叶节点代表的条件，叶子结点表示的实例所属的类别.我们如何生成这个决策树呢，最主要的一点就是选择那个特征作为当前树的分割结点，这就叫做特征选择，...

2019-01-10 21:40:52 601

原创统计学习方法-朴素贝叶斯

统计学习方法-朴素贝叶斯法先提出以下问题:朴素贝叶斯法、贝叶斯公式、贝叶斯估计分别是什么？贝叶斯公式的物理意义什么？贝叶斯网络是什么？朴素贝叶斯法朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立.输入X∈RnX \in R^nX∈Rn空间是n维向量集合，输出空间y={c1,c2,...,cK}y=\{c_1,c_2,...,c_K\}y={c1,c2,...,cK}. 所有...

2018-12-27 11:15:41 303

原创统计学习方法笔记-k近邻

统计学习方法-k近邻k近邻方法是一种惰性学习算法，可以用于回归和分类，它的主要思想是投票机制，对于一个测试实例xjx_jxj, 我们在有标签的训练数据集上找到和最相近的k个数据，用他们的label进行投票，分类问题则进行表决投票，回归问题使用加权平均或者直接平均的方法。算法和模型由于这个模型很容易理解，我们直接给出kNN分类模型其算法伪代码:输入:训练数据T={(x1,y1),(...

2018-12-25 13:23:50 304

原创统计学习方法笔记-感知机

统计学习方法笔记-感知机感知机是一个二分类的监督模型，我们定义输入空间x∈Rnx \in R^nx∈Rn，每一个x都是用向量表示。输出空间y={+1,−1}y=\{+1,-1\}y={+1,−1}. 我们希望通过训练数据集合，学的权重参数w和偏置参数b，有:f(x)=sign(wx+b)f(x) = sign(wx+b)f(x)=sign(wx+b)sign函数是符号函数，表示如下：(1...

2018-12-15 17:13:09 233

原创统计学习方法笔记-概述

统计学习方法笔记缘起统计学习方法是李航博士的经典只作，也是很多学习机器学习的同学入门必备的书籍。这本书结合理论和习题，可深可浅的讲述了机器学习算法的原理。之前也读过一遍这本书，现在之所以写《统计学习方法》笔记，主要是和两个小伙伴有一个学习计划，我们每两周进行一个分享会，然后我们的第一本书选择的就是李航博士的《统计学习方法》。这里主要是整理分享会中的内容，希望对大家有所帮助。统计学习方法概...

2018-12-12 19:56:56 209

原创基础算法-二分查找

基础算法-二分查找二分查找算法是在实践中用的最多的算法之一。因为它简单易懂，效率很高，成为很多程序员的首选。之前我们也看到过很多关于二分查找的文章，例如你真的会二分查找吗？这个看似简单的算法，却有很多需要我们注意的地方，这里我们要思考:什么时候使用二分 ?怎么使用二分 ?二分为什么效率高？二分查找二分查找又名折办查找，是一种简单而且较有效的查找方法。要满足两点：循序结构存储，...

2018-11-29 15:19:42 341

转载各大数据竞赛 Top 解决方案汇总

现在，越来越多的企业、高校以及学术组织机构通过举办各种类型的数据竞赛来「物色」数据科学领域的优秀人才，并借此激励他们为某一数据领域或应用场景找到具有突破性意义的方案，也为之后的数据研究者留下有价值的经验。Smilexuhc（https://github.com/Smilexuhc）在 GitHub 社区对各大数据竞赛名列前茅的解决方案进行了整理，包括纯数据竞赛、自然语言处理（NLP）领域数据赛事...

2018-11-18 11:41:59 5763

原创海量数据处理-字典树和倒排索引

海量数据处理-字典树和倒排索引海量数据处理我们已经提到过分而治之mapreduce，和排序相关的专题，今天我们来看一下之前也有简单介绍过的字典树和倒排索引。倒排索引倒排索引是一种索引方法，常用在搜索引擎中，这个数据结构是根据属性值来确定记录的位置。对于一批文档，我们的属性值就是关键字，对应值是包含该属性的文档的ID或者文化的位置。例如:T0 = {a,b,c}T1 = {a,...

2018-11-16 16:03:56 1523 1

原创海量数据处理-重新思考排序2

海量数据处理－－重新思考排序(2)如今互联网产生的数据量已经达到PB级别，如何在数据量不断增大的情况下，依然保证快速的检索或者更新数据，是我们面临的问题。在之前我们也提到过，然而在大数据处理的技术中，排序起到很重要的作用，可能不是直接使用，要不使用这用划分的思想，或者在小的方面使用到排序的方法，例如在在我们之前提到的Top k问题，用用到了堆排序中堆，在上一节介绍堆排序额时候，我们也给出了一个...

2018-11-08 17:14:31 415

原创海量数据处理-重新思考排序

海量数据处理－－重新思考排序（1）海量数据处理常用技术概述如今互联网产生的数据量已经达到PB级别，如何在数据量不断增大的情况下，依然保证快速的检索或者更新数据，是我们面临的问题。所谓海量数据处理，是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决，或者不能一次性读入内存中。在解决海量数据的问题的时候，我们需要什么样的策略和技术，是每一个人都会关心的问题。今天我们就...

2018-11-05 17:05:53 291 1

原创海量数据处理-Topk引发的思考

海量数据处理–TopK引发的思考三问海量数据处理：什么是海量数据处理，为什么出现这种需求？如何进行海量数据处理，常用的方法和技术有什么？如今分布式框架已经很成熟了，为什么还用学习海量数据处理的技术？什么是海量数据处理，为什么出现这种需求？如今互联网产生的数据量已经达到PB级别，如何在数据量不断增大的情况下，依然保证快速的检索或者更新数据，是我们面临的问题。所谓海量数据处理，是指基...

2018-11-03 12:33:16 599

原创海量数据处理－－从分而治之到Mapreduce

海量数据处理常用技术概述如今互联网产生的数据量已经达到PB级别，如何在数据量不断增大的情况下，依然保证快速的检索或者更新数据，是我们面临的问题。所谓海量数据处理，是指基于海量数据的存储、处理和操作等。因为数据量太大无法在短时间迅速解决，或者不能一次性读入内存中。在解决海量数据的问题的时候，我们需要什么样的策略和技术，是每一个人都会关心的问题。今天我们就梳理一下在解决大数据问题的时候需要...

2018-11-02 19:54:53 1720

原创编程之法之海量数据处理：寻找Top K的热词

题目：有100万个关键字，长度小于50个字节。用有效的算法找出Top 10的热词，要求对内存的占用不超过1 MB。分析：这是大家面试中都被问道的问题，可以直接使用map-reducer直接解决这个问题。如果不能使用这个架构，我们手动实现，也是采用的这个思想，只是这个用文件代替节点。106∗50B=50∗106B=50MB10^6 * 50B = 50 * 10^6B = 50MB106∗...

2018-10-27 21:33:13 553

原创 n个热门物品中，随机选择k个物品

背景：在推荐系统中，都会维护一个热门的物品的list，可能会有很多人在这个list进行添加。有时我们需要从这个list中随机选择k个热门物品返回给用户，现在如何设计一个函数解决这个问题。我们要注意两个问题，list是增加的，对于增加的数据结构，可以选择一个链表作为基础结构，而不能选择数组。要保证每个物品别选择的概率是相同的，即每一个物品选择的概率都是k / n.（n是长度）首先定义链...

2018-09-19 17:21:19 725

原创 AutoEncoder 算法与原理和实现

AutoEncoder是深度学习的另外一个重要内容，并且非常有意思，神经网络通过大量数据集，进行end-to-end的训练，不断提高其准确率，而AutoEncoder通过设计encode和decode过程使输入和输出越来越接近，是一种无监督学习过程。 AutoEncoderIntroduction AutoEncoder包括两个过程：encode和decode，输入图片通过encode进行...

2018-04-20 20:22:28 4473

原创网易2018年实习生春招-编程题

网易笔试题，没有参加，根据网上的题目，自己整理。/** * Author: xiaoran * Time: 03-28 10:30 * Problem by WangYi *//** 题目来源于网路，代码和思路为自己独立思考和编写。 1. 一条街有n个位置，每个位置需要照亮的话用 . 表示，不需要照亮的话用 X 表示，每盏路灯能照亮，i - 1, i , i + 1三个位置，问最...

2018-03-28 11:54:38 471

转载推荐系统中SVD算法详解

推荐系统中SVD算法详解 SVD算法详解    下面开始介绍SVD算法，假设存在以下user和item的数据矩阵：                              &am

2018-02-27 09:48:20 10149

原创 4_Styling_your_plots

Styling your plotsIntroduction我们需要明白一点，在向读者展现图形的时候，图形的格式很重要。修改图形的格式，使新的style更加漂亮，将很大程度上提高图形的交互性，使工作更加有效。这一节中，我们要学习的怎么在已经作出的图中，修改格式。一般而言，你可以在你的plot中做任何事情，修改任何的格式，我们并不会介绍所有的style，只是介绍最基础的图形格式：

2018-01-30 17:22:43 360

原创 3_Bivariate_plotting_with_pandas

基于pandas的双变量的作图 Scatter plot –> df.plot.scatter() 擅长: 区间数据、一些无序的分类数据 Hex plot –> df.plot.hex() 擅长: 区间数据、一些无序的分类数据 Stacked Bar Chart –> df.plot.bar(stacked=True) 擅长: 有序和无序的分类数据

2018-01-29 11:08:29 1148

原创 1_Univariate_plotting_with_pandas

# Univariate plotting with pandas在这个section中，我们学习基础的pandas的功能，从最简单的单变量可视化或者一元可视化开始。这些基础的工具包括bars plots和line charts.通过这些，我们能够更好的理解pandas画图库的结构，并集花费一些时间来解释数据的格式。import pandas as pdimport ma

2018-01-26 15:05:10 594

原创机器学习框架xr-learn: decisionTree(决策树)

decisionTree(决策树)最经典的三种方法,分别是ID3,C4.5和CART.下面介绍三种算法.ID3算法ID3算法最早由Ross Qulinlan发明,用来基于数据产生一个决策树.并且是C4.5的前身,广泛用于机器学习和自然语言处理方向. ID3算法,其实道理很简单,对于给定的数据集合S和其所有的特征features,每次通过确定的方法(信息增益或者信息熵)选择一个最好的特征,将数据分

2017-12-15 16:27:24 355

原创机器学习框架xr-learn:感知机(perceptron)

感知机(perceptron)我们一直都不知道这个模型是好还是坏,但是如果把它当做一个神经网络的一层,那就厉害了.首先从个人角度感性理解这个模型是什么? 感知机:有一组数据(X,Y),Y = {+1,-1},我们希望找到一个函数F(x),是得到所有的数据都能正确分类. 我们希望找到这样一个函数:F(x) = sign(WX+b). 使得所有的训练数据都能正确分类.找到一个loss(x)函数,最

2017-12-15 16:24:59 475

原创 Ubuntu、debian7命令行安装php5.6和xdebug

第一步如果你的服务器上安装的php版本<= 5.6,就更新至php5.6。 Ubuntu:sudo add-apt-repository ppa:ondrej/php5-5.6 -ysudo apt-get updatesudo apt-get install php5-fpm -yDebian Wheezy：echo "deb http://packages.dotdeb.org whe

2017-10-23 14:42:07 1588

原创面试系列：无序的子数

17、最短无序子数组（Find the Minimum length Unsorted Subarray, sorting which makes the complete array sorted）题意：给你一个数组arr[0 … n-1]，找到一个最短的子数组arr[s … e]，排序这个子数组，使得整个数组有序。 Example： 1、input array [10, 12, 20,

2017-10-23 01:03:07 386

原创腾讯2017笔试题：编码

/** *Author: xiaoran *Time: 2017-09-21 17:13 * *Problem: 编码 * 假定一种编码的编码范围是a-y的25个字母，从1位到4位的编码， * 如果我们把该编码按字典序排序，形成一个数组如下： * a, aa, aaa, aaaa, aaab, aaac, … …, b, ba, baa, baaa, baab, baac … …, y

2017-09-21 19:57:03 765

原创名企笔试：Google面试题-目标和

Problem： * 给你一个非负的数组数列a1,a2,…,an和一个期望值S。你可以为每一个整数赋值一个新的符号， * 符号只能从+和-中选择。计算有多少种组合可以另赋过符号的所有数的和等于S。 * 输入样例：nums=[1,1,1,1,1],S=3 * 输出：5 分析：所有分析见代码注释： Code：package google;import java.util.Da

2017-09-18 20:39:59 511

原创 lintcode天梯4- 数学与二进制运算

LintCode Ladder4 - Math$Bit Manipulation1、Flip Bits 题目：给你两个数字A和B，问你需要改变A的二进制位的几个位使其变成B。 Example: A = 31(11111) B = 14(01110) return 2; 只需要修改第一位和第5个二进制位即可。分析: 从题目的意思，我们可以直接比

2017-09-16 11:22:33 511

原创 Google笔试题（0与1的问题）

15、Google笔试题（0与1的问题）题意：在计算机世界，我们一直追求用最小的资源产生最大的价值。现在，假设你可以支配m个0和n个1。同时有一些只有0和1组成的字符串。你的任务是用这些0和1去组成这些字符串，输出最多能组成多少个字符串。每个0和1只能被使用一次。 Example 样例一输入: Array = {“10”, “0001”, “111001”, “1”, “0”

2017-09-14 22:18:44 2732

原创 51nod 1791 合法括号子段(DP)

[1791 合法括号子段] 有一个括号序列，现在要计算一下它有多少非空子段是合法括号序列。合法括号序列的定义是： 1.空序列是合法括号序列。 2.如果S是合法括号序列，那么(S)是合法括号序列。 3.如果A和B都是合法括号序列，那么AB是合法括号序列。Input 多组测试数据。第一行有一个整数T（1<=T<=1100000），表示测试数据的数量。接下来T行，每一行都有一个括号序

2017-09-04 14:45:19 542

原创 51nod1536 不一样的猜数游戏（思考题目的乐趣）

1536 不一样的猜数游戏瓦斯亚和皮台亚在玩一个简单的游戏。瓦斯亚心中想一个整数x，它是1到n之间的整数。然后皮台亚尝试着猜这个数字。皮台亚每次问一个形如这样的问题：这个x是y的倍数吗？这个游戏的流程是这样的：首先皮台亚把所有他想问的形如上述的问题都问出来（当然他也可以不问任何问题），然后瓦斯亚针对每一个问题给出yes或no的答案。最后皮台亚根据这些问题推断出瓦斯亚心中所想的x是哪个数字

2017-09-03 16:44:45 568

原创 51nod 1875 丢手绢(模拟)

1875 丢手绢六一儿童节到了，小朋友们在玩丢手绢的游戏。总共有C个小朋友，编号从1到C，他们站成一个圈，第i(1/** *对于每一个G，判断E是否满足条件 *模拟操作G次之后，判断时候[G+1,2G]全部出局 */#include<iostream>#include<list>#include<vector>#include<algorithm>using namespace

2017-08-31 15:16:20 657

原创 51nod 1060 最复杂的数(数论：反素数)

最复杂的数把一个数的约数个数定义为该数的复杂程度，给出一个n，求1-n中复杂程度最高的那个数。例如：12的约数为：1 2 3 4 6 12，共6个数，所以12的复杂程度是6。如果有多个数复杂度相等，输出最小的。 Input 第1行：一个数T，表示后面用作输入测试的数的数量。（1 <= T <= 100) 第2 - T + 1行：T个数，表示需要计算的n。（1 <= n <= 10^18)

2017-08-30 11:12:03 433

原创 51nod 1099 任务执行顺序(贪心)

1099 任务执行顺序有N个任务需要执行，第i个任务计算时占R[i]个空间，而后会释放一部分，最后储存计算结果需要占据O[i]个空间（O[i] < R[i]）。例如：执行需要5个空间，最后储存需要2个空间。给出N个任务执行和存储所需的空间，问执行所有任务最少需要多少空间。 Input第1行：1个数N，表示任务的数量。（2 <= N <= 100000) 第2 - N + 1行：每行2个数

2017-08-19 00:42:24 378

原创数据结构：XOR链表--- 一个空间高效的双向链表

XOR链表— 一个空间高效的双向链表传统的双向链表，要求有两个地址阈，分别存储前一个和后一个节点的地址。这里我们提到的空间高效的双向链表，仅仅为每一个节点申请一个地址空间，这空间有效的双向链表叫做XOR链表。在XOR链表中不在存储一个确定的地址，而是对于每一个节点存储前一个地址和后一个地址的XOR值。看上面的双向链表，这是原始的双向链表，下面简单介绍其和XOR链表的不同。传统的双向链表： No

2017-07-02 18:58:07 1081

原创名企笔试：Microsoft笔试题（URLify a given string ）

Microsoft笔试题（URLify a given string ）题意： Write a method to replace all the spaces in a string with ‘%20’. You may assume that the string has sufficient space (or allocated memory) at the end to hold th

2017-07-02 16:33:59 1047

原创线性分类器

线性分类器主要内容：线性分类器简介线性得分函数（Linear score function）解释线性分类器损失函数多分类支持向量机 Softmax分类器 SVM vs Softmax 总结线性分类器（Linear Classification）在上一节中，我们介绍了图像分类问

2017-07-01 20:25:43 2162 2

原创名企面试：Aamazon笔试题（Find median in a stream ）

Aamazon笔试题（Find median in a stream ）题意： Given an input stream of n integers the task is to insert integers to stream and print the median of the new stream formed by each insertion of x to the stream.

2017-07-01 19:59:32 3784

Linux入门很简单.pdf

Effective C++中文第三版.pdf

吉林大学ACM算法模板

空空如也