UMaker-CSDN博客

原创树模型输出新的特征

GBDT原理及利用GBDT构造新的特征-Python实现背景1 Gradient Boosting2 Gradient Boosting Decision Tree3 GBDT应用-回归和分类GBDT构建新的特征思想GBDT与LR融合方案源码内容generate GBDT featuresgenerate

2018-05-06 21:03:59 2134 1

原创规则提取介绍

算法简介　　基于规则的分类器是使用一组"if...then..."规则来对记录进行分类的技术。　　模型的规则用析取范式 R =(r1 ∨ r2 ∨ ••• ∨ rk)表示，其中R称作规则集，ri 是分类规则或析取项。　　每一个分类规则可以表示为如下形式：ri:(条件i)→yi规则左边成为规则前件或前提。它是属性测试的合取：条件i=(A1 op v1)∧(A1 op

2018-04-24 18:45:38 6689 1

原创 vim保存和退出

退出vim的快捷键，不需要进入命令编辑模式按住shift zz 保存退出 zq 不保存退出，q表示放弃之所以按住shift，其实是切换大小写在命令编辑模式下： :q 不保存退出 :q! 不保存强制退出 :wq 保存退出，w表示写入，不论是否修改，都会更改时间戳 :x 保存退出，如果内容未改，不会更改时间戳“:x” 和 “:wq” 的区别如下： (1...

2018-04-17 14:48:32 11921

转载 fastText

目录(?)[-]一简介二FastText原理1 模型架构2 层次SoftMax3 N-gram特征三基于fastText实现文本分类1 fastText有监督学习分类2 fastText有监督学习分类三总结1 fastText和word2vec的区别2 小结一简介二FastText原理1 模型架构

2018-03-28 15:53:40 762

原创 collections模块介绍

Python作为一个“内置电池”的编程语言，标准库里面拥有非常多好用的模块。比如今天想给大家介绍的 collections 就是一个非常好的例子。基本介绍我们都知道，Python拥有一些内置的数据类型，比如str, int, list, tuple, dict等， collections模块在这些内置数据类型的基础上，提供了几个额外的数据类型：namedtuple(): 生成

2018-03-14 12:20:46 2608

原创连续特征离散化方法介绍

1. 离散化技术分类连续属性的离散化方法也可以被称为分箱法，即将一组连续的值根据一定的规则分别放到其术语的集合中。离散化技术可以根据如何对数据进行离散化加以分类，可以根据是否使用类信息或根据进行方向(即自顶向下或自底向上)分类。如果离散化过程使用类信息，则称它为监督离散化(superviseddiscretization)；否则是非监督的(unsupervised)。如果

2018-01-30 10:48:40 10603 1

转载数据标注问题

文章商品分类之数据标注前言之前有些过一篇文本分类的文章，从技术层面来描述了包括传统NLP技术、深度学习相关的文本分类技术，很有幸做了一个关于文本分类的项目，对这块有进一步的认识。项目的基本需求是对资讯文章按照语义进行分类。例如http://www.ifanr.com/906951中描述的描述的小米手机相关的新闻，需要将文章分类为手机-手机通讯，然后结合文章相关tag词

2018-01-25 17:56:05 14621 2

原创机器学习中样本不平衡处理办法

在机器学习任务中，我们经常会遇到这种困扰：数据不平衡问题。数据不平衡问题主要存在于有监督机器学习任务中。当遇到不平衡数据时，以总体分类准确率为学习目标的传统分类算法会过多地关注多数类，从而使得少数类样本的分类性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。本文介绍几种有效的解决数据不平衡情况下有效训练有监督算法的思路：1、重新采样训练集可以使用

2017-12-21 10:06:18 14734 1

原创面试编程题

1 生成子集1.1 含义给定一个集合，枚举它所有可能的子集。比如给定集合｛1，2，3｝，应该输出：{}{1}{2}{1, 2}{3}{1, 3}{2, 3}{1, 2, 3}1.2 增量构造法增量构造法，每次选择一个元素放到集合中，每次操作的结果即是一个子集。递归操作，每次向当前

2017-11-21 11:18:02 325

原创 spacy库安装

SpaCy有三种方法安装spacy库，推荐第二种。Solution 1: Installing Visual Studio Express 2015 (https://www.visualstudio.com/vs/visual-studio-express, free but takes 12 GB of space on the hard drive), then run:

2017-11-14 09:39:10 20741 12

原创 pycharm快捷使用

目录(?)[-]pycharm学习技巧 Learning tipsPyCharm30默认快捷键翻译的pycharm常用设置pycharm环境和路径配置python解释器路径python项目解释器路径pycharm中进行python包管理python脚本解释路径console执行路径和当前工作目录pycharm配置osenviron环境pycharm配置第三方库代

2017-11-06 10:30:28 1118

转载语义分析的一些方法(下篇)

3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示，首先需要先手工提取图片特征，譬如SIFT, GIST，再经由VQ coding和Spatial pooling，最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里，人工特征提取是一个巨大的消耗性工

2017-09-23 13:07:54 634

转载语义分析的一些方法(中篇)

2 文本语义分析前面讲到一些文本基本处理方法。一个文本串，对其进行分词和重要性打分后（当然还有更多的文本处理任务），就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型，第一时间会想到pLSA，NMF，LDA。关于这几个目前业界最常用的主题模型，已经有相当多的介绍了，譬如文献[60，64]。在这里，主要想聊一下主题模型的应用以及最

2017-09-23 13:03:43 24847

语义分析，本文指运用各种机器学习方法，挖掘与学习文本、图片等的深层次概念。wikipedia上的解释：In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or imag

2017-09-23 13:00:31 16161 1

转载梯度下降、牛顿法、拟牛顿法比较

梯度下降、牛顿法、拟牛顿法目录(?)[-]梯度下降牛顿法拟牛顿法介绍在向量微积分中，标量场的梯度是一个向量场。标量场中某一点上的梯度指向标量场增长最快的方向，梯度的长度是这个最大的变化率。更严格的说，从欧几里得空间Rn到R的函数的梯度是在Rn某一点最佳的线性近似。在判别式模型中，我们往往需要学习参数，从而使得我们的模型f(x)可以逼近实...

2017-09-13 17:06:28 2961

原创面试总结

昨天去了汽车之家面试，应聘职位自然语言处理工程师，现在整理了面试各种情况做个总结：一、感悟 1、不管是什么方面一定要重视基础，各种算法会用还不行，要理解其中的原理，最好是可以手动公式推导。 2、技术面试官关注的只会是和你面试的岗位相关的知识，其他的你不应该过多关注，复习好与你应聘职位相关的信息就可以了。 3、计算机基础知识一定要明白，我在面试的时候遇到很多类似于手

2017-09-08 11:17:38 561

转载 adaboost和GBDT的区别以及xgboost和GBDT的区别

adaboost和GBDT的区别以及xgboost和GBDT的区别AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样一来，那些没有得到正确分类的数据，由于其权值的加大而受到后一轮的弱分类器的更大关注，于是，分类问题就被一系列的弱分类器“分而治之”。至于第二个问题，即弱分类器的组合，AdaBoost采取加权多数表决的方法

2017-09-06 18:51:35 875

原创基于TextRank的关键词提取算法

基于TextRank的关键词提取算法前沿TextRank是一种文本排序算法，是基于著名的网页排序算法PageRank改动而来。在介绍TextRank前，我们先简单介绍下什么是PageRank。另外TextRank不仅能进行关键词提取，也能做自动文摘，这边文章以关键词提取为主，自动文摘部分后续补充。一、PageRank原理PageRank是用来计算网页重要性的，将每一

2017-09-04 21:00:11 12879

转载机器学习中的损失函数

机器学习中的损失函数目录(?)[-]一log对数损失函数逻辑回归二平方损失函数最小二乘法 Ordinary Least Squares三指数损失函数Adaboost四Hinge损失函数SVM五其它损失函数损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用

2017-08-31 09:45:06 338

原创给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？

思路：可以估计每个文件的大小为5G*64=300G，远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个url求取hash(url)%1000，然后根据所得值将url分别存储到1000个小文件（设为a0,a1,...a999）当中。这样每个小文件的大小约为300M。遍历文件b，采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)

2017-08-30 15:26:05 1902 1

原创 LR与SVM的相同点和不同点

2017-08-29 19:26:22 634

原创 KMP算法讲解

KMP算法详解kmp算法又称“看毛片”算法，是一个效率非常高的字符串匹配算法。不过由于其难以理解，所以在很长的一段时间内一直没有搞懂。虽然网上有很多资料，但是鲜见好的博客能简单明了地将其讲清楚。在此，综合网上比较好的几个博客（参见最后），尽自己的努力争取将kmp算法思想和实现讲清楚。kmp算法完成的任务是：给定两个字符串O和f，长度分别为n和m，判断f是否在O中出现，如

2017-08-25 10:57:09 255

原创 Python列表,元组,字典的区别

Python列表,元组,字典的区别：1、元组是不可变的，而列表、字典是可变的。元组是不可变对象，对象一旦生成，它的值将不能更改；列表是可变对象，对象生成后，可以对其元素进行更改、添加、删除、清空、排序等操作。2、元组通常是由不同的数据，而列表是相同的数据队列。元组表示的是结构，而列表表示的是顺序。列表的权限远大于元组。3、列表不能作为字典的key值，而元组可以。字典的键是唯一

2017-08-24 20:53:37 2805

原创海量数据处理 - 10亿个数中找出最大的10000个数（top K）

2017-08-23 14:36:33 730

转载深入FM和FFM原理与实践

深入FFM原理与实践目录(?)[-]前言FM原理FM与其他模型的对比FFM原理FFM实现FFM应用后记参考文献 FM和FFM模型是最近几年提出的模型，凭借其在数据量比较大并且特征稀疏的情况下，仍然能够得到优秀的性能和效果的特性，屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中，

2017-07-13 15:49:48 11243 2

转载自然语言处理技术（NLP）在推荐系统中的应用

概述个性化推荐是大数据时代不可或缺的技术，在电商、信息分发、计算广告、互联网金融等领域都起着重要的作用。具体来讲，个性化推荐在流量高效利用、信息高效分发、提升用户体验、长尾物品挖掘等方面均起着核心作用。在推荐系统中经常需要处理各种文本类数据，例如商品描述、新闻资讯、用户留言等等。具体来讲，我们需要使用文本数据完成以下任务：候选商品召回。候选商品召回是推荐流程的第一步，用来生成待推荐

2017-07-11 15:04:37 1789

转载关于点击率模型，你知道这三点就够

关于点击率模型，你知道这三点就够说到广告，或者运营，关注的最多的就是点击率了。我们经常能听说某某科学家通过建立更好的点击率预测模型，为公司带来上亿的增量收入。点击率这么简单直接的统计量，为什么要用复杂的数学模型来刻画呢？说到计算广告，或者个性化推荐，甚至一般的互联网产品，无论是运营、产品还是技术，最为关注的指标，就是点击率。业界也经常流传着一些故事，某某科学家通过建立更好的

2017-07-03 15:07:49 3276

转载 FM 模型介绍

（一）简介1.FM（factorization machine）模型是一种基于矩阵分解的机器学习模型，对于稀疏数据具有很好的学习能力；2.FM模型与LR模型的区别在于引进了特征组合；（二）算法1.线性回归模型：没有考虑特征分量之间的关系；2.考虑特征分量之间关系的线性回归模型：若样本特征为高度稀疏，那么不能对wij参数进行估计，绝大部分为0；

2017-07-03 14:13:22 2554

原创几种主要的分布

目录(?)[-]伯努利分布二项分布多项分布贝塔分布狄利克雷分布后记1. 伯努利分布伯努利分布(Bernoulli distribution)又名两点分布或0-1分布，介绍伯努利分布前首先需要引入伯努利试验（Bernoulli trial）。伯努利试验是只有两种可能结果的单次随机试验，即对于一个随机变量X而言：伯努利试验都可以表达为

2017-06-26 22:09:11 11694

翻译【Keras案例学习】 CNN做手写字符分类

import numpy as npnp.random.seed(1337)from keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense, Dropout, Activation, Flattenfrom keras.layers import

2017-05-23 21:39:31 560

原创 Stacking

经典Stacking模型是指将多种分类器组合在一起来取得更好表现的一种集成学习模型。一般情况下，Stacking模型分为两层。第一层中我们训练多个不同的模型，然后再以第一层训练的各个模型的输出作为输入来训练第二层的模型，以得到一个最终的输出。为了更加详细的阐述stacking模型的训练和预测过程，我们用下面的图作为示例。首先，我们从stacking模型的训练开始阐述。在上图中我们可以看到

2017-04-25 09:28:16 8677 2

转载机器学习竞赛技巧

Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金，在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛，在 2125 个参赛队伍中排名第 98 位（~ 5%）。因为是第一次参赛，所以对这个成绩我已经很满意了。在 Kaggle 上一次比赛的结果除了排名以外，还会显示的就是 Prize Winner，10% 或是 25% 这三档。所以刚刚

2017-04-17 18:50:25 403

转载 Blending and Bagging

Blending and Bagging目录(?)[+]第七讲：Blending and Bagging1、Motivation of Aggregation（融合的动机）恰当的融合可以得到更好的表现2、Uniform Blending(平均融合)

2017-04-16 16:50:44 406

转载模型融合

参考：台大机器学习技法 http://blog.csdn.NET/lho2010/article/details/42927287 stacking&blending http://heamy.readthedocs.io/en/latest/usage.html1.blending比如数据分成train和test，对于model_i（比如xgbo

2017-04-16 16:49:06 2990

转载 XGBoost Plotting API以及GBDT组合特征实践

XGBoost Plotting API以及GBDT组合特征实践写在前面：最近在深入学习一些树模型相关知识点，打算整理一下。刚好昨晚看到余音大神在Github上分享了一波 MachineLearningTrick，赶紧上车学习一波！大神这波节奏分享了xgboost相关的干货，还有一些内容未分享….总之值得关注！我主要看了：Xgboost的叶子节点位置生成新特征封装的函数。之前就看过

2017-04-15 12:34:54 9576 4

转载 gbdt和xgboost区别

目录(?)[-]一GBDTGBRT二Xgboost gbdt（又称Gradient Boosted Decision Tree/Grdient Boosted Regression Tree），是一种迭代的决策树算法，该算法由多个决策树组成。它最早见于yahoo，后被广泛应用在搜索排序、点击率预估上。 xgboost是陈天奇大牛新开发的Boo

2017-04-14 17:21:18 17176

转载大杀器xgboost指南

目录(?)[-]一xgboost的优点二xgboost的参数转自httpblogcsdnnetwzmsltwarticledetails50994481General ParametersBooster ParametersParameter for Tree BoosterParameter for Linear BoosterTask Parameters

2017-04-14 16:09:58 429

转载如何设置使windows(dos)命令中目录和文件可以自动完成和补齐

1、如果只是临时使用，可以用cmd /f打开命令窗口 2、如果想永久使用1）在运行窗口输入regedit2）找到键值HKEY_LOCAL_MACHINE/Software/Microsoft/Command Processor将CompletionChar改为0x9，PathCompletionChar 改为0x9，十六进制，这样就可以使用tab键完成自动

2017-03-31 21:33:19 512

转载 MIC（最大信息系数）

MIC我在论文使用MIC来衡量两个基因之间的关联程度，线性或非线性关系，相较于Mutual Information（MI）互信息而言有更高的准确度巴拉巴拉的，按作者的话说总之比其他的方式好。原文参照： Detecting Novel Associations in Large Data Sets相关东西自己看看人家原文，一直觉得人家歪果仁写东西很认真，基础提到，实验充足

2017-03-31 15:10:38 21294 1

空空如也

空空如也