data_rec-CSDN博客

转载 RecSys 2017 Highlights

In this post I will give my personal thoughts on some articles from 2017 ACM Conference on Recommender Systems, that I chose out of my own interest, with no specific order, divided by recent trends in...

2018-05-10 10:36:59 811

转载 2015年~2017年SIGIR，SIGKDD，ICML三大会议的Recsys论文

（转自：https://www.cnblogs.com/shenxiaolin/p/8321722.html） SIGIR-2015【Title】WEMAREC: Accurate and Scalable Recommendation through Weighted and Ensemble Matrix Approximation【Abstract】Matrix appro...

2018-05-07 22:02:15 3574 2

转载适合大数据的聚类算法Mini Batch K-Means

K-Means算法是常用的聚类算法，但其算法本身存在一定的问题，例如在大数据量下的计算时间过长就是一个重要问题。为此，Mini Batch K-Means，这个基于K-Means的变种聚类算法应运而生。大数据量是什么量级？通过当样本量大于1万做聚类时，就需要考虑选用Mini Batch K-Means算法。但是，在选择算法时，除了算法效率（运行时间）外，算法运行的准确度也是选择算法的重

2017-07-24 12:03:45 29140 3

转载深入FFM原理与实践

FM和FFM模型是最近几年提出的模型，凭借其在数据量比较大并且特征稀疏的情况下，仍然能够得到优秀的性能和效果的特性，屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中，探索并使用了FM和FFM模型进行CTR和CVR预估，并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。前言在计算广告领域，点击率CTR（

2017-02-23 16:33:17 497

转载 BPR [Bayesian Personalized Ranking] 算法详解及应用实践

在推荐系统的实现中，几乎总会遇到从较多候选集中为用户选取特定的少数几个物品进行推荐，这本质上是一个Ranking问题。在推荐场景中用户更缺乏耐性，对推荐结果的消费也十分有限。因此，排序的好坏直接决定了用户对一个准确率为90%的推荐候选集的满意度是否真的有90%。这里我们为大家介绍一种“基于贝叶斯后验优化的个性化排序算法”：Bayesian Personalize

2017-01-12 19:35:36 8165 2

转载通过矩阵求两个向量集中元素两两之间的欧氏距离(python实现)

在很多算法中都会涉及到求向量欧式距离，例如机器学习中的KNN算法，就需要对由训练集A和测试集B中的向量组成的所有有序对(Ai,Bi),求出Ai和Bi的欧式距离。这样的话就会带来一个二重的嵌套循环，在向量集很大时效率不高。这里介绍如何将这一过程用矩阵运算实现。假设有两个三维向量集，用矩阵表示: A=[a11a12a21a22a31a32]B=⎡⎣⎢⎢⎢b11b12b13b

2016-12-06 09:49:21 2033

转载 WMD：基于词向量的文档相似度计算

EMD算法简介该部分引用自[1]Earth Mover’s Distance (EMD)，和欧氏距离一样，他们都是一种距离度量的定义，可以用来测量某分布之间的距离。EMD主要应用在图像处理和语音信号处理领域。EMD问题如下图所示给定两个签名(或者叫分布、特征量集合)P和Q，P为m个特征量Pi和其权重wPi的集合，记作P={(P1,wP1),(P2,wP2

2016-11-30 10:45:45 25204 2

原创文本表示方法

在NLP诸多问题（如：文本分类等）中，文本表示不可或缺。这里博主枚举一些主流的文本表示方法。这里主要说的是基于文本内容的表示，顺带先扯扯基于行为的表示：不同的业务有不同的表示，基于行为的文本表示如SVD，LFM等，基于用户的行为日志（如新闻点击）学习用户和文本的的特征向量，url2vec利用用户对文本的点击序列，借鉴word2vec（每个文本看成一个word），训练文本的向量表示。基于文本

2016-11-28 17:55:06 9950

原创蓄水池抽样

问题：在时间复杂度为O(n)下对大批量甚至未知大小的数据（N）等概率随机抽取k个数。抽样过程：顺序遍历数据N，遍历的前k个数据抽取出放入容量为k的“蓄水池”（称之为K），从第k+i（i>0）数据开始，以k/(k+i)的概率选择该数据并等概率随机替换K中元素。直到遍历结束。先不多说，撸一串代码（从0到999这一千个整数随机抽取10个）：def sampling(k=10, N=np.

2016-11-18 14:49:54 336

转载 ubuntu 64位 + tensorflow（cpu）之pip安装

Tensorflow：TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，主要是深度神经网络模型。安装配置：因为不支持Windows系统，只能在Mac或Linux上使用，因此Windows系统可以装个VM虚拟机。官网是提供了pip, Docker, Virtualenv, Anaconda 等多种方法安装TensorFlow，但是我只走了pip这一条

2016-11-09 15:43:20 5027

转载连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？A:在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0、离散特征的增加和减少都很容易，易于模型的

2016-09-26 20:33:29 713

转载特征处理（Feature Processing）

特征工程（Feature Engineering）经常被说为机器学习中的black art，这里面包含了很多不可言说的方面。怎么处理好特征，最重要的当然还是对要解决问题的了解。但是，它其实也有很多科学的地方。这篇文章我之所以命名为特征处理（Feature Processing），是因为这里面要介绍的东西只是特征工程中的一小部分。这部分比较基础，比较容易说，所以由此开始。单个原始特征（或称为

2016-08-30 11:17:58 533

转载特征选择与特征学习

特征选择与特征学习在机器学习的具体实践任务中，选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集，具体特征选择算法通过定义合适的子集评价函数来体现。在现实世界中，数据通常是复杂冗余，富有变化的，有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识，不利于推广。于是我们需要通过机器来学习和抽取特征，促进特

2016-08-29 18:33:21 10716

转载 Spark开发环境配置(windows/Intellij IDEA 篇)

Intellij IDEA是一个蛮不错的IDE，在java/scala/Groovy领域深得人心。笔者之前使用的是Eclipse那一套开发环境，虽然也不错，但忍不住好奇心的驱使，折腾了一下IDEA，发现写起Spark程序来，“哎呦，不错哟！”，故总结一下在windows系统中的配置过程(在mac下的配置其实更简单一些)，自己琢磨时还是费了点劲的，网上各种教程新旧正误繁杂，好不麻烦，加上笔者工作中最

2016-08-22 19:02:13 2207

转载转：Adaboost 算法的原理与推导

Adaboost 算法的原理与推导（原文链接：http://blog.csdn.net/v_july_v/article/details/40718799）0 引言一直想写Adaboost来着，但迟迟未能动笔。其算法思想虽然简单：听取多人意见，最后综合决策，但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午，在我组织的机器学习班第8次课上Z讲师讲决

2016-06-27 13:31:47 282

转载转：利用GBDT模型构造新特征

说明：转载自https://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html实际问题中，可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征，将会决定机器学习模型效果的好坏。引用下面一句流行的话：特征决定了所有算法效果的上限，而不同的算法只是离这个上限的距离不同

2016-06-24 16:10:38 1690

转载让你彻底明白hive数据存储各种模式

问题导读1.hive数据分为那两种类型？2.什么表数据？3.什么是元数据？4.Hive表里面导入数据的本质什么？5.表、分区、桶之间之间的关系是什么？6.外部表和表的区别是什么？Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目

2016-05-31 12:42:24 798

转载分类中样本数据不平衡问题的解决方法

问题：研究表明，在某些应用下，1∶35的比例就会使某些分类方法无效，甚至1∶10的比例也会使某些分类方法无效。（1）少数类所包含的信息就会很有限，从而难以确定少数类数据的分布，即在其内部难以发现规律，进而造成少数类的识别率低（2）数据碎片。很多分类算法采用分治法，样本空间的逐渐划分会导致数据碎片问题，这样只能在各个独立的子空间中寻找数据的规律，对于少数类来说每个子空间中包含了很少的数据信息

2016-05-17 13:44:28 6265

转载 pycharm中的Django操作数据库

（一）在idle中进行数据操作需要的环境初始化操作import os;import sys;sys.path.append("E:\\tmp\\mysite"); # 项目位置os.environ.setdefault("DJANGO_SETTINGS_MODULE", "mysite.settings")（二）导入已定义好的数据模型fr

2016-05-04 16:55:10 1076

cht5600的博客