wh_springer-CSDN博客

原创 sklearn中逻辑回归（logistic regression）的损失函数推导

最近无意阅读sklearn中关于logistic regression的文档时，发现其损失函数和意识中长的不一样，有必要简单梳理下。绝大部分的文章或者资料都习惯于将label y的空间定义为0和1，因此我们使用极大似然估计（maximum likelihood estimate）可以很轻松写出其似然函数：加上L2正则项后，整理可得我们需要最小化的损失函数如下：sklearn中...

2019-04-12 15:33:57 3509

原创资讯信息流场景的学习排序实践探讨

0. 序言达观数据是一家基于文本语义理解为企业提供文本抽取审核、推荐、搜索等服务的人工智能企业，其中在推荐场景上我们也服务了很多客户企业，客户在要求推荐服务稳定、需求响应及时的基础上，对系统的效果也提出了越来越高的期望，这对算法团队也是一个挑战。本文将从资讯信息流这个场景入手，先简单介绍达观推荐引擎的架构演化，同时尽可能详细的介绍学习排序这个核心技术的实践和落地经验。1. 达观推荐引擎架构...

2019-03-26 17:09:56 9543 1

LinUCB算法回到推荐列表的场景，推荐系统为用户推荐物品。user和item都可以用一系列特征表示。用户特征包括用户的统计历史行为、人口学属性信息；物品特征包括描述信息、类别信息等等。在这种场景下，探索和利用也必须是个体用户级别上实施，因为不同用户看到相同的物品的反馈差异较大。LinUCB算法是一种基于上下文特征（用户特征、物品特征）的UCB算法，基于特征进行探索和利用。该算法结合上下文特征，选择

2017-08-22 16:54:23 1402

原创推荐系统中的冷启动和探索利用问题探讨 (上)

推荐系统中的冷启动和探索利用问题探讨 (上)前言互联网技术和大数据技术的迅猛发展正在时刻改变我们的生活，视频网站、资讯app、电商网站对于推荐系统而言，每天都有大量的活跃用户在不断的产生海量的用户行为，同时，每天又都产生大量的新增PGC或者UGC内容（如小说、资讯文章、短视频等）。从推荐系统的角度来看，系统每时每刻都面临大量的新旧用户、新旧物品和大量的用户行为数据，对于用户，我们需要对要用户进行建模

2017-08-22 10:07:02 1537

原创如何利用trie树加快关键词查找

项目中有如下需求，给定一个关键词库（规模不定，从几百到几千不等），需要在一句话或者一段内容中快速找出关键词，如果有任何一个关键词命中就可以直接返回。1. 简单的方法就是依次判断每个词是否存在于给定内容中：def filter(content): for filter_word in filter_words: if filter_word in

2017-08-08 19:33:07 2862 1

原创 hive之数据类型初探

前段时间在做一个将oralce代码转hive代码开发时，遇到了一个问题，问题描述如下：(A)Hive:Select concat(round(1/3,4)*100,'%')from v_book_all_info_ft limit1;Output：33.33%Oracle:select concat(round(1/3,4)*100,'%')from dual;

2014-06-19 22:06:43 607

原创如何解决sklearn加载libsvm格式数据数组越界？

在使用sklearn加载大数据量的libsvm文件函数load_svmlight_file发生了内存越界错误，样本数超过1千万。具体报错：OverflowError: signed integer is greater than maximum.这个问题比较奇怪，之前一直没有问题，只是每个样本都add了固定的128维特征后才出现上述报错。通过对sklearn源码分析，sklear...

2018-12-14 18:32:05 2163

原创利用python的heapq实现prim算法以及优先级队列

1. python heapq是一个最小堆，堆顶元素为最小值，最小（大）堆的逻辑结构是一颗二叉树，其中父节点的小（大于）于左右子节点，物理结构为一个数组。 heapq模块支持heappush（入堆）、heappop（出堆）、heapify（创建堆）等操作，详细请参考python官方文档（https://docs.python.org/2/library/heapq.html）。

2016-10-09 23:01:23 2742 4

原创布隆滤波器基本原理和pybloomfilter使用

1. 布隆滤波器原理在日常开发过程中，会经常遇到元素是否存在集合判断和去重问题，例如我们会判断一个email地址是否在黑名单中，网络爬虫会判断一个url是否已经存在于待抓取列表或者已抓取，视频库的去重等等。不幸的是通常情况下这类问题面临的数据规模都较大，比如网络爬虫系统的抓取url通常达到数亿级别，如果采用哈希表存储这些url将会耗费大量的内存以至于在实际生产使用过程中几乎不可用，而布隆滤波器

2016-08-12 16:41:17 7019 3

原创文本指纹算法和内容指纹系统介绍

1. 文本指纹介绍Web大量上的网页集合里存在大量的重复内容网页，无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类，都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型，计算分词后的文本的特征向量的相似性，这种方法存在效率的严重弊端，无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点，对

2016-08-10 23:22:10 18064 2

原创利用Hive进行数据分析

近十年来，随着Hadoop生态系统的不断完善，Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据，利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。达观数据团队长期致力于研究和积累Hadoop系统的技术和经验，并构建起了分布式存储、分析、挖掘以及应用的整套大数据处理平台。本文将从Hive的原理、架构及优化等方面来分享Hiv

2016-07-06 21:30:20 35355 1

wh_springer的专栏

原创 sklearn中逻辑回归（logistic regression）的损失函数推导

原创资讯信息流场景的学习排序实践探讨

原创推荐系统中的冷启动和探索利用问题探讨 (下)

原创推荐系统中的冷启动和探索利用问题探讨 (上)

原创如何利用trie树加快关键词查找

原创 hive之数据类型初探

原创如何解决sklearn加载libsvm格式数据数组越界？

原创利用python的heapq实现prim算法以及优先级队列

原创布隆滤波器基本原理和pybloomfilter使用

原创文本指纹算法和内容指纹系统介绍

原创利用Hive进行数据分析

java web 标签大全

Apache_Log4j_学习笔记

图形渲染管线

空空如也