自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 sklearn中逻辑回归(logistic regression)的损失函数推导

最近无意阅读sklearn中关于logistic regression的文档时,发现其损失函数和意识中长的不一样,有必要简单梳理下。绝大部分的文章或者资料都习惯于将label y的空间定义为0和1,因此我们使用极大似然估计(maximum likelihood estimate)可以很轻松写出其似然函数:加上L2正则项后,整理可得我们需要最小化的损失函数如下:sklearn中...

2019-04-12 15:33:57 3509

原创 资讯信息流场景的学习排序实践探讨

0. 序言达观数据是一家基于文本语义理解为企业提供文本抽取审核、推荐、搜索等服务的人工智能企业,其中在推荐场景上我们也服务了很多客户企业,客户在要求推荐服务稳定、需求响应及时的基础上,对系统的效果也提出了越来越高的期望,这对算法团队也是一个挑战。本文将从资讯信息流这个场景入手,先简单介绍达观推荐引擎的架构演化,同时尽可能详细的介绍学习排序这个核心技术的实践和落地经验。1. 达观推荐引擎架构...

2019-03-26 17:09:56 9543 1

原创 推荐系统中的冷启动和探索利用问题探讨 (下)

LinUCB算法回到推荐列表的场景,推荐系统为用户推荐物品。user和item都可以用一系列特征表示。用户特征包括用户的统计历史行为、人口学属性信息;物品特征包括描述信息、类别信息等等。在这种场景下,探索和利用也必须是个体用户级别上实施,因为不同用户看到相同的物品的反馈差异较大。LinUCB算法是一种基于上下文特征(用户特征、物品特征)的UCB算法,基于特征进行探索和利用。该算法结合上下文特征,选择

2017-08-22 16:54:23 1402

原创 推荐系统中的冷启动和探索利用问题探讨 (上)

推荐系统中的冷启动和探索利用问题探讨 (上)前言互联网技术和大数据技术的迅猛发展正在时刻改变我们的生活,视频网站、资讯app、电商网站对于推荐系统而言,每天都有大量的活跃用户在不断的产生海量的用户行为,同时,每天又都产生大量的新增PGC或者UGC内容(如小说、资讯文章、短视频等)。从推荐系统的角度来看,系统每时每刻都面临大量的新旧用户、新旧物品和大量的用户行为数据,对于用户,我们需要对要用户进行建模

2017-08-22 10:07:02 1537

原创 如何利用trie树加快关键词查找

项目中有如下需求,给定一个关键词库(规模不定,从几百到几千不等),需要在一句话或者一段内容中快速找出关键词,如果有任何一个关键词命中就可以直接返回。1. 简单的方法就是依次判断每个词是否存在于给定内容中:def filter(content): for filter_word in filter_words: if filter_word in

2017-08-08 19:33:07 2862 1

原创 hive之数据类型初探

前段时间在做一个将oralce代码转hive代码开发时,遇到了一个问题,问题描述如下:(A)Hive:Select concat(round(1/3,4)*100,'%')from v_book_all_info_ft limit1;Output:33.33%Oracle:select concat(round(1/3,4)*100,'%')from dual;

2014-06-19 22:06:43 607

原创 如何解决sklearn加载libsvm格式数据数组越界?

在使用sklearn加载大数据量的libsvm文件函数load_svmlight_file发生了内存越界错误,样本数超过1千万。具体报错:OverflowError: signed integer is greater than maximum.这个问题比较奇怪,之前一直没有问题,只是每个样本都add了固定的128维特征后才出现上述报错。通过对sklearn源码分析,sklear...

2018-12-14 18:32:05 2163

原创 利用python的heapq实现prim算法以及优先级队列

1. python heapq是一个最小堆,堆顶元素为最小值,最小(大)堆的逻辑结构是一颗二叉树,其中父节点的小(大于)于左右子节点,物理结构为一个数组。   heapq模块支持heappush(入堆)、heappop(出堆)、heapify(创建堆)等操作,详细请参考python官方文档(https://docs.python.org/2/library/heapq.html)。

2016-10-09 23:01:23 2742 4

原创 布隆滤波器基本原理和pybloomfilter使用

1. 布隆滤波器原理在日常开发过程中,会经常遇到元素是否存在集合判断和去重问题,例如我们会判断一个email地址是否在黑名单中,网络爬虫会判断一个url是否已经存在于待抓取列表或者已抓取,视频库的去重等等。不幸的是通常情况下这类问题面临的数据规模都较大,比如网络爬虫系统的抓取url通常达到数亿级别,如果采用哈希表存储这些url将会耗费大量的内存以至于在实际生产使用过程中几乎不可用,而布隆滤波器

2016-08-12 16:41:17 7019 3

原创 文本指纹算法和内容指纹系统介绍

1.       文本指纹介绍Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相似性,这种方法存在效率的严重弊端,无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点,对

2016-08-10 23:22:10 18064 2

原创 利用Hive进行数据分析

近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。达观数据团队长期致力于研究和积累Hadoop系统的技术和经验,并构建起了分布式存储、分析、挖掘以及应用的整套大数据处理平台。本文将从Hive的原理、架构及优化等方面来分享Hiv

2016-07-06 21:30:20 35355 1

java web 标签大全

java web 标签大全

2012-05-04

Apache_Log4j_学习笔记

Apache_Log4j_学习笔记

2012-05-04

图形渲染管线

图形渲染管线

2012-05-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除