自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

漂啊漂

  • 博客(104)
  • 资源 (2)
  • 收藏
  • 关注

原创 DSIN模型介绍

文章目录简介整体结构Session切割层Session兴趣抽取层Session交互层Session兴趣激活层实验简介如何获取用户动态变化和演化的兴趣是CTR预估中持续的研究:序列由session组成,session是用户根据发生时间进行切割的行为。用户的行为在每个session里面是连贯的,在不同session中是异构的。DSIN利用了用户历史序列中多个的历史session。DSIN带Bias...

2020-04-05 22:27:02 2304

原创 DIEN模型介绍

文章目录DIEN介绍兴趣抽取层辅助loss兴趣演化层整体模型结构图实验对比参考DIEN介绍在CTR预估中,捕捉用户行为背后隐式的兴趣是非常重要的,而且因为外部环境和用户心智的变化,用户的兴趣会随着时间不断演化。传统的CTR预估把用户行为直接表示为兴趣,缺少在具体行为背后的隐式兴趣,而且很少有工作考虑兴趣的演化。DIEN设计了一个兴趣抽取层捕捉了用户历史行为的兴趣,在这层中提出了一个辅助lo...

2020-04-05 00:09:52 2134

原创 互联网广告出价模式

@[TOC](目录)出价基础知识行为价格换算公式从m->c->i->a->p的过程中,每个行为A的价格,等于后续行为B的价格乘以行为A到行为B的比率例如CPM=p(m->c) *CPC * 1000(唯独CPM要多乘以1000)CPC=p(c->a) *CPA“四点三率两控制一加强”里的“四点”竞价点:其实不管是CPM,CPC还是后续的CP...

2020-03-22 22:41:31 1964

原创 DIN模型介绍

简介场景:根据用户历史行为序列给用户推荐物品例如:根据用户最近买了鞋子,裙子,现在要预估一件女性大衣的CTR或者音乐场景中,用户最近在听rap,给他推荐一些中国新说唱的歌曲的CTR普通做法,对用户历史行为的item embedding做average pooling但是实际中,用户行为中有些跟当前推荐物品有关,有些跟当前物品无关,比如女性偶尔给男朋友买了球鞋,偶尔听到一首热门歌曲,其实...

2020-01-11 21:57:29 4805

原创 DeepFM模型介绍

DeepFM实践FM模型DeepFM模型代码实践FM模型作用:将特征向量化后,利用特征向量的点积作为交叉项的权重,从而进行自动二阶交叉。优点:泛化能力强,尤其是大规模稀疏特征场景,对于没有同时出现的特征交叉也可以学到权重。本质上,MF模型是FM模型的特例,MF可以被认为是只有User ID 和Item ID这两个特征Fields的FM模型,MF将这两类特征通过矩阵分解,来达到将这两类特征...

2020-01-11 18:07:02 1678 1

原创 推荐系统总结

介绍推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。常用的算法如下: 1. 规则模型 (Apriori算法) 2. 协同过滤 (User-based / Item-based)规则模型(Apriori算法)找出所有频繁项集,频繁性大于等于最小支持度根据频繁项集产生强关联规则,并满足最小支持度和最小置信度支持度 (X=&

2018-07-11 23:33:13 5869

原创 多客户端传感器数据采集系统

多客户端传感器数据采集系统GitHub项目地址:https://github.com/LeoCai/Multi-Sensor-DataCollector项目简介用于多客户端传感器采集和发送;可用于科研采集数据;可利用wifi实时传输传感器数据;支持一个主节点进行蓝牙控制,多个从节点同时开始采集数据;支持利用sokect实时传输传感器数据到服务器 待解决问题sockect模式下不能

2017-01-02 14:50:23 6326

原创 基于rsync同步算法的文件同步系统JAVA实现(五)—— 重组数据块

作用:从服务器端发送回来的未匹配数据报中提取数据,并依据匹配的数组和数据报的编号(均是服务器发送回来)与不完整文件进行重新组合,从而生成完整文件。基本算法: 用一个currentindex变量记录当前数据块编号,先读取一块返回的数据块,和它的对应编号index(前一个数据块的编号),如果index>currentindex,根据currentindex从filematchindex

2013-08-26 23:13:53 2542

原创 基于rsync同步算法的文件同步系统JAVA实现(四)——分析并发送不匹配数据块

作用:利用不完整文件的校验快所构成的哈希表顺序查询完整文件的校验块,从而得出匹配情况,并返回不匹配数据块及其相应编号,当然还有一些控制信息。由于该过程比较复杂,所以最好设计一个数据报,便于客户端分析和重组文件。数据报格式:字段:IndexFlag(1字节)Index(4字节)Length(1字节)Buffer(可变,小于等

2013-08-25 15:56:49 1947

原创 基于rsync同步算法的文件同步系统JAVA实现(三)——校验码哈希表的建立

作用:通过建立不完整文件的校验块构成的哈希表,快速检查完整文件的数据块的匹配情况,并返回校验快的编号。基本结构:以二维数组为容器,以滚动校验为哈希索引,以md4校验码值为值。另外增加一个二维数组来记录校验块的编号(用于重组)。注意点:哈希索引冲突时,跟在当前索引的数组队列中。查找时在索引下一次查找数组队列,直到不为null。相同校验码不重

2013-08-24 13:53:39 2142 1

原创 基于rsync同步算法的文件同步系统JAVA实现(二)——校验码的生成

作用:分析过程需要不完整文件各个数据块的两种校验:滚动校验和md4校验,先对完整文件的各个分块依次进行滚动校验,若相同再进行md4校验,若再次相同说明数据块匹配,否则不匹配,在文件中向后移动一个字节形成的新分块进行校验(利用滚动校验的特性可以很快完成)。核心算法1-滚动校验:弱校验,优点是速度快(但不能保证唯一性),两种校验函数,一种是根据一整个数据块生成校验码,另一种是根据前一个数据

2013-08-23 21:07:00 2449 1

原创 基于rsync同步算法的文件同步系统JAVA实现(一)——项目介绍

项目主要功能:用java实现的类似rsync项目的文件同步:A拥有不完整文件file_half,B拥有完整文件file_total,A向B发送不完整文件的校验码信息,B利用完整文件进行分析后返回差异数据块,A收到差异数据块后与不完整文件file_half进行重组形成完整文件file_total_copy。优点:同步时传送的文件内容只是差异文件,则可以减少传输的数据,减少同步时间(主

2013-08-22 22:44:12 9277 9

原创 歌曲推荐场景下如何做好内容分发

场景分发推歌歌曲分发vip歌曲分发长尾歌曲架构歌曲池,歌曲倒排索引,召回,排序,探索,实时监控召回协同过滤(itembased)数据:用户最近180天完整播放且收藏的歌曲 uid: sid1, sid2, sid3mapreduce 计算歌曲共现数和各个歌曲的总次数相似度函数: jaccard 相似输出:歌曲到相似歌曲的映射表sid1 \t sid2,sid3,sid...

2020-01-12 23:21:38 350

原创 RNN LSTM GRU介绍

RNN在实际应用中,我们会遇到很多序列形的数据为了建模序列问题,RNN引入了隐状态h(hidden state)的概念,h可以对序列形的数据提取特征,接着再转换为输出。每一步使用的参数U、W、b都是一样的,也就是说每个步骤的参数都是共享的,这是RNN的重要特点LSTM长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程...

2020-01-12 16:32:57 1033

原创 推荐系统中的用户冷启动问题

问题在推荐系统中,新用户进入系统,缺乏用户行为特征,无法准确地用常用的CF等方法进行推荐。方案利用用户注册信息人口统计学信息: 年龄 性别 职业 名族 学历 居住地: 计算离线相关表(按照一定权重相加,或者) 给用户推荐热门物品并不是推荐系统的主要任 务,推荐系统应该帮助用户发现他们不容易发现的物品, 里分母中使用参数 的目的是解决数据稀疏问题。比如有一个物品只被...

2018-09-05 23:30:52 2945 2

原创 tensorflow wide and deep 模型实践

tensorflow 环境搭建wide and deep demowide and deep 介绍https://github.com/tensorflow/models/tree/master/official/wide_deep https://ai.googleblog.com/2016/06/wide-deep-learning-better-together-wit...

2018-09-01 21:40:13 2529

原创 利用spark ml 进行协同过滤推荐

https://spark.apache.org/docs/latest/spark环境搭建Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.3.1 uses Scala 2.11. You will need to use a compatible Scala version (2...

2018-09-01 15:54:50 2879 1

原创 FastText算法调研

介绍词向量表示和每个n-gram相关联;单词用这些向量的和表示。这个方法很快,能够在大的语料库计算词语呈现,并且允许没有在训练库中出现的词语。大多数现有的方法用一个唯一的向量表示,且参数不共享,忽略了词语内部的结构,这对那些多种形态的语言有很大限制。 因为许多单词形式如下规则,可以改进矢量表示对于形态丰富的语言,使用字符级别信息. 这篇文章用n-gram的单词学习词语呈现,并且用这些向...

2018-07-29 19:16:34 1450 2

原创 SVM学习总结

介绍在机器学习中,支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络[1])是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类...

2018-07-17 01:11:06 1659

原创 常见集成模型总结

简介Bagging, Boosting 和 StackingBagging(Bootstrap汇总)是一种集成方法。首先,我们创建随机训练数据集样本(训练数据集的子集)。然后我们为每个样本建立分类器。最后,这些多分类器的结果将结合起来,使用平均或多数投票。Bagging有助于降低方差。 Boosting提供了预测模块的连续学习功能。第一个预测模块从整个数据集上学习,下一个预测模块在前...

2018-07-16 22:56:08 10265 1

原创 天池大数据比赛-天体分类总结

赛题介绍比赛链接: https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100150.711.8.5f712784mldsqp&raceId=231646在天文学中,光谱描述了天体的辐射特性,以不同波长处辐射强度的分布来表示。每条观测得到的光谱主要是由黑体辐射产生的连续谱、天体中元素的原子能级跃迁产生的...

2018-07-15 23:02:40 8681

原创 JobHarvest——虚拟机性能监控实例

概述 Jps监控  $ jps -l6280 sun.tools.jps.Jps9028 org.jetbrains.jps.cmdline.Launcher7132 com.intellij.rt.execution.application.AppMain13684分析:因为是在IDEA运行的程序,所以主类的全名应该是com.intellij.rt.execu

2016-08-07 17:36:29 762 4

原创 JobHarvest——利用springAOP进行运行性能测评(更新中)

测试准备写了一个简单测试函数耗时的工具类(以后用spring aop代替)public class ProfileUtils { private static Map tempTime = new HashMap<>(); private static Map avgTime = new TreeMap<>(); public static void star

2016-08-07 15:40:39 1004

原创 JobHarvest——校招并发爬虫系统(更新中)

就业季到了,现在的校招从7月份就差不多陆续开始了,但很多信息经常受限于地域,学校,很多学生会苦于找不到安全合理的渠道进行内推,网申等。现在比较靠谱的内推消息一般来自于各大名校的官方bbs,比如北邮人论坛。。。于是我决定做一个爬虫,专门自动收集各个论坛的就业信息从没写过爬虫,但对网页html有所了解,大概知道通过分析html结点得到自己所需的结点内容即可,先查阅资料怎么写爬虫的基本方法。

2016-07-29 23:30:19 1007

转载 Linux IO模式及 select、poll、epoll详解

转自:https://segmentfault.com/a/1190000003063859同步IO和异步IO,阻塞IO和非阻塞IO分别是什么,到底有什么区别?不同的人在不同的上下文下给出的答案是不同的。所以先限定一下本文的上下文。本文讨论的背景是Linux环境下的network IO。一 概念说明在进行解释之前,首先要说明几个概念:- 用户空间和内核空间- 进程切换

2016-07-25 12:55:48 378

转载 SpringMVC学习笔记

转自:http://www.cnblogs.com/sunniest/p/4555801.htmlSpringMVC学习笔记----一、SpringMVC基础入门,创建一个HelloWorld程序1.首先,导入SpringMVC需要的jar包。2.添加Web.xml配置文件中关于SpringMVC的配置 configure the sett

2016-07-21 09:25:29 338

转载 MySQL优化总结

转自:http://www.cnblogs.com/villion/archive/2009/07/23/1893765.html对于一个以数据为中心的应用,数据库的好坏直接影响到程序的性能,因此数据库性能至关重要。一般来说,要保证数据库的效率,要做好以下四个方面的工作:数据库设计、sql语句优化、数据库参数配置、恰当的硬件资源和操作系统,这个顺序也表现了这四个工作对性能影响的大小。下面我们逐

2016-07-17 12:59:01 432

转载 JAVA 中BIO,NIO,AIO的理解

转自:http://qindongliang.iteye.com/blog/2018539在高性能的IO体系设计中,有几个名词概念常常会使我们感到迷惑不解。具体如下: 序号问题1什么是同步?2什么是异步?3什么是阻塞?4什么是非阻塞?5什么是同步阻塞?6什么是同步非阻塞?

2016-07-17 10:47:56 259

转载 JAVA NIO

转自:https://www.ibm.com/developerworks/cn/java/j-lo-javaio/NIO 的工作方式BIO 带来的挑战BIO 即阻塞 I/O,不管是磁盘 I/O 还是网络 I/O,数据在写入 OutputStream 或者从 InputStream 读取时都有可能会阻塞。一旦有线程阻塞将会失去 CPU 的使用权,这在当前的大规模访问

2016-07-16 22:03:28 392

转载 分布式JAVA应用中设计到的知识点-转自《分布式JAVA应用:基础与实践》

2016-07-16 21:57:48 294

转载 说说MySQL中的事务

转自:http://www.jellythink.com/archives/952简单说说事务对于上面的取钱这个事情,如果有一步出现了错误,那么就取消整个取钱的动作;简单来说,就是取钱这7步,要么都完成,要么就啥也不做。在数据库中,事务也是这个道理。事务由一条或者多条sql语句组成,在事务中的操作,这些sql语句要么都执行,要么都不执行,这就是事务的目的。对

2016-07-16 21:26:40 1488

转载 Java集合类源码分析汇总

转自:http://www.cnblogs.com/hzmark/archive/2013/01/05/JavaCollectionSum.htmlJava集合类基础:http://www.cnblogs.com/hzmark/archive/2012/12/17/CollectionBase.htmlArrayList源码分析:http://www.cnblogs.com/h

2016-07-16 21:23:48 2342

转载 秒杀系统架构分析与实战

转载自:http://my.oschina.net/xianggao/blog/524943#OSC_h1_120 系列目录秒杀系统架构秒杀系统架构分析与实战1 秒杀业务分析正常电子商务流程(1)查询商品;(2)创建订单;(3)扣减库存;(4)更新订单;(5)付款;(6)卖家发货秒杀业务的特性(1)低廉价格;(2)大幅推广;(3)瞬时售空

2016-07-16 21:20:45 492

转载 MySQL性能优化的最佳20+条经验

1. 为查询缓存优化你的查询大多数的MySQL服务器都开启了查询缓存。这是提高性最有效的方法之一,而且这是被MySQL的数据库引擎处理的。当有很多相同的查询被执行了多次的时候,这些查询结果会被放到一个缓存中,这样,后续的相同的查询就不用操作表而直接访问缓存结果了。这里最主要的问题是,对于程序员来说,这个事情是很容易被忽略的。因为,我们某些查询语句会让MySQL不使用缓存。请看下面的示例:

2016-03-23 16:51:49 435

原创 如何在nao-robot上构建第三方软件

Nao是在学术领域世界范围内运用最广泛的类人机器人。法国AldebaranRobotics公司将Nao的技术开放给所有的高等教育项目,并于2010年成立基金会支持在机器人及其应用领域的教学项目。Nao运行在开源的linux上(gentoo发行版,在本文中我们称之为nao-os),其核心软件是naoqi,开发者可以用多种语言通过调用naoqi的api驱动Nao。但是开发者如果需要构建第三

2014-10-19 15:05:54 2407

原创 BlueZ的学习资源推荐

众所周知,现在很多设备开始用上类蓝牙4.0技术

2014-10-18 21:50:44 7553

翻译 EstimoteSDK-Android 文档翻译

Package com.estimote.sdkInterface Summary接口概要BeaconManager.ErrorListenerCallback to be invoked when any error happened while performing low energy scanning.当进行低功耗浏览发生任何错误

2014-07-18 11:08:30 3239

原创 js写的一个html游戏向导模块

依旧是最近的一个游戏

2014-05-01 23:24:43 2084

原创 js/jquery写的一个定制对话框控件

最近在做一个游戏项目,

2014-04-30 23:51:21 1224

原创 php写的一个简单路由控制类

最近写一个项目后台用到php,我对php了解不深,

2014-04-30 23:32:19 3325

javafx2.0官方例子

javafx2.0,java,javafx,例子,代码 Sun公司(已于20092008年12月05日发布了JavaFX技术的正式版,它使您能利用 JavaFX 编程语 言开发富互联网应用程序(RIA)。JavaFX Script编程语言(以下称为JavaFX)是Sun微系统公司开发的一种declarative,statically typed(声明性的、静态类型)脚本语言。JavaFX技术有着良好的前景,包括可以直接调用Java API的能力。因为 JavaFX Script是静态类型,它同样具有结构化代码、重用性和封装性,如包、类、继承和单独编译和发布单元,这些特性使得使用Java技术创建和管理大型程序变为可能。

2013-05-19

rsync源代码

rsync源代码,3.0.9 rsync是类unix系统下的数据镜像备份工具,从软件的命名上就可以看出来了——remote sync

2013-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除