- 博客(36)
- 收藏
- 关注
原创 Few-Shot Learning with Graph Neural Networks
2 Related Workmeta-learners方式: 典型代表是, Mishra et al. (2017) used Temporal Convolutions which are deep recurrent networks based on dilated convolutions(扩张卷积), this method also exploits contextual inform...
2018-02-28 10:29:17 6978 5
原创 TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems
TensorFlow ,关于谷歌开源图图计算引擎TF的设计思想的『白皮书』-经典论文。
2017-08-29 10:09:07 2578
原创 Optimal Auction Design 最优拍卖论文笔记
myersion 的经典拍卖机制设计建模论文。针对seller 给众多竞价者拍卖物品,如何获得最大的收益的问题,本文提出一种较普遍的优化方法(construct such optimal auctions for a wide class of sellers' auction design proble
2017-08-29 09:58:44 6796 3
原创 Optimized Cost per Click in Taobao Display Advertising-oCPC 店商广告投放经典论文
欢迎转载,请注明出处:1、背景简介开篇之前先咳咳瓜子磨磨牙,之前了解oCPC概念是从今日头条流传出来的,之后各种寻找终于找到大淘宝的一篇开创性的论文。点个赞!下面正式开始。文章提出了Optimized Cost per Click(oCPC)方式去优化广告的排序问题-自动动态调整广告主对流量的竞价bid,控制roi的同时提高gmv。具体场景是淘宝这种能拿到最终转化数据的平台
2017-06-22 22:52:50 6830 1
原创 DNN网络结构设计浅析之GoogLeNet
1、背景简介自从2012年的AlexNet 深度神经网络在ImageNet 竞赛中夺冠后,DNN迅速席卷整个CV 领域。介绍一下ImageNet: ImageNet 是一个计算机视觉系统识别项目数据库。是美国斯坦福的计算机科学家李菲菲团队组织建成的。包括海量的高质量图像数据集建设,以及基于该数据集设置的比赛 ILSVRC(ImageNet Large Scale Visual Re
2017-06-22 22:27:18 3928
原创 2016 年度消费信贷建模小结
一、2016年度忙碌的工作与技术积累1.1 第一版通用信用模型:201601 开始建模。梳理大数据特征风控建模的过程如下:样本:从LDYS购买到sms中收到逾期3次以上定义为坏,从来没有收到逾期的定义为好。特征:细粒度搜索词、大数据用户画像(自然属性、社会属性、兴趣与需求属性)、LBS(家、公司、到访等)、各大类产品线按每1/3/6/12月做
2017-01-20 14:01:40 2702
原创 2016 小结之用户所在行业画像
画像标签中的用户所在行业挖掘,是一个典型的日志文本挖掘,给用户打上有价值的高级标签的过程。设计到数据挖掘的全过程。对数据挖掘的要求层面较高。
2015-12-26 15:34:52 2764
转载 机器学习中的代数结构的建立
Learning是一个融会多种数学于一体的领域。说起与此有关的数学学科,我们可能会迅速联想到线性代数以及建立在向量空间基础上的统计模型——事实上,主流的论文中确实在很大程度上基于它们。R^n (n-维实向量空间) 是我们在paper中见到最多的空间,它确实非常重要和实用,但是,仅仅依靠它来描述我们的世界并不足够。事实上,数学家们给我们提供了丰富得多的工具。 “空间”(space
2013-10-07 10:48:26 910
原创 J48 源码学习| Weka
J48 C4.5决策树算法源码学习 题记: 之前虽然对 J48 用得比较多,是由于它能方便的区别特征的好坏。 工作了,希望自己能更深入, 如是开始了这个算法学习系列。 希望和大家共同进步。个人对看算法源代码也没有很好的流程,计划先采用 按类Class 做架构介绍;再深入代码具体逻辑的方式展开。 欢迎大家提出好的算法源码阅读流程。一、 准备工作。下载 weka 的工具包,将 wek
2013-08-25 20:38:26 3318
原创 ac自动机
AC 可以引用同时匹配多个模式串的场景中, 现将C 实现代码贴下,代码不是很规范,请包涵。 如个实现上任何不当之处,欢迎指正。#define NULL 0#define PTYPE_AC char*#define get_idx(x) ((x)-'a')const int K = 26;// 26个字母typedef struct _node{ struct _n
2012-10-01 06:31:50 775
原创 逆转链方法遍历二叉树 不使用栈与递归 Robson方法 与 Morris方法
部分图文转自: http://hi.baidu.com/chenxiong0115/blog/item/2ace8512751e950f5baf53e5.html参考: http://blog.csdn.net/billfranck/article/details/4525633一、J.M.Robson方法 基于逆转链二叉树遍历思想,非递归无额外栈的二叉
2012-05-07 11:58:34 1530
原创 基于 double array 实现汉字的trie树索引 与 查询功能 python实现
一、 基本原理。基本原理:利用字符串集合中字符串的公共前缀来降低时间开销以达到提高效率的目的。性质:1,根结点不包含任何字符信息;2,如果字符的种数为n(如英文的26个字母),则每个结点的出度为n(这样必然会导致浪费很多空间,这也是trie的缺点,我还没有想到好点的办法避免);3,查找,插入复杂度为O(n),n为字符串长度。具体请百度之。二、基于 trie字典的汉字
2012-04-08 21:05:28 2248
转载 大数据集处理策略 Bloom-Filter trie树
大数据量处理是,除标题中提到的策略外,还有:外排序。要点有:归并方法,置换选择 败者树原理,最优归并树 倒排索引。快排序、堆排序等的变体版本。数据库。A trie 树一、Trie的示意图如图所示,该trie树存有abc、d、da、dda四个字符串,如果是字符串会在节点的尾部进行标记。没有后续字符的branch分支指向NULL二、实例。tri
2012-04-01 19:50:23 1552
转载 python 性能优化(2)
http://www.oschina.net/question/1579_45822第二部分 有益的提醒,静态编译的代码仍然重要. 仅例举几例, Chrome,Firefox,MySQL,MS Office 和 Photoshop都是高度优化的软件,我们每天都在使用. Python作为解析语言,很明显不适合. 不能单靠Python来满足那些性能是首要指示的领域. 这就是为什么
2012-03-28 13:29:47 964
转载 【转】 linux fork()详解
一、fork入门知识 一个进程,包括代码、数据和分配给进程的资源。fork()函数通过系统调用创建一个与原来进程几乎完全相同的进程,也就是两个进程可以做完全相同的事,但如果初始参数或者传入的变量不同,两个进程也可以做不同的事。 一个进程调用fork()函数后,系统先给新的进程分配资源,例如存储数据和代码的空间。然后把原来的进程的所有值都复制到新的新进程中,只有少数值与原来
2012-03-26 22:39:44 587
转载 C系代码内存处理优化分析
现象1 压力测试过程中,发现被测对象性能不够理想,具体表现为: 进程的系统态CPU消耗20,用户态CPU消耗10,系统idle大约70 2 用ps -o majflt,minflt -C program命令查看,发现majflt每秒增量为0,而minflt每秒增量大于10000。初步分析majflt代表major fault,中文名叫大错误,minflt代表minor
2012-03-16 14:52:21 792
原创 在 UltraEdit 中安装jlint 对javascript做语法检查
1、 下载 jslint .http://www.javascriptlint.com/download.htm再将 jslint 解压到指定的程序安装目录 ,以下以目录: c:\Program Files\jsl-0.3.0 为例进行讲解。2、配置UltraEdit 进入 UltraEdit ,点击“高级” -> "工具配置“;开始路径设置吧(具体见下图)~~~~说明:
2012-02-17 15:06:41 2373
转载 坚持四项基本原则,开发鲁棒性NLP系统
以前说过,一个 real life 自然语言处理系统,其质量和可用度除了传统的 data quality 的衡量指标查准度(precision)和查全度(recall)外,还有更为重要的三大指标:海量处理能力(scalability), 深度(depth)和鲁棒性(robustness)(参见:《“三好”立委要做“三有”系统》)。 本文就简单谈一下鲁棒性。为了取得语言处理的鲁棒
2011-12-27 16:21:45 1529
转载 memcached分布式
http://blog.csdn.net/cutesource/article/details/5848253memcached是应用最广的开源cache产品,它本身不提供分布式的解决方案,我猜想一方面它想尽量保持产品简单高效,另一方面cache的key-value的特性使得让memcached分布式起来比较简单。memcached的分布式主要在于客户端,通过客户端的路由处理来搭建me
2011-12-26 20:30:04 1106 1
转载 mysql 视图 view
一,什么视图视图是存放数据的一个接口,也可以说是虚拟的表。这些数据可以是从一个或几个基本表(或视图)的数据。也可以是用户自已定义的数据。其实视图里面不存放数据的,数据还是放在基本表里面,基本表里面的数据发生变动时,视图里面的数据随之变动。视图使用的限制: http://blog.51yip.com/mysql/1065.html二,视图有什么用1,视图可以让查询变得很清
2011-12-26 20:20:23 648
转载 lua math库
math.pi = = 3.14159265358979323846abs取绝对值math.abs(-15)15acos反余弦函数math.acos(0.5)1.04719755asin反正弦函数math.asin
2011-12-23 13:56:32 3582
转载 windows快捷键使用列表
常见用法 F1 显示当前程序或者windows的帮助内容。 F2 当你选中一个文件的话,这意味着“重命名” F3 当你在桌面上的时候是打开“查找:所有文件” 对话框 F5 刷新 F10或ALT 激活当前程序的菜单栏 F11当你在打开网页时,是隐藏侧边栏 F12在编辑好Excel 或Word文档,可“另存为
2011-12-04 19:27:46 538
转载 curl 命令使用
1)初体验curl http://www.yahoo.com回车之后,www.yahoo.com 的html就稀里哗啦地显示在屏幕上了~2)保存页面curl http://www.yahoo.com > page.html或者用curl的内置option,存下http的结果curl -o page.html http://www.yahoo.com3
2011-12-01 20:00:04 1644
转载 三种web性能压力测试工具http_load webbench apache benc
题记:压力和性能测试工具很多,下文讨论的是我觉得比较容易上手,用的比较多的三种http_load下载地址:http://www.acme.com/software/http_load/http_load-12mar2006.tar.gz程序非常小,解压后也不到100K 居家旅行 携带方便 呵呵http_load以并行复用的方式运行,用以测试web服务器的吞吐
2011-11-29 16:18:25 834
原创 nginx 配置文件解析--二
nginx服务器中操作: (默认安装了春哥的ngx_echo 模块: ./configure --add-module=path_echo-nginx-module)nginx API 默认以的参数默认以&作为分隔符。eg: http://localhost/Npath?cmd=aa&day=2010-12-12 .1、添加新的API路径 Npath server {locat
2011-11-27 15:25:35 1911
转载 nginx 配置文件实例
转: http://blog.sina.com.cn/s/blog_474cf12b0100fyr2.html Nginx配置文件非常重要,很多实用的功能都需要在此文件进行配置后,方可使用。此文件路径为/usr/local/nginx/conf/nginx.conf.以下是其内容的详细说明,有网上转载的内容,有的是我自己实际应用时添加的内容。一、基本配置
2011-11-26 21:34:46 2598
转载 使用单元测试 Boost.test
http://www.cnblogs.com/zhihuichien/archive/2010/09/01/1815185.html 使用单元测试已有一段时间,在使用过程中,觉得Boost.test的介绍中对单元测试的总结是非常恰当的: (1)需求确定后,先写单元测试代码,测试代码随需求而变。 (2)测试代码着眼于被测代码应该如何运行,而不是复现被测代码是
2011-10-29 22:46:58 1211
转载 将SVM用于多类分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标
2011-10-26 22:37:29 610
转载 系统启动时提示 ntldr is missing
http://wenwen.soso.com/z/q57629107.htm我们偶尔会遇到系统启动时显示“NTLDR is missing”而无法进入系统的情况。其实导致该故障的原因多,但网上绝大部分文章都只针对一种情况进行讨论。下面笔者将各种情况和原因进行汇总,希望对大家有所帮助。一、NTLDR损坏或丢失这种情况解决起来比较简单,而且比较常见,所以也是我们遇到该故障时首先采取的一种方
2011-10-26 15:10:14 998 1
转载 浏览器工作原理拆解分析
本文将深入的研究当你输入一个网址的时候,后台到底发生了一件件什么样的事~原文转自: http://blog.csdn.net/boboo8402032/article/details/6180977 。1. 首先嘛,你得在浏览器里输入网址:2. 浏览器查找域名的IP地址导航的第一步是通过访问的域名找出其IP地址。DNS查找过程如下:浏览器缓存 – 浏览器会缓存DNS
2011-10-19 16:44:41 536
转载 条件随机场(CRF)学习
A conditional random field may be viewed as an undirected graphical model, or Markov random field [3], globally conditioned on X, the random
2011-09-22 15:06:44 3240
转载 socket编程 协议集
SOL_SOCKET、IPPROTO_IP、IPPROTO_TCP和NSPROTO_IPX选项级别来自: http://www.cppblog.com/lapcca/archive/2010/05/07/114727.htmlint P
2011-07-10 13:14:51 771
转载 windows 7家庭版升级为旗舰版 序列
发现预装Win7家庭普通版系统的机器免费升级为旗舰版,自己亲自试验成功!!!其实是可以升级为任意版本,只要有该版本的公用OEM序列号就可以了!无需格式化硬盘重新安装系统!方法如下:1.点击开始,找到Windows Anytime Upgrade;2.进入控制面板——Win
2011-06-19 16:44:00 663
转载 inf 与 ini 文件的配置与C++读取
INF是Device INFormation File的英文缩写,是Microsoft公司为硬件设备制造商发布其驱动程序推出的一种文件格式,INF文件中包含硬件设备的信息或脚本以控制硬件操作。 INFI的功能 1 复制文件、删除文件、或重新命名文件。2 新增或
2011-03-16 21:57:00 2444
转载 MySQL:日期函数、时间函数总结(MySQL 5.X)
一、MySQL 获得当前日期时间 函数1.1 获得当前日期+时间(date + time)函数:now()mysql> select now();+---------------------+| now() |+----------
2011-02-24 21:02:00 444
转载 Python中使用Struct数据格式转换
struct.packstruct.pack用于将Python的值根据格式符,转换为字符串(因为Python中没有字节(Byte)类型,可以把这里的字符串理解为字节流,或字节数组)。其函数原型为:struct.pack(fmt, v1, v2, …),参数fmt是格式字符
2011-02-23 15:05:00 786
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人