自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 干货 | 成为一名推荐系统工程师永远都不晚

推荐系统工程师技能树掌握核心原理的技能数学:微积分,统计学,线性代数 周边学科:信息论基础 推荐算法:CF,LR,SVM,FM,FTRL,GBDT,RF,SVD,RBM,RNN,LSTM,RL 数据挖掘:分类,聚类,回归,降维,特征选择,模型评价实现系统检验想法的技能:操作系统:Linux 

2017-12-27 12:01:04 534

转载 MySQL分组查询Group By实现原理详解

在MySQL 中,GROUP BY 的实现同样有多种(三种)方式,其中有两种方式会利用现有的索引信息来完成 GROUP BY,另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析由于GROUP BY 实际上也同样会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些

2017-03-28 11:29:15 1076

转载 十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题  1、海量日志数据,提取出某日访问百度次数最多的那个IP。  此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。  再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多

2016-07-28 15:51:19 420

原创 堆排序 及 优先队列

思想堆排序,顾名思义,就是基于堆。因此先来介绍一下堆的概念。堆分为最大堆和最小堆,其实就是完全二叉树。最大堆要求节点的元素都要大于其孩子,最小堆要求节点元素都小于其左右孩子,两者对左右孩子的大小关系不做任何要求,其实很好理解。有了上面的定义,我们可以得知,处于最大堆的根节点的元素一定是这个堆中的最大值。其实我们的堆排序算法就是抓住了堆的这一特点,每次都取堆顶的元素,将其放在序列最后面,然后

2016-07-04 10:23:14 612

转载 MYSQL order by排序与索引关系总结

MySQL InnoDB B-Tree索引使用Tips这里主要讨论一下InnoDB B-Tree索引的使用,不提设计,只管使用。B-Tree索引主要作用于WHERE和ORDER BY子句。这里讨论的均在MySQL-Server-5.1.42测试CREATE TABLE `friends` ( `ID` int(10) UNSIGNED NOT NULL AUTO_INCREMENT, `u

2016-06-22 21:53:17 5066

转载 提高mysql千万级大数据SQL查询优化30条经验(Mysql索引优化注意)

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select

2016-06-22 09:05:08 609

原创 MySql 快速插入千万级大数据

在数据分析领域,数据库是我们的好帮手。不仅可以接受我们的查询时间,还可以在这基础上做进一步分析。所以,我们必然要在数据库插入数据。在实际应用中,我们经常遇到千万级,甚至更大的数据量。如果没有一个快速的插入方法,则会事倍功半,花费大量的时间。在参加阿里的天池大数据算法竞赛中(流行音乐趋势预测),我遇到了这样的问题,在没有优化数据库查询及插入之前,我花了不少冤枉时间,没有优化之前,1500万条数据

2016-06-17 10:08:42 24255 4

转载 next_permutation原理剖析

最近刷leetcode的时候遇见next permutation这道题,感觉挺有意思的一个题目,递归的方法是较简单并且容易想到的,在网上搜了其余的解法,就是std::next_permutation非递归解法,但是让人不是很舒服的就是关于原理的部分,千篇一律的都是摘抄《STL源码剖析》,也就是这样的。在当前序列中,从尾端往前寻找两个相邻元素,前一个记为*i,后一个记为*ii,并且满足*i

2016-05-08 17:41:04 416

转载 JAVA 异常 throwable exception error throws throw

1.如何理解Exception,Error和Throwable     Throwable是Exception和Error的父类.     Error表示错误,一般是系统级的错误!      Exception一般是程序运行期间的错误!         通常在使用  try{}catch(Exception e){} 这种结构的时候,只能找到一半的错误,也就是说只能捕获Exce

2016-04-18 14:24:39 382

原创 物联网开源平台KAA

最近在做一个物联网项目,需要将传感器的数据传输到远程主机进行数据分析,经过多方调研及实验确定采用开源平台kAA+Raspberry结合的方式开发。KAA负责数据的传输与入库,Raspberry负责数据的采集与发送。KAA官网www.kaaproject.org,Raspberry是一个Linux内核的微型电脑,有针脚可以与传感器连接。

2016-04-15 11:09:19 13359 2

转载 物联网时代的35款开源工具

物联网时代的35款开源工具    refer:http://os.51cto.com/art/201409/451092.htm       开源物联网正在迅猛发展。本文介绍的这些软硬件项目可以帮助公司企业和DIY爱好者体验与互联网连接的设备。       要是近些年来你以任何一种方式参与过IT行业,恐怕就听过“物联网”(即IoT)这个术语。据知名调研机构Gartner声称

2016-04-15 10:56:31 4553

原创 明-海瑞 《治安疏》

户部云南清吏司主事臣海瑞谨奏:  为直言天下第一事以正君道、明臣职,求万世治安事。  君者,天下臣民万物之主也。惟其为天下臣民万物之主,责任至重,凡民生利瘼一有所不闻,将一有所不得知而行,其任为不称。是故 养君之道,宜无不备,而以其责寄臣工,使尽言焉。臣工尽言而君道斯称矣。昔之务为容悦、谀顺曲从,致使实祸蔽塞,主不上闻焉,无足言矣。过为计者,则又曰:“君子危明主、忧治世。”夫世则治

2016-04-15 10:49:24 2484

转载 深入分析 Java I/O 的工作机制

I/O 问题可以说是当今互联网 Web 应用中所面临的主要问题之一,因为当前在这个海量数据时代,数据在网络中随处流动。这个流动的过程中都涉及到 I/O 问题,可以说大部分 Web 应用系统的瓶颈都是 I/O 瓶颈。本文的目的正是分析 I/O 的内在工作机制,你将了解到:Java 的 I/O 类库的基本架构;磁盘 I/O 工作机制;网络 I/O 的工作机制;其中以网络 I/O 为重点介绍 Java Socket 的工作方式;你还将了解到 NIO 的工作方式,还有同步和异步以及阻塞与非阻塞的区别,最后我们将介绍

2015-11-27 20:00:48 366

转载 Java 中InputStream与Reader的区别

java.io下面有两个抽象类:InputStream和ReaderInputStream是表示字节输入流的所有类的超类Reader是用于读取字符流的抽象类InputStream提供的是字节流的读取,而非文本读取,这是和Reader类的根本区别。即用Reader读取出来的是char数组或者String ,使用InputStream读取出来的是byte数组。弄清了两个超类的根本区

2015-11-27 17:12:20 370

转载 海量数据处理算法—Bit-Map

转自:http://blog.csdn.net/hguisu/article/details/78802881. Bit Map算法简介        来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。2、 Bit Map的基本思

2015-11-25 15:01:15 353

原创 LeetCode Swap Nodes in Pairs

Given a linked list, swap every two adjacent nodes and return its head.For example,Given 1->2->3->4, you should return the list as 2->1->4->3.Your algorithm should use only constant space. Y

2015-11-23 16:23:46 395

转载 JAVA面试题集

原貼地址 http://blog.csdn.net/donkeyzheng/archive/2006/03/22/632762.aspx1.C++或Java中的异常处理机制的简单原理和应用。当JAVA程序违反了JAVA的语义规则时,JAVA虚拟机就会将发生的错误表示为一个异常。违反语义规则包括2种情况。一种是JAVA类库内置的语义检查。例如数组下标越界,会引发IndexOutO

2015-11-20 16:49:59 489

转载 字节流与字符流的区别

字节流与字符流先来看一下流的概念:在程序中所有的数据都是以流的方式进行传输或保存的,程序需要数据的时候要使用输入流读取数据,而当程序需要将一些数据保存起来的时候,就要使用输出流完成。程序中的输入输出都是以流的形式保存的,流中保存的实际上全都是字节文件。字节流与字符流在java.io包中操作文件内容的主要有两大类:字节流、字符流,两类都分为输入和输出操作。在字

2015-11-20 10:37:09 471

转载 机器学习-逻辑回归-参数迭代公式推导

原始出处:http://sbp810050504.blog.51cto.com/2799422/1608064在《机器学习实战》一书的第5章中讲到了Logistic用于二分类问题。书中只是给出梯度上升算法代码,但是并没有给出数学推导。故哪怕是简单的几行代码,依然难以理解。 对于Logistic回归模型而言,需要读者具有高等数学、线性代数、概率论和数理统计的基础的数学基础

2015-11-16 21:47:09 10537 6

转载 网络设备与冲突域和广播域

[转自:lichao_o@126的博客]1、冲突域指的是会产生冲突的最小范围,在计算机和计算机通过设备互联时,会建立一条通道,如果这条通道只允许瞬间一个数据报文通过,那么在同时如果有两个或更多的数据报文想从这里通过时就会出现冲突了。冲突域的大小可以衡量设备的性能,多口hub的冲突域也只有一个,即所有的端口上的数据报文都要排队等待通过。而交换机就明显的缩小了冲突域的大小,使到每一个端口都

2015-04-06 18:24:04 10205

原创 博客感想-1

不断

2014-11-11 16:59:28 382

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除