自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

To be a coder

keep share

  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 矩阵向量求导

数据挖掘中常用到矩阵求导,而之前学的高数里求导没有矩阵,线性代数中矩阵没有求导。现总结如下:

2016-12-04 00:55:03 460

转载 文本数据的机器学习自动分类方法(下)

本文为第二部分,着重介绍特征向量权重的影响因素以及样本训练和分类评估方法。 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。首先来回顾一下上一篇所提到的文本分类的流程,如图 1所示,包括训练、特征抽取、训练模型、分类预测等几个主要环节。 图 1 文本分类流程图 (一):特征向量权重的影

2016-12-03 14:59:47 1010

转载 文本数据的机器学习自动分类方法(上)

本文为第一部分,着重介绍文本预处理以及特征抽取的方法。 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。“文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程”(达观数据科技联合创始人,张健)。文本分类有着广泛的应用场景,例如: 新闻网站包含大量报道文章,基于文章内容,需要将这些

2016-12-03 10:47:41 2056

原创 机器学习10大经典算法简介

C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2) 在树构造过程中进行剪枝;3) 能够完成对连续属性的离散化处理;4) 能够对不完整数据进行处理。C4.5算法有如下优点:产生的分类规则易于理解,准确率

2016-11-13 23:33:01 853

转载 Storm 性能优化

最近学习storm,本文是转自同事分享的内容: 场景假设 在介绍 Storm 的性能调优方法之前,假设一个场景: 项目组部署了3台机器,计划运行且仅运行 Storm(1.0.1) + Kafka(0.9.0.1) + Redis(3.2.1) 的小规模实验集群,集群的配置情况如下表: 现有一个任务,需要实时计算订单的各项汇总统计信息。订单数据通过 kafka 传输。在 Storm 中创建

2016-11-13 23:19:57 12653 1

原创 Java API操作hbase

最近用到hbase,由于hbase是Java语言开发的,用Java操作hbase比较方便,提供的方法很多。下面是一些操作例子。 创建/删除表(DDL):HBaseAdmin hBaseAdmin = new HBaseAdmin(configuration);if (hBaseAdmin.tableExists(tableName)) { hBaseAdmin.disableTable(ta

2016-10-16 16:17:02 382

原创 sqoop导数据总结

1.MySQL ==》HDFS: sqoop import –connect jdbc:mysql://hd03/test –username root –password 123456–table stu –target-dir /user/root/stu 2.向已经存在HDFS目录追加数据 sqoop import –connect jdbc:mysql://hd03/test –us

2016-10-16 12:10:15 341

原创 常用排序算法PHP最精确写法

常用排序算法,如 冒泡排序,选择排序,直接插入排序,快速排序。他们的时间复杂度分别为: 冒泡:O(n)-O(n^2) 选择:O(n) 插入:O(n)-O(n^2) 快排:O(nlog(n))-O(n) 下面是代码描述(PHP)<?php class SortArray{ //冒泡排序 public function bubbleSort2(&$array) {

2015-09-01 20:08:22 544

原创 PHP函数count、strlen效率分析

一直纠结PHP中统计数组长度函数count(),还有strlen是怎么的,它的效率是O(1)还是O(n)呢?最近看PHP源码,总结了下。分析如下: zend给php的所有变量都用共用体的方式去保存,而字符串的保存和数组的保存也是不同的,数组采用的是hash表的方式去保存。PHP的变量共用体描述如下/* * zval */ typedef struct _zval_struct

2015-08-28 09:51:42 1884

转载 c语言中malloc和calloc比较

C语言跟内存申请相关的函数主要有 alloca,calloc,malloc,free,realloc,sbrk等.  其中alloca是向栈申请内存,因此无需释放. malloc分配的内存是位于堆中的,并且没有初始化内存的内容,因此基本上malloc之后,调用函数memset来初始化这部分的内存空间.  calloc则将初始化这部分的内存,设置为0. 而realloc则对malloc申请的内存进行大

2015-08-14 20:03:52 1347

原创 DDos攻与防

DDos(Distributed Denial of Service),分布式拒绝服务,在游戏、在线业务等方面常会发现这样的攻击,一般是竞争对手所为。那DDOS攻击的方式有哪些呢? 1流量攻击(四层) 主要是针对网络带宽的攻击,即大量攻击包导致网络带宽被阻塞,合法网络包被虚假的攻击包淹没而无法到达主机。 1.1 SYN/ACK Flood攻击 这个是很古老的攻击方法了,不过前期还是挺凑效的,

2015-08-13 09:46:45 924

原创 session存储的替代方法redis

php默认使用文件存储session,如果并发量大,效率非常低。而redis对高并发的支持非常好,所以,可以使用redis替代文件存储session。 这里,介绍下php的session_set_save_handler 函数的作用和使用方法。该函数定义用户级session保存函数(如打开、关闭、写入等)。原型如下:bool session_set_save_hanler(callback

2015-08-10 09:46:39 3857

原创 lnmp日志分析

在开发时,通常需要记录一些log方便后期排错和优化。无论是php、nginx,还是MySQL数据库,都提供记录log功能,在适当的时候打开log记录功能,有助于我们发现代码中的各种问题。 1.php日志 在php的配置文件php.ini中设置下面的选项:;开启日志记录和记录的错误等级log_errors = on这样,一旦php在运行时遇到错误,就会被记录。log文件的格式:时间+错误级别+

2015-08-09 16:01:33 1801

原创 Linux下安装FTP服务器及配置

通常情况下,向服务器上传代码、文件,vsftp用的还是比较多的。下面是本人安装配置的过程。 Linux系统:centos6.6. 安装步骤 1.通过yum来安装vsftpd[root@localhost ~]# yum -y install vsftpd2.设置为开机启动[root@localhost ~]# chkconfig vsftpd on3.把下面几行注释去掉,让其配置生效:lo

2015-08-02 17:39:41 17361 1

原创 php变量的引用计数器和写时复制

众所周知,PHP是不支持指针的,但是如果希望两个变量同时指向同一内存块怎么办呢?为了解决这个问题,PHP内核里使用了引用计数器。 上篇博文介绍了PHP变量在内核中的存储方式了,zval结构中下面两个成员变量用于引用计数器:is_ref BOOL值,标识变量是否是引用集合。refcount 计算指向引用集合的变量个数。看下面的php代码<?php $a = "this is a";

2015-07-31 16:34:01 771

原创 PHP变量在zend内核中的存储方式

PHP中的变量可以保存任何的数据类型,这是因为它是弱类型语言。但php是用C语言编写的,C语言是强类型语言,每个变量都有固定的类型,不能随意改变变量的类型(可以通过强制类型转变,不过有可能出现问题),在zend引擎中是怎样可以做到一个变量保存任何类型的呢? 在zend/zend.h头文件中,会发现下面的结构体:typedef struct _zval_struct zval;typedef uni

2015-07-30 23:22:46 687

原创 mysql优化之索引建立的规则

索引常用的数据结构为B+树。结构如下如上图,是一颗b+树,关于b+树的定义可以参见B+树,这里只说一些重点,浅蓝色的块我们称之为一个磁盘块,可以看到每个磁盘块包含几个数据项(深蓝色所示)和指针(黄色所示),如磁盘块1包含数据项17和35,包含指针P1、P2、P3,P1表示小于17的磁盘块,P2表示在17和35之间的磁盘块,P3表示大于35的磁盘块。真实的数据存在于叶子节点即3、5、9、10、13、1

2015-07-29 16:09:46 1163

原创 一致性Hash算法php实现实例

下面使用php实现一致性Hash分布算法。 创建一个ConHash类,它有两个成员变量和三个成员方法。 变量: serverList//保存服务器列表serverList //保存服务器列表 isSorted //记录服务器列表是否已经排过序。 方法: addServer:添加一个服务器到服务器列表中 removeServer:从服务器列表中删除一个服务器 lookup:从当前服

2015-07-28 20:46:26 651

转载 MySQL分页优化

通常,我们会采用ORDER BY LIMIT start, offset 的方式来进行分页查询。例如下面这个SQL: SELECT * FROM t1 WHERE ftype=1 ORDER BY id DESC LIMIT 100, 10; 或者像下面这个不带任何条件的分页SQL: SELECT * FROM t1 ORDER BY id DESC LIMIT 100, 10; 一般而言,

2015-07-28 17:26:15 430

原创 MySQL中having 与where 的异同点

在MySQL查询语句中, having与where类似,可以筛选数据,where后的表达式怎么写,having后就怎么写。 where针对表中的列发挥作用,查询数据 having对查询结果中的列发挥作用,筛选数据 //查询本店商品价格比市场价低多少钱,输出低200元以上的商品 select goods_id,good_name,market_price - shop_price

2015-07-24 16:00:54 677

原创 千万级的Mysql数据库与优化方法

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。   2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,   Sql 代码 : select id from t where num is null;   可以在 num 上设置默认值 0,确保表中 num 列没有 null 值,

2015-07-07 18:38:15 394

翻译 PolyBase中的拆分查询处理

DavidJ. DeWitt, Alan Halverson, Rimma Nehme, Srinath Shankar,JosepAguilar-Saborit, Artin Avanes, Miro Flasza, and Jim Gramling微软公司dewitt,alanhal, rimman, srinaths, jaguilar, artinav, miflasza, j

2015-05-01 10:14:28 3715

原创 centos系统各个目录说明

1.linux文件系统类型 LINUX有四种基本文件系统类型:普通文件、目录文件、连接文件和特殊文件,可用file命令来识别。 普通文件:如文本文件、C语言元代码、SHELL脚本、二进制的可执行文件等,可用cat、less、more、vi、emacs来察看内容,用mv来改名。 目录文件:包括文件名、子目录名及其指针。它是LINUX储存文件名的唯一地方,可用ls列出目录文件。

2015-04-29 20:05:50 580

原创 linux系统管理之添加并挂载新硬盘

Linux系统由于数据累计增长、前期存储规划不合理等诸多因素,出现存储不够用的情况时,这是可以添加硬盘,挂载上,让数据存储在新添加的硬盘上,具体做法如下: 1添加新硬盘到服务器,重启; 2.使用fdisk -l查看分区表信息[root@DB-ONE-SERVER~]# fdisk -lDisk /dev/sda: 42.9 GB, 42949672960 bytes255 heads, 63

2015-04-28 19:28:00 528

原创 腾讯前端实习面试被问到的问题

面试前端,只知道基本的javascript、jQuery、css、HTML,今天被问到几个问题,回答的不好,现在百度之,找出答案。 问题一:做web前端,怎么优化,知道雅虎的前端优化30多条军规吗? 说了些优化方案,只有雅虎的,真不知道呀,百度结果如下: 雅虎WEB前端– 34条军规 1.Minimize HTTP Requests (减少HTTP请求) 2.Use a Cont

2015-04-08 20:05:08 714

转载 前端成长:方向正确并辅以足够的时间

如果你是刚进入WEB前端研发领域,想试试这潭水有多深,看这篇文章吧。如果你是做了两三年WEB产品前端研发,迷茫找不着提高之路,看这篇文章吧。如果你是四五年的前端开发高手,没有难题能难得住你的寂寞高手,来看这篇文章吧。WEB前端研发工程师,在国内是一个朝阳职业,自07-08年正式有这个职业以来,也不过三四年的时间。这个领域没有学校的正规教育,没有行内成体系的理论指引,几乎所有从事这个职业的人

2015-04-03 23:03:55 978

原创 写二分查找为什么容易犯错

写二分查找为什么容易犯错二分查找,又名折半查找,思路和程序都很简单,在笔试或面试也经常被考到,让手写写二分查找,但很多人写出的程序有瑕疵,其实,面试官考你这个,是看你认不认真,你做事的态度。 下面附上正确的写法(PHP描述) public function binarySearch(arr,arr,key){ count=count(count=count(

2015-04-02 15:58:43 633

原创 redis应用实例学习介绍

Redis越来越火了

2015-04-02 14:52:31 509

转载 JavaScript引擎的工作原理

1. 什么是JavaScript解析引擎?简单地说,JavaScript解析引擎就是能够“读懂”JavaScript代码,并准确地给出代码运行结果的一段程序。比方说,当你写了 var a = 1 + 1; 这样一段代码,JavaScript引擎做的事情就是看懂(解析)你这段代码,并且将a的值变为2。学过编译原理的人都知道,对于静态语言来说(如Java、C++、C),处理上述这些事情的叫编译

2015-04-01 18:23:23 582

转载 IT牛人博客

团队技术博客淘宝UED淘宝用户体验团队淘宝核心系统淘宝核心系统团队博客阿里巴巴数据库团队专注数据库管理开发运维淘宝通用产品专注JAVA技术淘宝QA致力于做测试的行业标准淘宝搜索技术关注技术 关注搜索量子恒道专注大数据统计百度搜索研发关注搜索相关技术EMC中国研究院关注于云计算和大数据贰号楼肆层阿里巴巴平台技术部阿里数据平台阿里巴巴数据平台百度技术分享交流百度的互联网技术编码者说腾讯滴技术团

2015-04-01 16:48:39 760

原创 php知识点学习笔记

1,函数的名字,以_或者a-z或者A-Z来打头;2,一个自定义函数中的变量是局部的,函数外边不生效;3,使用global全局变量时,可使用在函数外的变量;4,为了防止在函数在调用过程中,存在变量冲突,可以使用unset(变量名),后面重新定义;5,PHP默认是值传递,如果需要引用(地址)传递,使用&变量名,如://案例$a=213;Functionabc(&$b) {

2015-04-01 15:18:01 397

家政类网站源码

本人设计,制作的家政网站,包括前台页面,后台程序。功能齐全。供行业类参考

2014-12-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除