NBtingwu-CSDN博客

原创机器学习-回归算法

回归算法属于监督学习的范畴，监督学习对应的训练样本中带有确定的结果，只需要告诉机器怎么去学习就行，非监督学习算法是机器自己学习，回归算法线性回归算法处理连续值的预测问题，比如经典的房价预测，根据特征的维数，可有单变量线性回归与多变量线性回归。逻辑回归逻辑回归算法处理离散值的预测问题，比如医学上的肿瘤分类问题，

2018-04-16 14:32:13 434

一，基本问题给一个有序大数组，求某个数字最左出现的位置，或最右出现的位置。基本思想是利用二分查找算法，先利用二分查找算法找到首次出现的位置，如果找最左位置则，记录上次搜索到的位置，循环搜索从左边界到上次出现的位置左边一个位置中的给定数据，直到找不到为止，输出记录的上次位置如果找最右位置则，记录上次搜索到的位置，循环搜索从右边界到上次出现的位置右边一个位置中的给定数据，直到找不到为止，输出记录的上次...

2018-04-13 16:05:13 546

原创解锁lintcode-猫和狗的问题

1，采用cnn算法，目前准确率做到84.7%，用了几种图像预处理算法和旋转之类的增加训练样本的方法，效果不理想，后继续再改进，有高手欢迎分享源码一块学习2，遇到的一些问题及解决办法： (1)XXX is nan 交叉熵计算时出现了梯度爆炸，需要对预测值做clip_by_value进行截断，注意一下min,与max的设置 (2)对图像数据需要进行归一化可以选用...

2018-04-02 15:47:15 650

原创 LFU算法

1，基本原理LFU（Least Frequently Used）算法根据数据的历史访问频率来淘汰数据，其核心思想是“如果数据过去被访问多次，那么将来被访问的频率也更高”。LFU的每个数据块都有一个引用计数，所有数据块按照引用计数排序，具有相同引用计数的数据块则按照时间排序。具体实现如下： 1. 新加入数据插入到队列尾部（因为引用计数为1）；2. 队列中的数据被访问后，引用计数增加，队列重新排序；3...

2018-03-30 16:08:05 15478 1

转载 DL神经网络权值初始化

前言深度学习中参数的初始化也有很多trick，这些trick却对训练结果起到了至关重要的作用，本文介绍一个权值初始化的策略。介绍针对神经网络权值初始化许多的方法，其中最常用的方法是用随机数进行初始化。用代码表示就是W=randn(D,H)，其中randn从均值为0，标准差为1的单位高斯分布中采样，因此神经节点在初始化时有一个随机的方向。这种初始化有一个问题就是，每个神经元节点输出值的方差会随着神经...

2018-03-28 09:19:05 479

原创感知机算法的对偶形式

4,算法代码/************************************************************************* > File Name: durl.cpp > Author:zhangtx > Mail: [email protected] > Created Time: 2018年01...

2018-03-16 16:33:17 396

原创感知机算法

/************************************************************************* > File Name: normal.cpp > Author:zhangtx > Mail: [email protected] > Created Time: 2018年01月05日...

2018-03-15 17:56:00 301

转载机器学习中正则化项L1和L2的直观理解

标签：机器学习 /正则化 /过拟合 /稀疏矩阵正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作ℓ1-norm和ℓ2-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。...

2018-03-11 13:36:59 275

原创机器学习，参数之-学习率设置

1，机器学习中的学习率设置学习率控制的是参数的更新速度，学习率设置过大，会导到损失函数在极小值附近来回变化，不收敛，学习率设置过小，会导到学习速度变慢。 tensorflow中提供了学习率衰减机制，可以开设置一个较大的学习率和一个衰减系数，让损失函数在刚开始以的较快的速度下降，随着训练次数增加，学习率也逐渐变小，使用损失函数以一个比较慢的速度收敛。2，公式 de...

2018-03-09 14:39:13 5736

原创解锁lintcode数字图像识别

1，题目来源http://www.lintcode.com/ai/digit-recognition/overview做为机器学习&python初学者，给大字分享一下,后面会继续解锁其它题目2，源码介绍 Common.py:one-hot函数 Reader.py:csv文件成batch格式读取 inference.py:三层神经网络算法 train.py:训练脚本 eval.py:交叉验证...

2018-03-08 11:43:14 791

原创求子数组的最大和

1，求子数组的最大和2，代码/************************************************************************* > File Name: MaxSumOfSubArray.cpp > Author:zhangtx > Mail: [email protected] > Cr...

2018-03-07 11:18:23 257

原创凸集与凸函数

　　凸集的定义为：　　　　其几何意义表示为：如果集合C中任意2个元素连线上的点也在集合C中，则C为凸集。其示意图如下所示：　　　　常见的凸集有：　　n维实数空间；一些范数约束形式的集合；仿射子空间；凸集的交集；n维半正定矩阵集；这些都可以通过凸集的定义去证明。　　凸函数的定义为：　　　　其几何意义表示为函数任意两点连线上的值大于对应自变量处的函数值，示意图如下：　　　　凸函数的一阶充要条件为：...

2018-03-07 10:20:44 7195 2

转载 tensorflow中tf.random_normal和tf.truncated_normal的区别

1、tf.truncated_normal使用方法tf.truncated_normal(shape, mean=0.0, stddev=1.0, dtype=tf.float32, seed=None, name=None)从截断的正态分布中输出随机值。生成的值服从具有指定平均值和标准偏差的正态分布，如果生成的值大于平均值2个标准偏差的值则丢弃重新选择。在正态分布的曲线中，横轴区间（μ-σ，μ...

2018-01-24 14:41:31 269

原创 2017年度工作总结

2017年度工作总结一，本年度的工作情况概述1，分布式消息中心-新研发特点：(1) 支持消息订阅，消息发布，消息重传;(2) 透明支持restful协议，HTTP+JSON;(3) 分布式的消息系统；已支持项目：(1) 中石化电商项目，用于同步用户相关消息；(2) 多媒体项目，电商与MVP项目同步订单信息；2，垂直搜索项目2017年度新研发上线的搜索

2018-01-16 17:10:00 510

原创 hadoop2.7.3+hbase1.2.5配合起来使用的一个小问题，备注一下

1，问题现象 hadoop2.7.3+hbase1.2.5配置完成，往HBASE导入数据以后，正常运行，重启hbase+hadoop以后出现下面异常。rg.apache.hadoop.util.NativeCrc32.nativeVerifyChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/St

2017-05-12 17:14:18 434

原创 eclipse闪退问题

一段时间没有使用eclipse，启动出现闪退，打印日志如下：

2017-04-24 11:09:40 825

原创最大，最小值问题，前K个数问题，利用mapreduce解决方案

1，MapReduce求最大最小值问题要想一次求得最大最小值，必须只有一个reduce MAP类 (1)Map类中增加两个变量，max,min (2)map函数中用取得的当前行的数据和max,min做比较，更新数据。 (3)clear函数中将max,min输出，输出格式为 <max,n1> <min,n2> Reduce类 (1)直接比较list中的最...

2016-11-21 17:40:30 963

原创 mapreduce 的partitioner,GroupComparator,KeyComparator,分布式缓存使用示例

package org.test.CommonDep;/* * 主要功能是针对输入为年份tab温度格式的数据，返回每年的最高汽温 * 1,partitioner分区，将同一年份的数据放一起。key=年份　温度　value=空　 * 2,KeyComparator,key比较算法，让数据先按年份升序排序，如果年份相同，按温度降序。 * 3,ＧroupComparator,同一年份的数据为

2016-11-15 14:56:01 680

原创 MapReduce输出结果到多个文件

利用MultipleOutputs可以方便的实现将结果按自己的要求输出到不同的文件，方法简单， 1,直接在map或reduce中加入类似如下的代码， 3,用mos.write替换以前的context.write 3,在main中利用MultipleOutputs.addNamedOutput(job, "shortkey", TextOutputFormat.class, Text.class, IntWritable.class);添加输出路径。

2016-11-04 15:46:08 2807

原创 MapReduce输出压缩格式文件

一，说明主要举例说明mapreduce如何输出压缩格式的文件，比较简单，直接上代码。二，示例代码推荐-实时更新逻辑优化，上正式环境 /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the

2016-11-04 11:27:27 770

原创 ctrl+c 导致securt假死的问题

CTRL-S and CTRL-Q are called flow-control characters. They represent an antiquated way of stopping and restarting the flow of output from one device to another (e.g., from the computer to you

2016-10-26 17:34:56 413

转载 TCMalloc原理

这段时间比较闲，研究下内存管理，从官方文档开始啃起《TCMalloc : Thread-Caching Malloc》。一、动机 TCMalloc要比glibc 2.3的malloc（可以从一个叫作ptmalloc2的独立库获得）和其他我测试过的malloc都快。ptmalloc在一台2.8GHz的P4机器上执行一次小对象malloc及free大约需要300纳秒，而TCM

2016-10-25 17:08:10 3852

原创 valgrind使用说明

1，memcheck (1),对未初始化内存的使用； (2),读/写释放后的内存块； (3)、读/写超出malloc分配的内存块； (4)、读/写不适当的栈中内存块； (5)、内存泄漏，指向一块内存的指针永远丢失； (6)、不正确的malloc/free或new/delete匹配；

2016-10-25 14:49:23 466

转载我使用过的Linux命令之dot - 绘制DOT语言脚本描述的图形

我使用过的Linux命令之dot - 绘制DOT语言脚本描述的图形用途说明Graphviz （Graph Visualization Software的缩写）是一个由AT&T实验室启动的开源工具包，用于绘制DOT语言脚本描述的图形。它也提供了供其它软件使用的库。Graphviz是一个自由软件，其授权为Common Public License。其Mac版本曾经获得2004年的苹果设

2016-10-25 10:00:20 882

原创第八界中国云计算大会---简单回忆

第八界中国云计算大会，简单回忆1,KUDU应用场景：实时数据分析，数据报表，读写数据操作。2,kylin开源的分布式数据分析引擎支持SQL支持，管理界面，任务监控，增量更新3，pinothttps://github.com/linkedin/pinothttp://blog.csdn.net/cjfeii/article/details/46742005分布式实时OLAP数据分析平台类sql，不支持join支持多种数据源，kafka，hadoop自动数据过期4,DRUID一个用于

2016-05-20 19:12:19 549

原创 storm中的RotatingCache技术

一，基本的原理　　偶遇storm中的rotatecache算法，特地研究一下。　　核心：　　1，是采用了链表来组织多个桶来存储数据；　　 2，插入数据时直接插入到第一个桶中，清除到其它桶中的同key值的数据；　　3，删除数据移除所有桶中的数据（此处需要遍历）　　4，回收数据的时候，采用了非常巧妙的方式，在链表头新加一个桶，删除尾部的桶删除掉，如果带回调，调用一下回调函数。

2016-04-12 14:54:23 1154

原创 storm并行机制

集群中的一个机器可能为一个或多个topologies运行一个或多个进程，每一个工作进程为一个特定的topology运行多个执行器。一个单独的工作进程可能运行一个或多个执行器，第一个执行器都是工作进程创建的一个线程，第一个执行器运行一个或多个同一组件的任务（spout或bolt）。任务执行特定的数据处理。

2016-02-18 10:06:26 604

原创 storm指南

TutorialInthis tutorial, you'll learn how to create Storm topologies and deploy them to aStorm cluster.Javawill be the main language used, but a few examples will use Python toillustrate Storm's

2016-02-15 10:41:44 577

原创 Hadoop2.4.1(QJM HA)+HBASE0.98 双MASTER问题分析

一，问题源由参考网上各位同行的博客，基于HADOOP2.4.1(QJM HA)+HBASE0.98（双master）想搭建一个HA集群，方法有很多，到处都是，这就不说了，主要说一下问题解决过程。集群搭建好以后，每次重新启动都会报下面的错误。2016年 01月 11日星期一 16:22:31 CSTStarting master on M-172-16-73-194core file

2016-01-12 16:45:22 1325

原创 HBASE自带小工具，统计表的行数

./hbase org.apache.hadoop.hbase.mapreduce.RowCounter '表名'速度挺快

2015-12-10 17:46:34 960

原创 Mapreduce从HBASE抽取数据，生成搜索下拉服务数据，hadoop jar 调用异常问题解决

程序功能：MapReduce程序，从hbase里面取搜索日志，生成搜索下拉服务的数据。问题：　　程序采用Extract required libraries into generated jar,packate requited libraries into generated jar打包的时候，在eclipse下debug with configuration,运行正常。　　但是用h

2015-12-10 17:44:06 760

原创最近写mapreduce程序从hbase中抽取程序遇到的一些问题

1,报错信息Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/protobuf/generated/ClientProtos at org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil.addHBaseDependen

2015-11-28 16:25:13 2667 2

原创 org.apache.hadoop.hbase.mapreduce.Driver 导入数据到HBASE table

1，具体的命令介绍见上篇文章利用HBASE自带的org.apache.hadoop.hbase.mapreduce.Driver包实现将之export的数据import到useraction表的方法。命令的意思是将hdfs://xxxx/tmp/part-m-00000下面的数据导入到action命令是空间下的useraction表中,要求表必须事先创建完成。./hbase o

2015-09-10 15:51:56 4949

原创 HBASE table导出到文件的方法

主要是介绍利用HBASE自带的org.apache.hadoop.hbase.mapreduce.Driver包现将HBASE TABLE中的数据导出到HDFS文件的功能一，命令介绍 [hadoop@M-172-16-73-194 bin]$ ./hbase org.apache.hadoop.hbase.mapreduce.DriverAn example program mus

2015-09-10 14:57:37 1570

原创 Linux环境下一种比较有用的多线程程序调试技巧

如何利用gdb查看当前运行进程的状态

2015-09-09 10:39:27 573

原创 HBASE元数据及数据读取过程

一，基于hbase0.98版本的HBASE元数据信息查看通过 zk查看HBASE的元数据信息，可以能过目录看出来无数据信息较以前的版本有较大的改动，现在已经没有了root-region-server的信息。 Get /hbase/meta-region-server 可以看出元数据表的region在172.16.73.68:60020的region server上

2015-07-17 14:22:36 8243 1

原创推荐系统-猜你喜欢设计

一，概述猜你喜欢与最近浏览相响应，用户在页面上点击一个商品时，首先会出现在最近浏览部分，最近浏览部分随即会出现本页最近浏览商品对应的分类信息，将出现的分类，对应的浏览量最大的商品推荐出来即为猜你喜欢。二，数据源2.1商品基本数据商品ID，对应的最低一级分类,该数据从数据库中获取。2.2数据挖掘的数据商品ID，商品的浏览次数；从行为日志中获取

2015-07-15 13:18:42 1665 1

原创推荐系统-埋点

现在几乎所有的电商平台都或多或少的上了推荐系统，常用的推荐系统有。热门推荐、最近浏览、猜你喜欢、看了还看、买了还买、绑定销售，等等，这么多NB的系统都依赖一点，就是用户行为数据，这些用户行为数据都从那来的呢，那就是埋点系统了，埋点系统是一切推荐系统的生命源。所谓埋点系统，按本人理解就是埋点引擎+存储系统，埋点引擎位于前端系统与后端存储系统之间，主要是接收前端的埋点数据，经协议转

2015-07-09 12:57:38 7516 1

原创 TheValgrind Quick Start Guide

TheValgrind Quick Start Guide1. IntroductionThe Valgrind tool suiteprovides a number of debugging and profiling tools that help you make yourprograms faster and more correct. The most popula

2015-07-02 16:44:54 524

原创 LRU算法的一种实现方法

LRU算法的一种实现方法一，说明 LRU即最近未使用算法，是一种比较常用的内存管理算法，它在内存不足时通过唤出最近未使用的数据来确保新的数据可存储进去，说白了就是一种按进入内存的时候来淘汰数据和方法，所以得有一种数据结构来按顺序来存储数据，双向链表是一种很好的选择。二，源码源码中采用stl::list双向链表来存储数据，unordered_map来存储key到数据的映射关系。 get...

2015-07-02 14:59:37 519

空空如也

空空如也