自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Spark机器学习-1

本文讲述了spark2..0+中机器学习的基本名词和流程,并附上java代码进行解释

2017-05-11 20:29:00 495

原创 win10下Spark java读取Hbase数据

本文采用spark2.1+hadoop2.7.3+Hbase1.3.0的配置,在hbase shell中插入数据,然后用java把这些数据读入到spark rdd中

2017-05-09 14:31:17 2763 2

原创 Cross-Validation概述

Cross Validation概述  在同一个数据集上对训练好的模型进行重复测试从方法上来说就是一种错误。这样生成的模型对它重复看到的样本标签有一个完美的预测分数,但是却不能预测到未知数据中任何有用的东西。这种情况就叫做过拟合(overfitting)。避免过拟合的方法一般是把训练数据集中的一部分数据分割出来作为测试集。通过这个测试集就可以知道模型的泛化能力以及是否过拟合。这就好比一个学生在做数学

2017-03-25 18:02:02 3291

原创 机器学习-线性回归python简单实现

写下这篇博客只是为了当做一个记录记下来,以后可以回头看看,不至于每遇到一次都要去实现一遍。线性回归的主要内容如下:因为要最小化J,有两种方法,一种是最小二乘法直接求解,另一种是梯度下降法。这里记录的是梯度下降法。梯度下降法可以归结为NG课程中以下的图片:所以线性回归梯度下降法的主要核心就在于对theta的更新,以下是本文代码,代码比较粗糙原生,容易理解。数据集用的其

2016-12-14 21:35:24 1051

原创 决策树笔记

1.ID3算法只考虑信息增益(information gain),而对于特征中有类似编号这种唯一标识性的特征的数据来说,ID3算法会把这一特征设为最优划分属性,因为根据这一属性就能让每个分支包含的样本最少而且都是同类的,这样导致决策树不具有泛化能力。

2016-10-27 00:00:28 349

原创 机器学习python库sciki-learn学习笔记

1.计算分类器精度1.1 from sklearn.metrics import accuracy_scoreaccuracy_score(pred, label_test)1.2 clf.score(data_test, label_test)

2016-10-23 13:57:20 2551

原创 朴素贝叶斯分类器的python实现

# -*- coding:utf-8 -*-from numpy import *from sklearn import datasetsimport numpy as npclass NaiveBayesClassifier(object): def __init__(self): self.dataMat = list() self.labe

2016-10-22 11:39:24 2701

原创 linux一些命令记录

head -n 10 filename 显示文件filename的前10行tail -n10 filename 显示文件filename的最后十行wc命令用于统计文本。- c 统计字节数。- l 统计行数。- w 统计字数

2015-05-12 14:57:28 434

原创 编写自己的hadoop程序并打包运行

看了Hadoop权威指南第三版上面的计算最大温度的例子之后自己动手实践了一遍。下面是过程:首先是数据,我只用了两个年份两个TXT文本:接下来是MaxTemperatureMapper.java代码:import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.h

2015-05-07 21:28:13 1059

原创 C++函数返回引用和值问题

今天因为改到一个代码,所以遇到一个问题。函数里局部变量返回的问题。以下是代码,就是运用类模板,重载了+操作:一。最原始的代码如下:#include#includetemplateclass T_Counter{public:T_Counter(T aa){ a=aa;}T_Counter(){ a=0;}~T_Counter(){ cout<<"T_Counter

2015-04-05 17:22:02 6692

原创 C++链表

最近在复习数据结构和算法方面知识,链表是第一次学习的数据结构,虽然简单但写起来还是挺麻烦的。上代码:#pragma once#includeusing namespace std;//单个节点template class Node{public: Elem data; Node *next; Node(const Elem& node,Node *nextNode = NULL

2015-03-28 14:36:02 428

原创 算法之归并排序

/*归并排序*/void mergeArray(int* a,int* temp,int left,int mid,int right){ int i1 = left,i2 = mid + 1,k = 0; while (i1 <= mid && i2 <= right) { if (a[i1] <= a[i2]) { temp[k++] = a[i1++]; }

2015-03-27 10:17:27 449

原创 matlab取出两个向量直接相等的部分和对应的下标

如下:a1 = [1 2 3 4 6 8];b1 = [10 9 8 7 6 6];a2 = [1 2 4 6];b2 = [5 4 3 2];a1是包含a2的,而且b1是由a1得到的,b2是由a2得到的。我的需求是:求出a1和a2相等的部分,然后得到各自相等的那部分在两个向量中的下标,这样我就可以得到相等那部分在b1中是哪些数,而这些数重新组成的向量跟b2是等长的。这个需求只需要

2015-03-12 00:18:22 5206

原创 C++链表中指针问题

最近手痒总是想码代码,因为一个同学有个数据结构大作业所以帮他一起想想怎么写。其实也不难,只是细节wenj

2014-06-06 17:07:49 889

转载 浅析栈区和堆区内存分配的区别

注:因为对程序中堆栈分配内存一直有疑问,所以就查了一下,以下这篇感觉讲得还行。就转一下。转自http://www.jb51.net/article/40513.htm一直以来总是对这个问题的认识比较朦胧,我相信很多朋友也是这样的,总是听到内存一会在栈上分配,一会又在堆上分配,那么它们之间到底是怎么的区别呢?为了说明这个问题,我们先来看一下内存内部的组织情况.从上

2014-05-28 16:07:00 705

原创 Horspool‘s算法和Boyer-Moore算法

在上述BARBER比较中(详细见Introduction to the Design and Analysis of Algorithms (3th)英文版P262)。原本以为在倒数第二次比较时,R匹配了,然后E遇到了A,这个时候不匹配,而这个时候这个算法就会移动字符串三位。我一直不理解为什么E不匹配A,那么不是应该调用A在表中对应的移动字符数吗?今天终于明白了。。。。真是天资不足啊。原来只要遇到

2014-05-22 00:10:49 3884 1

原创 python创建文件夹和文件

filename = raw_input('Input a file name:')

2014-05-19 12:25:49 1566

原创 python简明教程中备份脚本

最近对Python特别有兴趣,之前寒假瞄过几眼

2014-05-18 23:22:27 1349

原创 数据库设计问题

这两天粗略扫了一下数据库的设计那两章,has

2014-05-17 01:40:57 590

原创 数据结构大作业进度

13.12.21深夜看完兵哥作业要求之后,马上滚去睡觉。早上和鼻屎讨论了之后,大概有个总体思路。但操作起来十分蛋疼。在这一天完成了基本没什么,就是加深了总体思路。大概知道怎么写。最大的东西就是写string类和指针进文件,string类是一种类,封装了很多东西,所以其实把这种类实例写入二进制文件时,写入并不仅仅是字符串那么简单,而是很多。所以在读出来时就会出错。正确写入应该是用string

2013-12-27 00:20:39 795

原创 android学习小小心得

今天开始学了一点点Intent,在Button.setOnClickListener时出现了一个问题就是函数参数总是对不着,原本自己已经创建了一个Listener对象,但是偏偏不行。后来才发现自己import的是content.DialogInterface.OnClickListener,而实际应该import的应该是android.view.View.OnClickListener。我觉得前一

2013-11-04 01:35:41 506

原创 关于Java的二进制输入输出流的一点总结(有错误请指出)

今天总算把二进制的输入输出流的基础看完了。说一下总结:一.各种流类的区别。FileOutputStream对文件输出write函数的参数是int,或者byte[]。而DataOutputStream支持对各种基本类型的读写。在创建PrintWriter对象时把对应的new FileOutputStream作为参数,因为FileOutputStream是针对二进制文件,而PrintW

2013-10-19 15:58:58 2458

原创 关于Java方法参数的个人补充

其实一开始是没怎么注意这个问题,因为之前先学C++,对C++的这种传递很熟悉,就没怎么注意Java的,但今晚看到一个很容易的函数突然懵了,所以就认真地研究了一下,首先,Java跟C++在参数传递是非常不一样的。在前一篇引用文中也有说到,有人觉得Java只有值传递。Java最不同的就是没有指针,这样就感觉好像麻烦了很多。先贴上疑惑代码。public class OldMac {publi

2013-10-08 20:33:19 527

转载 Java中方法参数传递的问题(转自百度知道)

这篇转自百度知道~我只是觉得很好,百度知道又没分享功能,就收藏起来JAVA 中的传递都是值传递吗?有没有引用传递呢? 在回答这两个问题前,让我们首先来看一段代码: Java 代码 public class ParamTest { // 初始值为0 protected int num = 0; // 为方法参数重新赋值

2013-10-08 20:08:14 1238

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除