自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Murphyt的专栏

数据挖掘 机器学习

  • 博客(105)
  • 资源 (13)
  • 收藏
  • 关注

原创 java内存模型及volatile关键字

一、基本概念在并发编程过程中,我们经常会遇到三类问题:原子性问题,可见性问题,有序性问题。下面我们来介绍一下和这些问题相关的三个概念。1.原子性也就是执行一个操作,要不全部执行成功,要不执行失败。比如a=0,这个操作就是原子性的,要么赋值成功,要么赋值失败。再比如a++操作,这个操作就不是原子性的,它是三步操作的组合:a)获取a的值。b)执行a=a+1操作。c)写入新的a的值2.可见性就...

2019-01-16 21:03:46 324

原创 synchronized关键字详解

一、synchronized关键字介绍由于synchronized关键字的介绍涉及到锁的相关概念,下面我们先简单介绍下锁相关的一些知识。java的内置锁:每个java对象都可以用做一个实现同步的锁,这些锁成为内置锁。线程进入同步代码块或方法的时候会自动获得该锁,在退出同步代码块或方法时会释放该锁。获得内置锁的唯一途径就是进入这个锁的保护的同步代码块或方法。java内置锁是一个互斥锁,这就是意...

2019-01-14 22:57:46 306

原创 线程安全性

一、线程安全性  要编写线程安全的代码,其核心在于要对状态访问操作进行管理,特别是对共享的和可变的状态访问。共享意味着变量可以由多个线程同时访问,可变意味着变量的值在其生命周期内可以发生变化。  当多个线程访问某个状态变量并且其中有一个线程执行写入操作时,必须采用同步机制来协同这些线程对变量的访问。java中的主要同步机制是关键字synchronized它提供了一种独占锁的方式,但“同步”这个...

2019-01-10 21:44:52 258

原创 java多线程介绍

文章目录一、什么是线程1. 什么是进程?2. 什么是线程?3. 进程和线程的区别?二、线程的优势1.发挥多处理器的强大能力2.建模的简单性3.异步事件的简化处理三、线程带来的风险1.线程安全性2.活跃性问题3.性能问题一、什么是线程  要解释线程,我们首先要从进程说起。1. 什么是进程?  进程是程序运行的一个实例,进程是系统分配资源的最小单位,每个进程都有各自的资源(内存空间等)。每个进...

2019-01-10 21:43:55 169

原创 Python的字符串,list,tuple,set,字典操作详解

1.字符串python是要创建成字符串的元素,其中的每个字母都是单一的子串,把它放在' '单引号或是'' ''引号中,就完成了python 字符串的创建。str强制转换>>> a=123>>> b=str(a) #将整数转化为字符串>>> b'123'>>> a=[1,2,3]>>> b=str(a) #将list转化为字符串>>> b'[1, 2, 3]'字符串下标:

2017-04-06 17:11:27 1368

原创 java实现栈

/** * Created by murphy on 2016/7/4. */public class Stack { private int DEFAULT_SIZE=12; private int[] arr; private int count=0; public Stack(int size){ arr=new int[size];

2016-07-04 22:05:04 424

原创 Rising Temperature

问题描述:Given a Weather table, write a SQL query to find all dates' Ids with higher temperature compared to its previous (yesterday's) dates.+---------+------------+------------------+| Id(INT

2016-05-10 20:12:39 455

原创 缺失值处理方法

一、缺失值产生的原因缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。

2016-03-28 20:09:53 2740

原创 logistic回归

逻辑斯谛回归模型逻辑斯谛分布首先介绍逻辑斯谛分布,该分布的定义是设X是连续随机变量,X服从逻辑斯谛分布是指X服从如下分布函数和密度函数:其中,为位置参数,> 0 为形状参数。可以通过其图像观察:右边的逻辑斯蒂分布函数以点中心对称,即满足:形状参数越小,曲线在中心的增长速度越快。二项逻辑斯蒂回归模型

2016-03-28 19:15:36 2124

原创 线性回归

1.线性回归模型"回归"的由来Francis Galton,英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高,则其子女身高倾向于向上生长,以更接近于大众平均身高。此现象,被Galton称之为回归现象,即regression.什么是线性回归?这里

2016-03-28 19:12:15 1846 1

原创 Linked List Cycle II

问题描述:Given a linked list, return the node where the cycle begins. If there is no cycle, return null.Note: Do not modify the linked list.Follow up:Can you solve it without using extra s

2016-03-14 21:41:43 373

原创 Linked List Cycle

问题描述:Given a linked list, determine if it has a cycle in it.Follow up:Can you solve it without using extra space?代码实现:/** * Definition for singly-linked list. * class ListNode { *

2016-03-14 21:38:46 283

原创 最大差值(美团校招真题)

题目描述有一个长为n的数组A,求满足0≤a≤b给定数组A及它的大小n,请返回最大差值。测试样例:[10,5],2返回:0实现代码:import java.util.*;public class LongestDistance { public int getDis(int[] A, int n) { int len=A

2016-03-14 19:32:44 472

原创 Search in Rotated Sorted Array II

问题描述:Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed?Would this affect the run-time complexity? How and why?Write a function to determine if a given targe

2016-03-06 20:50:49 314

原创 Search in Rotated Sorted Array

Suppose a sorted array is rotated at some pivot unknown to you beforehand.(i.e., 0 1 2 4 5 6 7 might become 4 5 6 7 0 1 2).You are given a target value to search. If found in the array retur

2016-03-06 20:45:06 285

原创 Remove Duplicates from Sorted Array II

Follow up for "Remove Duplicates":What if duplicates are allowed at most twice?For example,Given sorted array nums = [1,1,1,2,2,3],Your function should return length = 5, with the firs

2016-03-06 20:06:50 288

原创 Remove Duplicates from Sorted Array

问题描述:Given a sorted array, remove the duplicates in place such that each element appear only once and return the new length.Do not allocate extra space for another array, you must do this in p

2016-03-06 19:33:00 286

原创 spark RDD详解

RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。RDD必须是可序列化的。RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可以存放到

2016-02-27 11:17:09 1138

原创 朴素贝叶斯算法

朴素贝叶斯法的学习与分类基本方法设输入空间为n维向量的集合,输出空间为类标记集合={c1……ck}。输入特征向量x和输出类标记y分属于这两个集合。X是输入空间上的随机变量,Y是输出空间上的随机变量。P(X,Y)是X和Y的联合概率分布,训练数据集由P(X,Y)独立同分布产生。朴素贝叶斯法通过T学习联合概率分布P(X,Y)。具体来讲,学习以下先验概率:

2016-01-22 21:41:52 507

原创 KNN算法

k近邻法(k-Nearest eighbor,K-NN)是一种基本分类的回归方法。K近邻法的输入为实例的特征向量,对应的特征空间的点:输出为实例的类别,可以取多类。     k值的选择,距离度量,和分类决策规则是k近邻法的三个基本要素。K近邻算法给定一个训练数据集,对新的输入实例,在训练数据集中找到跟它最近的k个实例,根据这k个实例的类判断它自己的类(一般采用多数表决的

2016-01-22 21:03:56 512

原创 感知机

感知机(perceptron)是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别。取+1和-1二值,感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机是为了求出将线性数据进行线性判别的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。1.感知机模型假设输入空间是,输出空间是,x和y分属这两

2016-01-22 20:33:03 556

原创 对数据的认识(二)

四、度量数据的相似性和相异性1、数据矩阵和相异性举证假设我们有n个对象(如人、商品或课程),被p个属性(又称维或特征,如年龄、身高、体重或性别)刻画。这些对象是x1=(x11,x12,…,x1p),x2=(x21,x22,…,x2p),等等,其中xij是对象xi的第j个属性的值。为简单计,以后我们称对象xi为对象i。这些对象可以是关系数据库的元组,也称数据样本或特征向量。

2015-12-05 16:39:17 2925 1

原创 对数据的认识(一)

一、数据对象与属性类型1、属性: 一个数据字段,表示数据对象的一个特征。(属性(数据挖掘和数据库人员使用)、维(数据仓库)、特征(机器学习)、变量可以互换实用(统计学家使用)) 2、标称属性:标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚

2015-12-05 16:11:16 3278

原创 hadoop I/O中的压缩

package hdfs;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.Inpu

2015-12-05 15:39:08 456

原创 hdfs的FileSystem API

FileSystem类是与hadoop的文件系统交互的重要接口。虽然我们只是着重于HDFS的实现,但我们在编码时一般也要注意代码在FileSystem不同子类文件系统之间的可移植性。这是非常有用的,比如说你可以非常方便的直接用同样的代码在你的本地文件系统上进行测试。FSDataInputStream:与URL的openStream()方法返回InputStream不同,FileSy

2015-11-30 22:57:08 599

原创 HDFS的namenode和datanode

一、概述HDFS集群以Master-Slave模式运行,主要有两类节点:一个Namenode(即Master)和多个Datanode(即Slave)。HDFS Architecture:二、NamenodeNamenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的

2015-11-29 22:48:17 1114

原创 hdfs详解

HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件    这里的“超大文件”是指几百MB、GB甚至TB级别的文件。2、最高效的访问模式是 一次写入、多次读取(流式数据访问)    HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间

2015-11-29 22:27:44 1231

原创 hdfs-shell操作

查看hdfs文件系统指定路径的文件:[root@zwt1 ~]# hdfs dfs -ls /Found 4 itemsdrwxr-xr-x  - root supergroup          02015-11-05 03:31 /datadrwxr-xr-x  - root supergroup          02015-11-05 03:32 /outputdrwx

2015-11-19 23:29:03 525

原创 google三大论文

Google三大论文之一:BigTableBigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、Google Earth、Google Finance。什么是BigTable?Bigtable是一个分布式的结构化数据存储系统。设计目的是可靠的处理PB级

2015-11-19 23:27:15 4730

原创 旋转字符串

题目描述给定一个字符串,要求把字符串前面的若干个字符移动到字符串的尾部,如把字符串“abcdef”前面的2个字符'a'和'b'移动到字符串的尾部,使得原字符串变成字符串“cdefab”。请写一个函数完成此功能,要求对长度为n的字符串操作的时间复杂度为 O(n),空间复杂度为 O(1)。第一种方法:暴力移位法初看此题,可能最先想到的方法是按照题目所要求的,把需要移动的字符一个

2015-10-23 12:20:53 370

原创 链表相加

给定两个链表,分别表示两个非负整数,他们的数字逆序存储在链表中,且每个节点只存储一个数字,计算两个数的和,并且返回和的链表头指针如:输入:2-4-3,5-6-4   输出:7-0-8因为两个数都是逆序存储,正好可以从头向后依次相加,完成“两个数的竖式计算”pHead1:4-9-0-4-7-1pHead2:1-7-1-5-5-4-2-8pHead3:5-6-2-9-2-6-2

2015-10-23 12:07:00 419

原创 第二章作业

2-1在软件开发的早期阶段为什么要进行可行性分析研究?应该从哪些方面研究目标系统的可行性?     可行性分析是要进行一次大大压缩简化系统分析和设计过程,避免时间、资源、人力和金钱的浪费。  技术上的可行性 ——使用现有的技术能实现这个系统吗?  经济上的可行性 ——这个系统的经济效益能超过它的开发成本吗?(投资与效益) 操作可行性 ——系统的操作方式在这个用户组织内行得通吗?

2015-10-08 22:42:23 605

原创 第一章1-7

什么是软件生命周期模型,试比较瀑布模型,快速原型模型,增量模型,和螺旋模型的优缺点,说明每种模型的适用范围。   软件生命周期由软件定义、软件开发和运行维护3个时期组成,每个时期又进一步划分成若干个阶段。生命周期模型规定了把生命周期划分成哪些阶段及各个阶段的执行顺序,因此,也称为过程模型。    瀑布模型的优点:1.可强迫开发人员采用规范的方法;2.严格规定了每个阶段必须提交的文档

2015-10-08 22:28:47 294

原创 旋转字符串

题目描述给定一个字符串,要求把字符串前面的若干个字符移动到字符串的尾部,如把字符串“abcdef”前面的2个字符'a'和'b'移动到字符串的尾部,使得原字符串变成字符串“cdefab”。请写一个函数完成此功能,要求对长度为n的字符串操作的时间复杂度为 O(n),空间复杂度为 O(1)。解法一:暴力移位法暴力移位法,也就是将第一个字母移到最后,然后将后面各个位置的字母向前移动

2015-10-08 17:43:41 425

原创 维度建模步骤

数据模型是指用实体、属性、实体之间的关系对业务概念和逻辑规则进行统一的定义,命名和编码,主要描述企业的信息需求和业务规则,是业务人员和开发人员沟通的语言,是数据仓库架构设计工作开始的第一步。正确的数据模型是用户需求的集中体现,是商业智能项目成功与否最重要的因素之一。数据模型可以分为概念模型、逻辑模型、物理模型,本节进行详细的介绍。    3.6.1  概念模型    从定义上来说,

2015-05-15 10:50:00 7301

原创 oracle 集群因子

集群因子(Clustering Factor)集群因子是索引与它所基于的表相比较而得出的有序性度量,它用于检查在索引访问之后执行的表查找的成本(将集群因子与选择性相乘即可得到该操作的成本)。集群因子记录在扫描索引时将读取的块数量。如果使用的索引具有较大的集群因子,则必须访问更多的表数据块才可以获得每个索引块中的行(因为邻近行位于不同的块中)。如果集群因子接近于表中的块数量,则表示索引适当排

2015-05-04 23:33:42 940

原创 数据仓库面试题资料

什么叫数据仓库? 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。 首先,用于支持决策,面向

2015-05-02 14:59:00 25258 1

原创 informatica体系结构

Powercenter体系结构和主要组件介绍服务端组件Informatica Service:PowerCenter服务引擎Integration Service:数据抽取、转换、装载服务引擎Repository Service:知识库Service,管理ETL过程中产生的元数据Repository 的数据存储在第

2015-04-30 21:13:07 1417

原创 事实表 和 维度表

维度表示你要对数据进行分析时所用的一个量, 比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析. 这样的按..分析就构成一个维度。前面的示例就可以有两个维度:类型和区域。另外每个维度还可以有子维度(称为属性),例如类别可以有子类型,产品名等属性。下面是两个常见的维度表结构:产品维度表:Prod_id, Product_Name, Category, Color,

2015-04-27 19:25:31 2702

原创 数据仓库中的维度

维度维度在数据仓库中主要对事实指标进行过滤和重新组织提供指导。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度一般具有如下特性:可以形成一个维度体系,具备访问和过滤事实的能力,能够提供相关的非标准实体,包括一个完整的维度体系编码、关键词以及相关的表示,可以映射到用户所需要信息的列。在物理数据仓库中是较小的表,可以对前台用户的应用程序进行数据填充,或

2015-04-26 21:59:38 4105 1

ggplot2手册

ggplot2基于Leland Wilkinson在Grammar of Graphics(图形的语法)中提出的理论,取首字母缩写再加上plot,于是得名ggplot。按照《图形的语法》一书中的观点,一张统计图形就是从数据到点、线或方块等几何对象的颜色、形状或大小等图形属性的一个映射,其中还可能包含对数据进行统计变换(如求均值或方差),最后将这个映射绘制在一定的坐标系中就得到了我们需要的图形。图中可能还有分面,就是生成关于数据的不同子集的图形。

2015-10-12

Machine Learning with R

从原理介绍包括决策树、神经网络等多种基础算法及其优缺点,并运用相关R语言包进行实战,最后还有两章专门介绍模型Performance的评估与优化,简单易懂。PS: 这本是从Level Up Your Machine Learning一文中了解到的ML入门级推荐书籍,果然不错

2015-08-04

基于代价的oracle优化

Contents at a Glance Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii About the Author . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv About the Technical Reviewers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xix Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxi ■CHAPTER 1 What Do You Mean by Cost? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 ■CHAPTER 2 Tablescans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 ■CHAPTER 3 Single Table Selectivity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 ■CHAPTER 4 Simple B-tree Access . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 ■CHAPTER 5 The Clustering Factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 ■CHAPTER 6 Selectivity Issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 ■CHAPTER 7 Histograms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 ■CHAPTER 8 Bitmap Indexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 ■CHAPTER 9 Query Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 ■CHAPTER 10 Join Cardinality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 ■CHAPTER 11 Nested Loops . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 ■CHAPTER 12 Hash Joins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 ■CHAPTER 13 Sorting and Merge Joins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 ■CHAPTER 14 The 10053 Trace File . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403 ■APPENDIX A Upgrade Headaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 ■APPENDIX B Optimizer Parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 ■INDEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475

2015-06-25

hadoop权威指南

本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:Hadoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何安装Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;ZooKeeper简介,最后还提供了丰富的案例分析。

2015-03-19

c经典代码大全

C语言是一种计算机程序设计语言,它既具有高级语言的特点,又具有汇编语言的特点

2014-06-23

经典算法大全

C语言是一种计算机程序设计语言,它既具有高级语言的特点,又具有汇编语言的特点

2014-06-23

c语言经典代码

c语言是很好地一门语言,这里有优秀的c语言代码,帮你快速提高c语言能力,走向成功之路,c经典代码,好好学习吧

2014-06-23

鸟哥的linux

linux的提高有帮助,好好学习linux吧

2014-03-09

嵌入式linux应用开发

嵌入式linux开发的技术手册,对有linux基础的人有很好提高

2014-03-09

离散数学第四版答案 kenneth

离散数学答案,很全很好,让大家做完后能看看答案来全额顶自己做的是否正确,希望大家能好好学习计算机相关课程

2014-01-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除