自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

卅千万

怕什么真理无穷,进一寸有一寸的欢喜。

  • 博客(28)
  • 资源 (10)
  • 收藏
  • 关注

原创 NLP文本相似度之LCS

基础LCS(Longest Common Subsequence)通常指的是最长公共子序列,区别最长公共字串(Longest Common Substring)。我们先从子序列的定义理解:一个序列S任意删除若干个字符得到新的序列T,则T叫做S的子序列。子序列和子串的一个很大的不同点是,子序列不要求连接,而子串要求连接。两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共...

2019-04-17 12:30:55 1416

原创 Java参数传递机制的一种打开方式

传值 or 传址?实参 or 形参?基本数据类型 or 引用数组类型?学习过Java,相信你对这些概念肯定熟悉,然,时间久了,某一天突然被问到这些,又一脸懵逼,它们讲的是啥,如何区分?来,让我们通过实践操练起来,请看下面一题,思考输出结果。import java.util.Arrays;public class Exam4 { public static void main(Stri...

2019-04-16 22:01:13 171

原创 NLP 文本相似度(一)

生活中事物之间的比较,通常采用一个量化的衡量标准。衡量是一种比较,比较就需要比较的维度,两份文本之间如何比较相似度?我们先从一份文本说起。文本从结构划分:包含字、词、句、段、篇;从规则划分:包含词法规则、语法规则等;从上下文理解:不同的字、词在不同的语境(上下文)中又含有不同的语义…两份文本之间的比较,似乎很难。IF-IDF 是一种很有效的文本相似度比较算法。...

2019-04-16 17:48:18 876

原创 java内存结构学习的一种打开方式

用Java开发已经四年,中途学了python,Scala,接触这些开发语言后,总感觉Java就像老奶奶裹脚——又臭又长。然,Java虐我千百遍,我待Java如初恋。聊起Java,不得不谈Java的内存结构,请注意,要区别Java内存模型(JMM,关于happens-before、读写屏障啥的)。结构图java内存结构包括5大部分,先来一张图围观一下:其中堆存放的有对象实例、数组;局部变量表...

2019-04-10 18:38:56 1524 3

原创 原码、反码、补码新解

世界上有10中人,一种懂二进制,一种不懂二进制。我们习惯了十进制计数,乍看到二进制,有点别扭,认识后慢慢发现它的神奇:有点一生二,二生万物的意思。十进制和二进制的部分对应关系如下:小范围的十进制运算,我们操练起来麻麻溜溜的,二进制的运算相信你也不差,然,碰到十进制转二进制的运算就有点蒙圈了。计算机 CPU 的运算器只实现了加法器,没有实现减法器。但,我们可以通过加上一个负数来实现减法运算。...

2019-04-04 16:22:43 299

原创 python与正则表达式

正则表达式是什么?可以理解为文本的一种抽象特征,通过特定的符号规则,来对应特定的文本。这里我们实践的是python中的正则表达式。python中使用正则表达式很简单,包括下面4个简单步骤:引入正则表达式模块,import re;用re.compile()函数创建一个Regex对象;向Regex对象的search()方法传入想要查找的字符串,它返回一个match对象;调用match对象的...

2019-03-28 12:38:44 207

原创 python可视化基础

常用的python可视化工具包是matplotlib,seaborn是在matplotlib基础上做的进一步封装。入坑python可视化,对有些人来说如同望山跑死马,心气上早输了一节。其实学习一门新知识,首先要掌握的是这门知识的最少最核心知识,剩下的就让它在实践中拓展吧。视图分类可视化视图的分类常常从两个维度:变量个数和变量之间的关系。按变量个数分可分为单变量分析和多变量分析。变量之间的关系常...

2019-03-20 23:01:31 369

原创 spark算子集锦

Spark 是大数据领域的一大利器,花时间总结了一下 Spark 常用算子,正所谓温故而知新。Spark 算子按照功能分,可以分成两大类:transform 和 action。Transform 不进行实际计算,是惰性的,action 操作才进行实际的计算。如何区分两者?看函数返回,如果输入到输出都是RDD类型,则认为是transform操作,反之为action操作。准备准备阶段包括spar...

2019-03-09 21:46:55 223

原创 Hadoop shell 一查就会

Hadoop shell 命令有三种格式hdfs + dfs (必须是dis)Hadoop + dfsHadoop + df命令说明hadoop 版本查看hadoop versionhadoop 显示命令信息hadoop dfs列出 HDFS 目录Hadoop fs -ls /递归列出 / 下的所有目录(包括子目录)Hadoop fs -l...

2019-03-05 11:43:08 186

原创 Spark你需要知道这些

谈到 Spark,我们总是强调它比 Hadoop 更高效。为什么它可以更高效呢?是因为它优先使用内存存储?还是因为它拥有比 MapReduce 更简单高效的计算模型?与 Hadoop 的区别我们知道在 Hadoop 中,一个作业(Job)可以有一个或多个Task,Task 又可以分成 Map Task 和 Reduce Task。每个Task 分别在自己的进程中运行,Hadoop 中一个 Ta...

2019-01-30 19:21:54 255

原创 Hive 基础你需要掌握这些

HDFS 中一个简单的 Join查询,是否需要撸一大串代码?我只会SQL语句 能不能入坑大数据?这里我们就来聊一聊 Hive。Hive 是什么?Hive 是一种数据仓库工具,不提供数据存储(数据还是存储在 HDFS 上),它能让你通过 SQL语句实现 MapReduce 统计。Hive 是一个SQL解析引擎,是将SQL语句转译成 MapReduce 作业,然后在 Hadoop 平台上运行。...

2019-01-30 11:49:24 222

原创 从 Hadoop 1.0 到 Hadoop 2.0 ,你需要了解这些

学习大数据,刚开始接触的是 Hadoop 1.0,

2019-01-29 12:36:09 246

原创 HDFS要点剖析

谈到大数据,不得不提的一个名词是“HDFS”。它是一种分布式文件存储系统,其系统架构图如下图所示:从图中可以了解到的几个关键概念元数据(MetaData)机架(Rock)块(Block)从图中可以了解到的两个重要组件:NameNodeDataNode需要了解的另一个组件:SecondaryNameNode三个重要的组件说明NameNode简单地说,NameNo...

2019-01-28 22:29:53 131

原创 MapReduce详解和WordCount模拟

MapReduce 框架

2019-01-28 11:23:38 356

原创 MySQL一查就会

Table1--mysql常用操作 主题 用例 说明 书写规范   数据库和表的名称不一定要大写。 输入文本类型的数据时都要加上单引号; NULL 表示未定义,它不会等于另一个NULL; ...

2018-09-21 16:27:43 175

原创 别说我不懂排序!几种常见排序算法(二)

part4:选择排序核心思想:可以将一个原始列表划分成有序和无序两部分,每次从无序部分挑选出最值加入有序部分的一侧,直到该列表完全有序。 代码示例def selection_sort(arr): n = len(arr) for i in range(n-1): smallNdx =i for j in range(i+1,n):...

2018-09-13 14:47:17 159

原创 Hbase配置指南

注意点Hbase 需要zookeeper。Hbase 需要在各个节点的机器上配置。集群中的启动顺序是Hadoop、zookeeper 和Hbase搭建步骤解压安装文件并配置环境变量。export HBASE_HOME=/usr/local/src/hbaseexport HBASE_CLASSPATH=$HBASE_HOME/confexport HBASE...

2018-09-12 08:20:23 150

原创 Zookeeper配置要点必看

注意点zookeeper需要在各个节点的机器上搭建,它的启动也要在各个节点的$ZOOKEEPER_HOME/bin 下启动。环境搭建下载安装包并解压。在$ZOOKEEPER_HOME/conf 目录下,生成zoo.cfg文件并添加配 置。mv zoo_sample.cfg zoo.cfg#新增内容server.0=192.168.154.200:8880:...

2018-09-12 08:20:08 997

原创 集群搭建之Spark配置要点解析

注意点:安装Spark前先要配置好Scala运行环境。Spark和Scala需要在各个机器上配置。环境变量配置在~/.bashrc中添加如下的配置信息。#scala confexport SCALA_HOME=/usr/local/src/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin#spark confex...

2018-09-11 21:13:39 153

原创 集群搭建之Hive配置要点

注意点:在启动Hive 的时候要先启动Hadoop和MySQL服务。Mysql 和 Hive 搭建在 yan00机器上。part1:MySQL配置相关安装和配置相关命令:Yum install mysqlYum install mysql-server/etc/init.d/mysqld startmysqladmin -u root pas...

2018-09-11 21:08:14 176

原创 Hadoop配置要点必看

hadoop 配置要点 软件 版本 java 1.8.0_151 hadoop 2.6.1part1 $HADOOP_HOME/etc/hadoop 目录下配置参数。slaves 配置从节点 yarn01,yarn02。 core-site.xml 添加配置。<configuration><property...

2018-09-11 21:04:34 146

原创 集群架构基础必会

集群架构 系统 虚拟机软件 Linux环境 虚拟机台数 集群主机名 64位 WIN7 旗舰版 VMware Workstation CentOS-6.5-x86_64 3 yarn00/yarn01/yarn02part1 Linux虚拟机搭建安装VMWare安装CentOS配置虚拟机网络——Nat模式查看和配置网...

2018-09-11 20:59:48 191

原创 别说我不懂排序!几种常见排序算法(一)

part1 冒泡排序冒泡排序的核心:一步一步交换相邻位置的数据! 代码示例for 循环实现。def bubble_sort1(arr): # 交换的细节 def swap(i,j): arr[i],arr[j]=arr[j],arr[i] n =len(arr) # 一步一步比较 for i in range(n):...

2018-09-11 17:36:41 171

原创 堆排序新解

简介堆排序是一种不稳定的排序算法。堆排序的时间复杂度为O(NlogN)。堆排序有两种实现方式。基于递归函数的实现,其额外空间复杂度为O(logN);非递归实现的额外空间复杂度为O(1)。这里讨论的是非递归的实现方式。堆分为大根堆和小根堆,是完全二叉树。 对于完全二叉树中的任意一个节点,若它存在左孩子和右孩子(右孩子如果缺失可以脑补),你都会发现如图一三角形区域所示的微金字塔结...

2018-09-11 17:28:12 124

翻译 一张图说清楚机器学习

入坑机器学习有一定的门槛,不要怕!让老司机用一张图来告诉你如何进行机器学习。正文实验案例:房价预测 步骤总结如下: - 导入需要的Python依赖库。两个重要的库:Numpy、Pandas。 - 导入数据集(Data sets)。 - 处理缺失数据(Missing data)和分类数据(Categorical data )。 - 将原始数据集分成训练和测试两部分。 - ...

2018-09-11 17:19:51 484

翻译 机器学习极简入门教程(三)

这是机器学习入门教程系列的第三部分,点击这里跳转到第一部分,点击这里跳转到第二部分。part6通过前面的学习,我们掌握了用已有数据对目标进行预测的方法。在使用模型的时候,有些人或许会好奇,模型究竟是怎样的?这里我们通过一个独特的视角——部分依赖图(Partial Dependence Plots)来认识模型。定义部分依赖图研究的是一组目标特征和目标函数之间的依赖关系。通俗说:部...

2018-09-11 17:16:18 355

翻译 机器学习极简入门教程(二)

这是机器学习入门教程系列的第二部分,点击这里跳转到第一部分。part4让我们回到数据部分。一份数据,理想的状况是能直接拿来用。现实中往往不是这样,需要我们先对原始数据进行处理。这里我们这里讨论了一种情况:对缺失值的处理方式。处理缺失值1.直接删除缺失值cols_with_missing =[col for col in X_train.columns if X_train[...

2018-09-11 17:13:37 642

翻译 机器学习极简入门教程(一)

阅读此文,需要有python基础。part1这里不回答机器学习是什么,能做什么,只告诉你如何快速上手。熟悉你手中的数据。常用模块导入命令import pandas as pd文件导入命令FILE_PATH=".CSV后缀文件存放路径"data = pd.read_csv(FILE_PATH)数据探索命令。这里以房价预测数据为例,数据下载点...

2018-09-11 16:54:53 5309 4

MapReduce 实践数据

MapReduce章节wordcount 实践材料,大数据学习实践材料。

2019-01-28

spark开发丛书

包括:Spark快速大数据分析、图解Spark 核心技术与案例实战_郭景瞻编著、图解Spark核心技术与案例实战 附录、Apache+Spark源码剖析

2018-09-12

hadoop开发丛书

包括:Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理、Hadoop技术内幕 深入理解MapReduce架构设计与实现原理、Hadoop海量数据处理、Hadoop The Definitive Guide, 4th Edition,pdf格式

2018-09-12

kotlin开发丛书

包括:Kotlin in Action、kotlin-for-android-developers-zh、Kotlin官方参考文档中文版,pdf格式。

2018-09-12

最全的《Head First》系列一

包括深入浅出统计学(美)道恩·格里菲思、深入浅出数据分析(美)完整中文版、HeadFirstRails、HeadFirstHTML与CSS、XHTML、head+first+sql 、Head+First+PHP+MySQL.扫描版

2018-09-11

台湾清华彭明辉教授的研究生手册

台湾清华彭明辉教授的研究生手册,不错的指导说明,进阶必备。

2018-03-28

一个牛人给java初学者的建议

学java不知不觉也已经三年了 从不知java为何物到现在一个小小的j2ee项目经理 虽说不上此道高手,大概也算有点斤两了吧 每次上网,泡bbs逛论坛,没少去java相关的版面 总体感觉初学者多,高手少,精通的更少... ... 一个牛人给java初学者的建议

2015-04-12

Thinking In Java 4

完美高清中文版,《Thinking in Java》被评为1999年Java World“最爱读者欢迎图书”,并且赢得了编辑首选图书奖,是JAVA学习的首选工具书。

2015-04-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除