卅千万-CSDN博客

原创 NLP文本相似度之LCS

基础LCS（Longest Common Subsequence）通常指的是最长公共子序列，区别最长公共字串（Longest Common Substring）。我们先从子序列的定义理解：一个序列S任意删除若干个字符得到新的序列T，则T叫做S的子序列。子序列和子串的一个很大的不同点是，子序列不要求连接，而子串要求连接。两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共...

2019-04-17 12:30:55 1416

原创 Java参数传递机制的一种打开方式

传值 or 传址？实参 or 形参？基本数据类型 or 引用数组类型？学习过Java，相信你对这些概念肯定熟悉，然，时间久了，某一天突然被问到这些，又一脸懵逼，它们讲的是啥，如何区分？来，让我们通过实践操练起来，请看下面一题，思考输出结果。import java.util.Arrays;public class Exam4 { public static void main(Stri...

2019-04-16 22:01:13 171

原创 NLP 文本相似度（一）

生活中事物之间的比较，通常采用一个量化的衡量标准。衡量是一种比较，比较就需要比较的维度，两份文本之间如何比较相似度？我们先从一份文本说起。文本从结构划分：包含字、词、句、段、篇；从规则划分：包含词法规则、语法规则等；从上下文理解：不同的字、词在不同的语境（上下文）中又含有不同的语义…两份文本之间的比较，似乎很难。IF-IDF 是一种很有效的文本相似度比较算法。...

2019-04-16 17:48:18 876

原创 java内存结构学习的一种打开方式

用Java开发已经四年，中途学了python，Scala，接触这些开发语言后，总感觉Java就像老奶奶裹脚——又臭又长。然，Java虐我千百遍，我待Java如初恋。聊起Java，不得不谈Java的内存结构，请注意，要区别Java内存模型（JMM，关于happens-before、读写屏障啥的）。结构图java内存结构包括5大部分，先来一张图围观一下：其中堆存放的有对象实例、数组；局部变量表...

2019-04-10 18:38:56 1524 3

原创原码、反码、补码新解

世界上有10中人，一种懂二进制，一种不懂二进制。我们习惯了十进制计数，乍看到二进制，有点别扭，认识后慢慢发现它的神奇：有点一生二，二生万物的意思。十进制和二进制的部分对应关系如下：小范围的十进制运算，我们操练起来麻麻溜溜的，二进制的运算相信你也不差，然，碰到十进制转二进制的运算就有点蒙圈了。计算机 CPU 的运算器只实现了加法器，没有实现减法器。但，我们可以通过加上一个负数来实现减法运算。...

2019-04-04 16:22:43 299

原创 python与正则表达式

正则表达式是什么？可以理解为文本的一种抽象特征，通过特定的符号规则，来对应特定的文本。这里我们实践的是python中的正则表达式。python中使用正则表达式很简单，包括下面4个简单步骤：引入正则表达式模块，import re；用re.compile()函数创建一个Regex对象；向Regex对象的search()方法传入想要查找的字符串，它返回一个match对象；调用match对象的...

2019-03-28 12:38:44 207

常用的python可视化工具包是matplotlib，seaborn是在matplotlib基础上做的进一步封装。入坑python可视化，对有些人来说如同望山跑死马，心气上早输了一节。其实学习一门新知识，首先要掌握的是这门知识的最少最核心知识，剩下的就让它在实践中拓展吧。视图分类可视化视图的分类常常从两个维度：变量个数和变量之间的关系。按变量个数分可分为单变量分析和多变量分析。变量之间的关系常...

2019-03-20 23:01:31 369

原创 spark算子集锦

Spark 是大数据领域的一大利器，花时间总结了一下 Spark 常用算子，正所谓温故而知新。Spark 算子按照功能分，可以分成两大类：transform 和 action。Transform 不进行实际计算，是惰性的，action 操作才进行实际的计算。如何区分两者？看函数返回，如果输入到输出都是RDD类型，则认为是transform操作，反之为action操作。准备准备阶段包括spar...

2019-03-09 21:46:55 223

原创 Hadoop shell 一查就会

Hadoop shell 命令有三种格式hdfs + dfs (必须是dis)Hadoop + dfsHadoop + df命令说明hadoop 版本查看hadoop versionhadoop 显示命令信息hadoop dfs列出 HDFS 目录Hadoop fs -ls /递归列出 / 下的所有目录（包括子目录）Hadoop fs -l...

2019-03-05 11:43:08 186

原创 Spark你需要知道这些

谈到 Spark，我们总是强调它比 Hadoop 更高效。为什么它可以更高效呢？是因为它优先使用内存存储？还是因为它拥有比 MapReduce 更简单高效的计算模型？与 Hadoop 的区别我们知道在 Hadoop 中，一个作业（Job）可以有一个或多个Task，Task 又可以分成 Map Task 和 Reduce Task。每个Task 分别在自己的进程中运行，Hadoop 中一个 Ta...

2019-01-30 19:21:54 255

原创 Hive 基础你需要掌握这些

HDFS 中一个简单的 Join查询，是否需要撸一大串代码？我只会SQL语句能不能入坑大数据？这里我们就来聊一聊 Hive。Hive 是什么？Hive 是一种数据仓库工具，不提供数据存储（数据还是存储在 HDFS 上），它能让你通过 SQL语句实现 MapReduce 统计。Hive 是一个SQL解析引擎，是将SQL语句转译成 MapReduce 作业，然后在 Hadoop 平台上运行。...

2019-01-30 11:49:24 222

原创从 Hadoop 1.0 到 Hadoop 2.0 ，你需要了解这些

学习大数据，刚开始接触的是 Hadoop 1.0，

2019-01-29 12:36:09 246

原创 HDFS要点剖析

谈到大数据，不得不提的一个名词是“HDFS”。它是一种分布式文件存储系统，其系统架构图如下图所示：从图中可以了解到的几个关键概念元数据（MetaData）机架（Rock）块（Block）从图中可以了解到的两个重要组件：NameNodeDataNode需要了解的另一个组件：SecondaryNameNode三个重要的组件说明NameNode简单地说，NameNo...

2019-01-28 22:29:53 131

原创 MapReduce详解和WordCount模拟

MapReduce 框架

2019-01-28 11:23:38 356

原创 MySQL一查就会

Table1--mysql常用操作主题用例说明书写规范数据库和表的名称不一定要大写。输入文本类型的数据时都要加上单引号； NULL 表示未定义，它不会等于另一个NULL； ...

2018-09-21 16:27:43 175

原创别说我不懂排序！几种常见排序算法（二）

part4：选择排序核心思想：可以将一个原始列表划分成有序和无序两部分，每次从无序部分挑选出最值加入有序部分的一侧，直到该列表完全有序。代码示例def selection_sort(arr): n = len(arr) for i in range(n-1): smallNdx =i for j in range(i+1,n):...

2018-09-13 14:47:17 159

原创 Hbase配置指南

注意点Hbase 需要zookeeper。Hbase 需要在各个节点的机器上配置。集群中的启动顺序是Hadoop、zookeeper 和Hbase搭建步骤解压安装文件并配置环境变量。export HBASE_HOME=/usr/local/src/hbaseexport HBASE_CLASSPATH=$HBASE_HOME/confexport HBASE...

2018-09-12 08:20:23 150

原创 Zookeeper配置要点必看

注意点zookeeper需要在各个节点的机器上搭建，它的启动也要在各个节点的$ZOOKEEPER_HOME/bin 下启动。环境搭建下载安装包并解压。在$ZOOKEEPER_HOME/conf 目录下，生成zoo.cfg文件并添加配置。mv zoo_sample.cfg zoo.cfg#新增内容server.0=192.168.154.200:8880:...

2018-09-12 08:20:08 997

原创集群搭建之Spark配置要点解析

注意点：安装Spark前先要配置好Scala运行环境。Spark和Scala需要在各个机器上配置。环境变量配置在~/.bashrc中添加如下的配置信息。#scala confexport SCALA_HOME=/usr/local/src/scala-2.11.8export PATH=$PATH:$SCALA_HOME/bin#spark confex...

2018-09-11 21:13:39 153

原创集群搭建之Hive配置要点

注意点：在启动Hive 的时候要先启动Hadoop和MySQL服务。Mysql 和 Hive 搭建在 yan00机器上。part1：MySQL配置相关安装和配置相关命令：Yum install mysqlYum install mysql-server/etc/init.d/mysqld startmysqladmin -u root pas...

2018-09-11 21:08:14 176

原创 Hadoop配置要点必看

hadoop 配置要点软件版本 java 1.8.0_151 hadoop 2.6.1part1 $HADOOP_HOME/etc/hadoop 目录下配置参数。slaves 配置从节点 yarn01，yarn02。 core-site.xml 添加配置。<configuration><property...

2018-09-11 21:04:34 146

原创集群架构基础必会

集群架构系统虚拟机软件 Linux环境虚拟机台数集群主机名 64位 WIN7 旗舰版 VMware Workstation CentOS-6.5-x86_64 3 yarn00/yarn01/yarn02part1 Linux虚拟机搭建安装VMWare安装CentOS配置虚拟机网络——Nat模式查看和配置网...

2018-09-11 20:59:48 191

原创别说我不懂排序！几种常见排序算法（一）

part1 冒泡排序冒泡排序的核心：一步一步交换相邻位置的数据！代码示例for 循环实现。def bubble_sort1(arr): # 交换的细节 def swap(i,j): arr[i],arr[j]=arr[j],arr[i] n =len(arr) # 一步一步比较 for i in range(n):...

2018-09-11 17:36:41 171

原创堆排序新解

简介堆排序是一种不稳定的排序算法。堆排序的时间复杂度为O(NlogN)。堆排序有两种实现方式。基于递归函数的实现，其额外空间复杂度为O(logN)；非递归实现的额外空间复杂度为O(1)。这里讨论的是非递归的实现方式。堆分为大根堆和小根堆，是完全二叉树。对于完全二叉树中的任意一个节点，若它存在左孩子和右孩子（右孩子如果缺失可以脑补），你都会发现如图一三角形区域所示的微金字塔结...

2018-09-11 17:28:12 124

翻译一张图说清楚机器学习

入坑机器学习有一定的门槛，不要怕！让老司机用一张图来告诉你如何进行机器学习。正文实验案例：房价预测步骤总结如下： - 导入需要的Python依赖库。两个重要的库：Numpy、Pandas。 - 导入数据集（Data sets）。 - 处理缺失数据（Missing data）和分类数据（Categorical data ）。 - 将原始数据集分成训练和测试两部分。 - ...

2018-09-11 17:19:51 484

翻译机器学习极简入门教程（三）

这是机器学习入门教程系列的第三部分，点击这里跳转到第一部分，点击这里跳转到第二部分。part6通过前面的学习，我们掌握了用已有数据对目标进行预测的方法。在使用模型的时候，有些人或许会好奇，模型究竟是怎样的？这里我们通过一个独特的视角——部分依赖图（Partial Dependence Plots）来认识模型。定义部分依赖图研究的是一组目标特征和目标函数之间的依赖关系。通俗说：部...

2018-09-11 17:16:18 355

翻译机器学习极简入门教程（二）

这是机器学习入门教程系列的第二部分，点击这里跳转到第一部分。part4让我们回到数据部分。一份数据，理想的状况是能直接拿来用。现实中往往不是这样，需要我们先对原始数据进行处理。这里我们这里讨论了一种情况：对缺失值的处理方式。处理缺失值1.直接删除缺失值cols_with_missing =[col for col in X_train.columns if X_train[...

2018-09-11 17:13:37 642

翻译机器学习极简入门教程（一）

阅读此文，需要有python基础。part1这里不回答机器学习是什么，能做什么，只告诉你如何快速上手。熟悉你手中的数据。常用模块导入命令import pandas as pd文件导入命令FILE_PATH=&amp;quot;.CSV后缀文件存放路径&amp;quot;data = pd.read_csv(FILE_PATH)数据探索命令。这里以房价预测数据为例，数据下载点...

2018-09-11 16:54:53 5309 4