自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 朴素贝叶斯分类器(Naive Bayes)

在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。

2017-01-18 17:36:05 4864 1

原创 MDS(multidimensional scaling)多维尺度分析

1. MDS Multidimensional scaling,简称MDS,中文翻译成多维尺度分析(暂时这样翻译吧。。。)。其原理是利用成对样本间的相似性,去构建合适的低维空间,使得样本在此空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。我们可以用这种方式来可视化数据分布。

2016-12-08 15:26:23 29463 3

原创 机器学习模型评价指标 -- 混淆矩阵

机器学习模型评价指标 – 混淆矩阵 在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。其中,矩阵的每一列表示的是模型预测的样本情况;矩阵的每一行表示的样本的真实情况。1. 混淆矩阵的举例例如用一个分类模型来判别一个水果是苹果还是梨,混淆矩阵将会模型的预测结果总结成如下表所示的表格。 模型预测结果 苹果 真实结

2016-11-04 17:50:40 20185 2

原创 python-装饰器详解

python-装饰器详解1. 什么是装饰器2. 创建一个装饰器3. 装饰器示例-参数检查1. 什么是装饰器首先要说明的是,装饰器本身是一个函数,它接收其他函数作为参数,并将其以一个新的修改后的函数进行替换.在汉语词典中,对装饰的解释是在身体或物体的表面加些附属的东西,使美观.在 python 中,装饰器顾名思义,就是为 python 中的函数附加一些附属的东西,比如说插入日志,性能测试,参数...

2018-11-14 23:13:48 272

原创 mysql-dump数据

文章目录1. 具体用法2. 导出整个数据库结构和数据3. 导出整个数据库结构(不包含数据)4. 导出单个数据表结构(不包含数据)5. 只导出数据,不导出表结构mysqldump 指令是从数据库中dump数据的指令。1. 具体用法mysqldump -u用戶名 -p密码 -d 数据库名 表名 > 脚本名;其中,若干关键指令参数的解释如下:短指令参数长指令参数参数说明...

2018-10-08 11:53:03 442

转载 (12) linux shell 命令 -- ssh

SSH 是 Secure Shell 的缩写,它使用加密通道来传输网络数据。1. 使用 SSH 在远程主机上运行命令1. 连接远程主机ssh username@remote_hostusername 远程主机上的用户remote_host 远程主机上的域名或者是 ip 地址ssh 采用交互方式询问用户密码,一旦认证成功,将会为用户返回一个 shell。

2018-01-17 22:17:10 754

原创 (11) linux shell 命令 -- awk

总结了 linux awk 指令的使用方法

2017-12-01 22:14:49 418

原创 (10) linux shell 命令 -- sed

sed是stream editor的缩写,意为流编辑器。它是面向字符流的,输入的字符流经过sed的处理后输出。sed可以对输入流或者文本进行插入,删除,替换操作。sed是按行进行处理的,默认的是进行全文所有的行进行处理。也可以进行模式匹配,即在模式匹配上的行进行操作。

2017-05-21 22:06:43 427

原创 编辑距离

编辑距离(Edit Distance)又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。 许可的编辑操作只包括三种: (1)将一个字符替换成另一个字符, 例如, xyz -> xym (2)插入一个字符,例如,xy -> xyz (3)删除一个字符,例如,xyz -> xy

2017-01-09 21:30:17 702 1

原创 shell 采用split指令拆分文件

$ # 有一个文件 111.txt,有412行$ wc 111.txt 412 413 4073 111.txt$ file=111.txt$$ # 切分均等4份,保存为 xyzzy.* 文件$ num=4$ split --number=l/${num} ${file} xyzzy.$ ls -l | grep xyzzy.xyzzy.aaxyzzy.abxyzzy.ac

2016-11-18 15:34:57 5304

原创 hive中按照一个字段的区间进行统计

1. question给定一个hive表tmp,表中有一个字段result(double型);给定一个区间分类个数m,统计每个区间内的count(*)的数量。2. answer在linux终端下,# step1 设定区间分类个数,此处设置为10m=10# step2 求解字段 result 的最大值和最小值section=`hive -e "select max(result) as max_

2016-11-15 19:47:24 14512 1

原创 transpose and pivot data in hive

1. 键-值对的形式存储数据有时候,我们在hive中编写hql的时候,可以用键-值对的形式存储结果。比如有一些同学在一些课程中的学习行为,我们可以记录成如下形式: student class_name key value A english answer_num 9 A chinese answer_num 15 B english an

2016-11-14 20:37:55 2505

原创 采用java和python编写hive中的udf

在hive中,用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户将自定义的函数加入到用户会话中(交互式的或者通过脚本执行的),它们就会像内置的函数一样使用。编写UDF的java实现用户编写一个UDF,首先要继承UDF类并且实现evaluate()函数。在查询中对应的每个应用到这个函数的地方都会对这个类进行实例化。对于每一行输入都会调用到evaluate()函数。而evalua

2016-10-26 16:04:49 2555

转载 ubuntukylin系统下的Retext 的安装与配置

ubuntukylin系统下的Retext 的安装与配置ReText 是一个使用 Markdown 语法和 reStructuredText (reST) 结构的文本编辑器,编辑的内容支持导出到 PDF、ODT 和 HTML 以及纯文本,支持即时预览、网页生成以及 HTML 语法高亮、全屏模式,可导出文件到 Google Docs 等。

2016-09-30 23:14:14 2610

原创 那些年,写hive sql时所踩过的坑

本文记述一些本人在用hive时,所遇到的一些大坑小坑,一是防止自己再次落坑,二是避免旁人也掉入进去。文章会不定时更新。

2016-09-30 17:21:23 6312

原创 Linux shell 脚本攻略 -- 数学运算

数学运算在bash shell中,可以采用(1) let (2) (()) (3) [] 进行基本的算数运算。在高级操作中,可以采用(4) expr (5) bc进行高级运算。

2016-09-24 16:54:40 2686

转载 (9) linux shell 命令 -- touch

linux的touch命令不常用,一般在使用make的时候可能会用到,用来修改文件时间戳,或者新建一个不存在的文件。1  命令格式touch [选项] 文件 -a 或--time=atime或--time=access或--time=use只更改存取时间。-c 或--no-create 不建立任何文档。-d 使用指定的日期时间,而非现在的时间。-

2016-04-03 22:13:29 738

原创 (6) Python 语句和语法 –- 条件和条件语句

概  述:在python中,除了一条一条顺序执行的顺序语句之外,还会有让程序选择是否执行语句块的条件语句。 1  python语句块所谓的语句块,就是在条件为真(条件语句)时执行或者执行多次(循环语句)的一组语句。语句块的创建是在语句前面放置空格或者tab符。注意的是,语句块中的每一行语句都应该缩进相同的量。在python中,用冒号(:)来标识语句块的开始,块中的每一个

2016-04-03 21:30:00 792

原创 (2) Hive 数据导入方式

Hive 数据导入方式概  述:在Hive中,没有行级别的数据插入、数据更新和删除操作。往表中装载数据的唯一途径就是使用大量的数据装载操作。其中hive的数据导入方式分为四种,分别是从本地的文件系统中导入数据从Hadoop分布式文件系统(HDFS)中导入数据通过查询语句向表中插入数据单个查询语句中创建表并加载数据 1  从本地的文件系统中导入数据1.1 本地系统文件

2016-04-02 18:10:40 2026

原创 (1) Hive JOIN语句详解

本文讲述hive语句的JOIN语句的一般用法。Hive支持通常的SQL JOIN语句,但是只支持等值连接。

2016-02-27 14:31:14 741

转载 (8) linux shell 命令 -- cp

cp命令用来复制文件或者目录,是Linux系统中最常用的命令之一。一般情况下,shell会设置一个别名,在命令行下复制文件时,如果目标文件已经存在,就会询问是否覆盖,不管你是否使用-i参数。但是如果是在shell脚本中执行cp时,没有-i参数时不会询问是否覆盖。这说明命令行和shell脚本的执行方式有些不同。

2016-02-19 22:28:42 567

原创 (5) Python 语句和语法 –- 赋值

概 述:赋值语句是编程世界里最常见的语句。在Python中,拥有一些其他语言不具有的赋值技巧。

2016-02-19 22:01:35 960

转载 (7) linux shell 命令 – mv

mv命令是move的缩写,可以用来移动文件或者将文件改名(move (rename) files),是Linux系统下常用的命令,经常用来备份文件或者目录。1 命令格式mv [选项] 源文件或目录 目标文件或目录2 命令功能视mv命令中第二个参数类型的不同(是目标文件还是目标目录),mv命令将文件重命名或将其移至一个新的目录中。当第二个参数类型是文件时,mv命令完成文件重命

2016-02-19 20:31:29 4399

转载 (6) linux shell 命令 -- rmdir

rmdir是常用的命令,该命令的功能是删除空目录,一个目录被删除之前必须是空的。(注意,rm - r dir命令可代替rmdir,但是有很大危险性。)删除某目录时也必须具有对父目录的写权限。1 命令格式mkdir [选项] 目录2 命令功能该命令从一个目录中删除一个或多个子目录项,删除某目录时也必须具有对父目录的写权限。 参数:- p 递归删除目录d

2016-02-18 20:41:55 584

原创 (4) Python 内置类型 –- 字典

Python字典 –- 字典。字典是一种通过名字来引用值的结构,是Python中唯一内建的映射数据类型。字典是由一组组键值对组成的。键可以是数字,字符串甚至是元组;值是Python中的各种有效的数据类型。当索引不满足于我们的需求时,可以使用字典。

2016-02-18 17:52:48 415

原创 (3) Python 内置类型 –- 元组

概 述:Python元组 –- 元组与列表一样,也是一种序列。元组和字符串一样,不可进行修改。虽然不可修改,但是元组具有列表的大多数属性。

2016-02-17 22:32:32 354

原创 (2) Python 内置类型 –- 列表

本博客介绍了python中的常用数据类型 -- 列表,并介绍了列表的一些常用方法。列表是最具灵活性的有序集合对象类型。列表可以包含任何种类的对象:数字、字符串甚至其他列表。列表是可变对象,支持在原处修改的操作。列表是任意对象的有序集合,可以通过偏移读取。

2016-02-17 21:59:02 405

转载 (5) linux shell 命令 -- rm

rm是常用的命令,该命令的功能为删除一个目录中的一个或多个文件或目录,它也可以将某个目录及其下的所有文件及子目录均删除。对于链接文件,只是删除了链接,原有文件均保持不变。rm是一个危险的命令,使用的时候要特别当心,尤其对于新手,否则整个系统就会毁在这个命令(比如在/(根目录)下执行rm * -rf)。所以,我们在执行rm之前最好先确认一下在哪个目录,到底要删除什么东西,操作时保持高度清醒的

2016-02-17 20:23:18 568

转载 (4) linux shell 命令 -- mkdir

1 命令格式mkdir [选项] 目录2 命令功能通过 mkdir 命令可以实现在指定位置创建以 DirName(指定的文件名)命名的文件夹或目录。要创建文件夹或目录的用户必须对所创建的文件夹的父文件夹具有写权限。并且,所创建的文件夹(目录)不能与其父目录(即父文件夹)中的文件名重名,即同一个目录下不能有同名的(区分大小写)。 参数:  -m, --mo

2016-02-17 20:12:20 498

原创 (1) Python 内置类型 –- 字符串

概  述:Python字符串 – 一个有序的字符集合,用于存储和表现基于文本的信息。1 字符串1.1 单引号、双引号、三引号和转义引号单引号和双引号没有区别;三重引号编写多行字符串块;转义引号代表特殊字节。1234567891011>>> 'Hello World!''Hello World!'>>> 

2016-02-17 13:47:18 828

转载 (3) linux shell 命令 -- pwd

1 命令格式pwd2 命令功能执行pwd指令可立刻得知您目前所在的工作目录的绝对路径名称。3 基本列表功能3.1 查看当前工作目录的完整路径pwd 3.2 pwd -P目录连接链接时,pwd -P  显示出实际路径,而非使用连接(link)路径;pwd显示的是连接路径 3.3 pwd -L目录连接链接时,输出连接路径

2016-02-16 21:15:11 506

转载 (2) linux shell 命令 -- cd

1 命令格式cd [dirName]2 命令功能切换当前目录至dirName目录下3 基本列表功能3.1 进入系统根目录cd / 3.2 返回上级目录cd ..cd ..// 3.3 返回上两级目录cd ../..3.4 返回当前用户的主目录cdcd ~ 3.5 跳转到指定的目录

2016-02-16 20:54:08 281

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除