自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FZ的博客

专注机器学习

  • 博客(24)
  • 收藏
  • 关注

转载 数据嗨客 | 第3期:朴素贝叶斯和垃圾邮件过滤 机器学习 2016-11-01 0 摘要:概率论只不过是把常识用数学公式表达了出来。 概率论只不过是把常识用数学公式表达了出来。 —

数据嗨客 | 第3期:朴素贝叶斯和垃圾邮件过滤机器学习 2016-11-010摘要:概率论只不过是把常识用数学公式表达了出来。概率论只不过是把常识用数学公式表达了出来。————拉普拉斯由于使用邮箱注册各种网站,我们每天都会收到各种广告、推销、甚至是诈骗邮件,但幸运地是,我们的邮箱并没有隔几分钟就会有新邮件提醒,因为它会自动识别垃圾邮件,并扔到垃圾箱,就像什么都没有发

2017-09-05 16:13:39 722

转载 写文章 数据嗨客 | 第2期:线性回归 数据嗨客 | 第2期:线性回归 泊数 泊数 1 年前 普林大数据学院——“机器学习”系列 普林大数据学院依托北京大数据研究院和北京大学,为有需求的企业

数据嗨客 | 第2期:线性回归泊数1 年前普林大数据学院——“机器学习”系列 普林大数据学院依托北京大数据研究院和北京大学,为有需求的企业和用户提供线上线下结合大数据培训服务。 线上:国内首家大数据在线成长平台——数据嗨客,包括实战、学习、群组、培训、竞赛、工作六大功能模块。旨在帮助大数据人才在理论知识、业务能力和实战技能方面全面发展,成长为真正的数据科学家。 线下:专业的

2017-09-05 16:12:24 571

转载 数据嗨客 | 第1期

数据嗨客 | 第1期:5分钟包你看懂“机器学习”郑来轶10 个月前和大数据一样,机器学习(MachineLearning, ML)是一个热门而又有略有误导性的名词。字面上它让不禁让人联想到一群机器人排排坐上自习的科幻场景,然而实际上它指的是让计算机具备像人一样的学习能力的高(qi)端(ji)技(yin)术(qiao),进而从堆积如山的数据中寻找出有用的知识。听起来有些不

2017-09-05 16:10:09 2736 1

转载 数据嗨客 | 第4期:逻辑回归

摘要:逻辑回归,也称LogisticRegression,主要区别于一般的线性回归模型。1引子大家在日常的工作和学习中是不是经常有这样的疑问:邮箱是如何自动区分正常邮件和垃圾邮件的呢?银行是如何判断是否通过你的贷款申请的呢?经常收到某种商品的推荐信息,商家又是如何知道你对这个商品感兴趣的呢?为了回答上述疑问,这一期给大家介绍逻辑回归算法。逻辑回归,也称LogisticR

2017-09-05 15:51:11 2263

转载 ORALC/HIVE 的STDDEV、STDDEV_POP、STDDEV_SAMP等函数

今天一个同事碰到一个问题:用SQL求一个指标的计算公式:其中Xi即指标,X—指标均值,N是指标个数,看到这样的计算公式确实比较发愁。在处理问题前,先去恶补了下数理统计方面的知识(数理统计的知识基本上都还给老师了):方差、标准差、平均值.....随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。 样

2016-09-20 15:26:37 2521

原创 hive文件存储格式

hive文件存储格式用HIVE很久了,现在将HIVE存储格式大致大致总结一下:HIVE上默认存储格式也是最简单的存储格式,即:文本文件格式:textfile,1.textfiletextfile为默认格式存储方式:行存储优点:1. 可以任意的分隔符进行分割,           2. 便于查看和编辑,可以直接在HDFS上查看明文文件缺点:1. 磁盘开销大 数

2016-04-13 16:01:42 658

转载 hive大数据倾斜总结

hive大数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的re

2016-03-23 15:27:11 278

转载 Hadoop如何计算map数和reduce数

Hadoop如何计算map数和reduce数Hadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclient首先分析job被拆分的split数量,然后吧job.split文件放置在HDFS中,一个job的MapTask数量就等于split的个数。

2016-03-10 15:24:02 458

原创 shell中txt转EXCEL

工作中,常常需要将HIVE数据库或者HDFS中文件通过EXCEL格式,通过邮箱发给业务人员。但是,SHELL又不能直接将txt文件转换为EXCEL可读的格式,因此编写了以下两类python脚本:

2016-01-17 10:43:55 11311

转载 Spark 随机森林算法原理、源码分析及案例实战

1.Spark 随机森林算法原理是什么?2.随机森林算法源码做了哪些分析?3.随机森林算法本文例举了什么案例?本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络 IO 操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然

2016-01-13 10:43:00 6497 1

转载 Python科学计算的瑞士军刀——Anaconda 安装与配置

IntroducePython是一种强大的编程语言,其提供了很多用于科学计算的模块,常见的包括numpy、scipy和matplotlib。要利用Python进行科学计算,就需要一一安装所需的模块,而这些模块可能又依赖于其它的软件包或库,因而安装和使用起来相对麻烦。幸好有人专门在做这一类事情,将科学计算所需要的模块都编译好,然后打包以发行版的形式供用户使用,Anaconda就是其中一个常用的科

2015-12-29 09:10:10 542

原创 Excel文件创建HIVE表

Excel文件创建HIVE表步骤一:将excel另存为txt文档(文本文件(制表符分割))假设名字为a.txt步骤二,将该txt文件导入shell内指定目录中步骤三,转换编码格式,在指定目录下执行如下命令:piconv -f gb2312 -t UTF-8 a.txt  >  c.txt步骤四,根据文档中的列,创建表,建表语句如下:use dw_htlbizdb ;

2015-12-23 17:47:45 4697 1

转载 linux查找目录下的所有文件中是否含有某个字符串

http://www.2cto.com/os/201411/352199.html

2015-12-16 15:43:24 340

转载 Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备:2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-

2015-12-14 15:19:10 872

转载 Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE

继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie

2015-12-14 15:18:02 454

转载 Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

这两个序列分析函数不是很常用,这里也介绍一下。注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)Hive版本为 apache-hive-0.13.1数据准备:d1,user1,1000d1,user2,2000d1,user3,3000d2,user4,4000d2,user5,5000 CREATE EXTERNAL TABLE lxw12

2015-12-14 15:17:26 522

转载 Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章)数据准备:cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-1

2015-12-14 15:16:43 652

转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createtime strin

2015-12-14 15:15:09 9493

转载 Spark学习笔记

Spark学习笔记Spark简介spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、Gra

2015-11-09 21:10:35 801

转载 查看linux下的字体

查看所有字体:fc-list查看中文字体fc-list :lang=zh用fc-list找出语言为zh的字体文件,可见系统里中文字体少的可怜。知道了这些字体,还需要进一步了解这些字体对应的文件,可以运行fc-match程序得到,fc-match -v "AR PL UKai CN"Pattern has 32 elts (size 48)    fa

2015-10-28 10:01:29 15682

转载 Shell脚本处理“integer expression expected”

Shell脚本里,在用 test 的参数作比较的时候,如“ [ $temp -gt "100" ]”,可能会出现如题的“integer expression expected”错误。这是因为test 的这几个参数: -gt ,-lt,-eq 比较的都是数字,因此变量temp如果是一个字符串的话就会出现上述错误了。将原句改为“ [ $temp -gt 100 ]” 结果也是一样的。解决这个问

2015-10-28 09:47:23 2788

转载 gnuplot线类型以及字体的设置

在NS2的gnuplot绘图程序中对线型(linetype)、点型(pointtype)、线条宽度(linewidth)、点大小(pointsize)、图样(style)都有相应的设定值,具体设置如下:(1)线型(linetype )。在此类型中主要设置线条的颜色,具体对应如下:n0123

2015-10-28 09:46:16 7665

转载 Linux Shell之sort命令

sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!

2015-10-21 10:16:41 269

转载 shell 间接变量引用的问题

当要引用一个变量的值时,一般推荐使用双引号。使用双引号除了变量名[2]前缀($)、后引符(`)和转义符(\)外,会使shell不再解释引号中其它所有的特殊字符。[3] 用双引号时$仍被当成特殊字符,允许引用一个被双引号引起的变量("$variable"), 那也是说$variable会被它的值所代替。用双引号还能使句子不被分割开. [4] 一个参数用双引号引起来能使它被看做一个单元,这样即

2015-10-16 15:23:39 334

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除