某某某的账号-CSDN博客

转载数据嗨客 | 第3期：朴素贝叶斯和垃圾邮件过滤机器学习 2016-11-01 0 摘要：概率论只不过是把常识用数学公式表达了出来。概率论只不过是把常识用数学公式表达了出来。 —

数据嗨客 | 第3期：朴素贝叶斯和垃圾邮件过滤机器学习 2016-11-010摘要：概率论只不过是把常识用数学公式表达了出来。概率论只不过是把常识用数学公式表达了出来。————拉普拉斯由于使用邮箱注册各种网站，我们每天都会收到各种广告、推销、甚至是诈骗邮件，但幸运地是，我们的邮箱并没有隔几分钟就会有新邮件提醒，因为它会自动识别垃圾邮件，并扔到垃圾箱，就像什么都没有发

2017-09-05 16:13:39 722

转载写文章数据嗨客 | 第2期：线性回归数据嗨客 | 第2期：线性回归泊数泊数 1 年前普林大数据学院——“机器学习”系列普林大数据学院依托北京大数据研究院和北京大学，为有需求的企业

数据嗨客 | 第2期：线性回归泊数1 年前普林大数据学院——“机器学习”系列普林大数据学院依托北京大数据研究院和北京大学，为有需求的企业和用户提供线上线下结合大数据培训服务。线上：国内首家大数据在线成长平台——数据嗨客，包括实战、学习、群组、培训、竞赛、工作六大功能模块。旨在帮助大数据人才在理论知识、业务能力和实战技能方面全面发展，成长为真正的数据科学家。线下：专业的

2017-09-05 16:12:24 571

转载数据嗨客 | 第1期

数据嗨客 | 第1期：5分钟包你看懂“机器学习”郑来轶10 个月前和大数据一样，机器学习(MachineLearning, ML)是一个热门而又有略有误导性的名词。字面上它让不禁让人联想到一群机器人排排坐上自习的科幻场景，然而实际上它指的是让计算机具备像人一样的学习能力的高(qi)端(ji)技(yin)术(qiao)，进而从堆积如山的数据中寻找出有用的知识。听起来有些不

2017-09-05 16:10:09 2736 1

转载数据嗨客 | 第4期：逻辑回归

摘要：逻辑回归，也称LogisticRegression,主要区别于一般的线性回归模型。1引子大家在日常的工作和学习中是不是经常有这样的疑问：邮箱是如何自动区分正常邮件和垃圾邮件的呢？银行是如何判断是否通过你的贷款申请的呢？经常收到某种商品的推荐信息，商家又是如何知道你对这个商品感兴趣的呢？为了回答上述疑问，这一期给大家介绍逻辑回归算法。逻辑回归，也称LogisticR

2017-09-05 15:51:11 2263

转载 ORALC/HIVE 的STDDEV、STDDEV_POP、STDDEV_SAMP等函数

今天一个同事碰到一个问题：用SQL求一个指标的计算公式：其中Xi即指标，X—指标均值，N是指标个数，看到这样的计算公式确实比较发愁。在处理问题前，先去恶补了下数理统计方面的知识（数理统计的知识基本上都还给老师了）：方差、标准差、平均值.....随机变量是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值，是概率中的一个基本概念。样

2016-09-20 15:26:37 2521

原创 hive文件存储格式

hive文件存储格式用HIVE很久了，现在将HIVE存储格式大致大致总结一下：HIVE上默认存储格式也是最简单的存储格式，即：文本文件格式：textfile，1.textfiletextfile为默认格式存储方式：行存储优点：1. 可以任意的分隔符进行分割， 2. 便于查看和编辑，可以直接在HDFS上查看明文文件缺点：1. 磁盘开销大数

2016-04-13 16:01:42 658

转载 hive大数据倾斜总结

hive大数据倾斜总结在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的re

2016-03-23 15:27:11 278

转载 Hadoop如何计算map数和reduce数

Hadoop如何计算map数和reduce数Hadoop在运行一个mapreduce job之前，需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数，当一个job提交时，jobclient首先分析job被拆分的split数量，然后吧job.split文件放置在HDFS中，一个job的MapTask数量就等于split的个数。

2016-03-10 15:24:02 458

原创 shell中txt转EXCEL

工作中，常常需要将HIVE数据库或者HDFS中文件通过EXCEL格式，通过邮箱发给业务人员。但是，SHELL又不能直接将txt文件转换为EXCEL可读的格式，因此编写了以下两类python脚本：

2016-01-17 10:43:55 11311

转载 Spark 随机森林算法原理、源码分析及案例实战

1.Spark 随机森林算法原理是什么？2.随机森林算法源码做了哪些分析？3.随机森林算法本文例举了什么案例？本文首先对决策树算法的原理进行分析并指出其存在的问题，进而介绍随机森林算法。同单机环境下的随机森林构造不同的是，分布式环境下的决策树构建如果不进行优化的话，会带来大量的网络 IO 操作，算法效率将非常低，为此本文给出了随机森林在分布式环境下的具体优化策略，然

2016-01-13 10:43:00 6497 1

转载 Python科学计算的瑞士军刀——Anaconda 安装与配置

IntroducePython是一种强大的编程语言，其提供了很多用于科学计算的模块，常见的包括numpy、scipy和matplotlib。要利用Python进行科学计算，就需要一一安装所需的模块，而这些模块可能又依赖于其它的软件包或库，因而安装和使用起来相对麻烦。幸好有人专门在做这一类事情，将科学计算所需要的模块都编译好，然后打包以发行版的形式供用户使用，Anaconda就是其中一个常用的科

2015-12-29 09:10:10 542

原创 Excel文件创建HIVE表

Excel文件创建HIVE表步骤一：将excel另存为txt文档（文本文件（制表符分割））假设名字为a.txt步骤二，将该txt文件导入shell内指定目录中步骤三，转换编码格式，在指定目录下执行如下命令：piconv -f gb2312 -t UTF-8 a.txt > c.txt步骤四，根据文档中的列，创建表，建表语句如下：use dw_htlbizdb ;

2015-12-23 17:47:45 4697 1

转载 linux查找目录下的所有文件中是否含有某个字符串

http://www.2cto.com/os/201411/352199.html

2015-12-16 15:43:24 340

转载 Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备：2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03,2015-

2015-12-14 15:19:10 872

转载 Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE

继续学习这四个分析函数。注意：这几个函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章）Hive版本为 apache-hive-0.13.1数据准备：cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3cookie

2015-12-14 15:18:02 454

转载 Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK

这两个序列分析函数不是很常用，这里也介绍一下。注意：序列函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章）Hive版本为 apache-hive-0.13.1数据准备：d1,user1,1000d1,user2,2000d1,user3,3000d2,user4,4000d2,user5,5000 CREATE EXTERNAL TABLE lxw12

2015-12-14 15:17:26 522

转载 Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

本文中介绍前几个序列函数，NTILE,ROW_NUMBER,RANK,DENSE_RANK，下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意：序列函数不支持WINDOW子句。（什么是WINDOW子句，点此查看前面的文章）数据准备：cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-1

2015-12-14 15:16:43 652

转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive中提供了越来越多的分析函数，用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍，将陆续发布。今天先看几个基础的，SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createtime strin

2015-12-14 15:15:09 9493

转载 Spark学习笔记

Spark学习笔记Spark简介spark 可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。spark发展迅猛，框架比hadoop更加灵活实用。减少了延时处理，提高性能效率实用灵活性。也可以与hadoop切实相互结合。spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、Gra

2015-11-09 21:10:35 801

转载查看linux下的字体

查看所有字体：fc-list查看中文字体fc-list :lang=zh用fc-list找出语言为zh的字体文件，可见系统里中文字体少的可怜。知道了这些字体，还需要进一步了解这些字体对应的文件，可以运行fc-match程序得到，fc-match -v "AR PL UKai CN"Pattern has 32 elts (size 48) fa

2015-10-28 10:01:29 15682

转载 Shell脚本处理“integer expression expected”

Shell脚本里，在用 test 的参数作比较的时候，如“ [ $temp -gt "100" ]”，可能会出现如题的“integer expression expected”错误。这是因为test 的这几个参数： -gt ，-lt，-eq 比较的都是数字，因此变量temp如果是一个字符串的话就会出现上述错误了。将原句改为“ [ $temp -gt 100 ]” 结果也是一样的。解决这个问

2015-10-28 09:47:23 2788

转载 gnuplot线类型以及字体的设置

在NS2的gnuplot绘图程序中对线型(linetype)、点型(pointtype)、线条宽度(linewidth)、点大小(pointsize)、图样(style)都有相应的设定值，具体设置如下：(1)线型(linetype )。在此类型中主要设置线条的颜色，具体对应如下：n0123

2015-10-28 09:46:16 7665

转载 Linux Shell之sort命令

sort是在Linux里非常常用的一个命令，管排序的，集中精力，五分钟搞定sort，现在开始！

2015-10-21 10:16:41 269

转载 shell 间接变量引用的问题

当要引用一个变量的值时，一般推荐使用双引号。使用双引号除了变量名[2]前缀($)、后引符(`)和转义符(\)外，会使shell不再解释引号中其它所有的特殊字符。[3] 用双引号时$仍被当成特殊字符，允许引用一个被双引号引起的变量("$variable"), 那也是说$variable会被它的值所代替。用双引号还能使句子不被分割开. [4] 一个参数用双引号引起来能使它被看做一个单元，这样即

2015-10-16 15:23:39 334

FZ的博客