Learn_ZhangK-CSDN博客

原创大数据中常用脚本--awk进行统计分析 SQL

1.简介 1.1国际惯例按照国际惯例先来理论的介绍。awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 G...

2018-05-21 15:22:57 958

1.简介1.1国际惯例按照国际惯例先来理论的介绍。grep则是分析一行信息，若当中有我们所需要的信息，就将该行拿出来。类似的上一篇中，cut是将一行信息当中，取出某部分我们想要的。它能使用正则表达式搜索文本，并把匹配的行打印出来。2.常用选项2.1 grep的格式grep [-acinv] [--color=auto] '搜寻字符串' filename常用的选项与参数：-a ：将 binary...

2018-05-11 18:25:09 426

原创大数据中常用脚本--cut

1.简介1.1 国际惯例按照国际惯例先来理论的介绍。cut是在Linux里非常常用的一个命令，cut命令是一个选取命令，其功能是将文件中的每一行”字节” ”字符” ”字段” 进行剪切，选取我们需要的，并将这些选取好的数据输出至标准输出。执行过程：选取命令通常是针对一行一行的数据来进行分析的，并不是整篇信息分析。2.常用选项使用时的一般格式：cut -[n]b file cut -c file ...

2018-05-11 17:56:56 794

原创大数据中常用脚本--sort（二）

1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令，管排序的。工作原理：sort将文件的每一行作为一个单位，相互比较，比较原则是从首字符向后，依次按ASCII码值进行比较，最后将他们按升序输出。在其中我们会遇到需要数值排序的，别急，慢慢来，都是干货。3.（接上）实际应用数据准备：$ cat facebook.txtgoogle 110 5000baidu ...

2018-05-10 10:53:48 324

原创大数据中常用脚本--sort（一）

1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令，管排序的。工作原理：sort将文件的每一行作为一个单位，相互比较，比较原则是从首字符向后，依次按ASCII码值进行比较，最后将他们按升序输出。在其中我们会遇到需要数值排序的，别急，慢慢来，都是干货。2.常用选项2.1 sort的-u选项它的作用很简单，就是在输出行中去除重复行。[rocrocket@roc...

2018-05-09 21:06:13 626

原创大数据中常用脚本--解压

1.解压tar –xvf file.tar //解压 tar包tar -xzvf file.tar.gz //解压tar.gztar -xjvf file.tar.bz2 //解压 tar.bz2tar –xZvf file.tar.Z //解压tar.Zunrar e file.rar //解压rarunzip file.zip //解压zip2.压缩tar –cvf jpg...

2018-05-08 19:44:41 567

原创大数据中常用脚本--awk

[root@www ~]# last -n 5 <==仅取出前五行root pts/1 192.168.1.100 Tue Feb 10 11:21 still logged inroot pts/1 192.168.1.100 Tue Feb 10 00:46 - 02:28 (01:41)root pts/1 192.168.1.100 Mon Feb 9 11:41 - 18:30 (06:48)dmtsai pts/1 192

2018-05-08 16:34:15 654

原创 Hadoop集群作业调度算法

1.简介分布式文件系统在调度作业的时候可以通过参数来设置job作业调度。开门见山，常见的有三种，先进先出FifoScheduler,默认的调度算法,先进先出的方式处理应用,只有一个队列可提交应用,没有应用优先级可以配置；公平调度器FairScheduler,多队列的,多用户共享资源.程序在运行的时候可以在客户端设置优先级,也可以设置抢占；容量调度器CapacitySchedule

2018-01-23 15:36:00 501

翻译摘录机器学习的基本知识以及学习路线

每当提到机器学习，大家总是被其中的各种各样的算法和方法搞晕，觉得无从下手。确实，机器学习的各种套路确实不少，但是如果掌握了正确的路径和方法，其实还是有迹可循的，这里我推荐SAS的Li Hui的这篇博客，讲述了如何选择机器学习的各种方法。另外，Scikit-learn 也提供了一幅清晰的路线图给大家选择：其实机器学习的基本算法都很简单，下面我们就利用二

2017-11-24 09:35:20 338

翻译机器学习面试系列七

151.在下面哪种情况下，一阶梯度下降不一定正确工作（可能会卡住）？　　答案：（B）　　这是鞍点（Saddle Point）的梯度下降的经典例子。另，本题来源于：https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/。152.下图显示了训练过的3层卷积

2017-11-20 14:16:10 2255

翻译机器学习面试系列六

101.深度学习（CNN RNN Attention）解决大规模文本分类问题 https://zhuanlan.zhihu.com/p/25928551102.如何解决RNN梯度爆炸和弥散的问题的？本题解析来源：http://blog.csdn.net/han_xiaoyang/article/details/51932536 为了解决梯

2017-11-20 14:12:32 702

翻译机器学习面试系列五

81.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:(C) A.各类别的先验概率P(C)是相等的 B.以0为均值，sqr(2)/2为标准差的正态分布 C.特征变量X的各个维度是类别条件独立随机变量 D.P(X|C)是高斯分布 @BlackEyes_SGC：朴素贝叶斯的条件就是每个变量相互独立。82.

2017-11-20 14:09:32 1175

翻译机器学习面试系列四

61.说说梯度下降法 @LeftNotEasy，本题解析来源：http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_descent.html 下面是一个典型的机器学习的过程，首先给出一个输入数据，我们的算法会通过一

2017-11-20 14:07:20 1730

翻译机器学习面试系列三

41.线性分类器与非线性分类器的区别以及优劣如果模型是参数的线性函数，并且存在线性分类面，那么就是线性分类器，否则不是。常见的线性分类器有：LR,贝叶斯分类，单层感知机、线性回归常见的非线性分类器：决策树、RF、GBDT、多层感知机 SVM两种都有(看线性核还是高斯核) 线性分类器速度快、编程方便，但是可能拟合效果不会很好非线性分类器编程复杂，但是效果拟

2017-11-20 13:52:40 714

翻译机器学习面试系列二

21.请大致对比下plsa和LDA的区别 pLSA中，主题分布和词分布确定后，以一定的概率（、）分别选取具体的主题和词项，生成好文档。而后根据生成好的文档反推其主题分布、词分布时，最终用EM算法（极大似然估计思想）求解出了两个未知但固定的参数的值：（由转换而来）和（由转换而来）。文档d产生主题z的概率，主题z产生单词w的概率都是两个固定的值。举个文档d产生主题z的

2017-11-20 13:51:05 1043

翻译机器学习面试系列一

1.请简要介绍下SVM SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。扩展：这里有篇文章详尽介绍了SVM的原理、推导，http://blog.csdn.net/v_july_v/article/details/7624837。此外，这里有个视频

2017-11-20 13:48:48 568

原创 java中json与jsonp这对暗号的使用

按照国际惯例还是说下本期主角jsonp的基本概念。

2017-04-21 18:47:33 1275

原创记录常见的输入输出流的写法

按照国际惯例，先来简单介绍下IO的概念和应用场景。1.什么是IO Java中I/O操作主要是指使用Java进行输入，输出操作. Java所有的I/O机制都是基于数据流进行输入输出，这些数据流表示了字符或者字节数据的流动序列。Java的I/O流提供了读写数据的标准方法。任何Java中表示数据源的对象都会提供以数据流的方式读写它的数据的方法。 Java.io是大多数面向数

2017-04-20 11:18:13 1337

原创针对Spring的工作原理的记录

1.Spring简介简单介绍，spring是J2EE应用程序框架，是轻量级的IoC和AOP的容器框架，主要是针对javaBean的生命周期进行管理的轻量级容器，可以单独使用，也可以和Struts框架，ibatis框架等组合使用。2.Spring两大特点2.1 IoC(Inversion of Control)控制反转对象创建责任的反转，在spring中BeanFac

2017-04-07 10:43:02 470

原创针对项目中用到多个拦截器的一些想法和思考

本文基于Springmvc的拦截器进行分析和总结。只是在项目中用到了拦截器的多个使用场景，有点归纳姑且记录下。按照国际惯例，文字记录下什么是Springmvc的拦截器以及拦截器的具体方法（虽然文字难咀，但是回头看文字的提炼，就更加印象深刻了）。1介绍不罗嗦三点：1.1什么是拦截器java里的拦截器是动态拦截action调用的对象。它提供了一种机制可以使开发者可以定义在一个act

2017-03-17 14:35:32 2184

原创针对泛型的一些想法和思考

泛型是在java1.5后新加入的东西，这块内容使得java的封装性能更加强大，使用的时候也更加方便。但是这块内容又是比较难以理解的，基于此做此文记录自己的学习心得。泛型，具体的来说就是将java中操作的数据类型"参数化",使得我们在使用的时候可以把数据类型当成是一个参数，像普通的方式似的进行操作。这些应用很广泛，这种参数类型可以使用在类、接口以及方法定义中。明确一下几点：1.为什么使用

2017-03-13 16:32:16 365

原创 Spring中Oracle中各种不同的连接方式

在oracle中要注意数据库是用SID还是服务名。因为两者的在Spring里是不同的。如下：

2017-02-23 18:18:58 1466

原创 json在实际项目中的应用

用途1：表示名称 / 值对最简单的形式，可以用下面这样的 JSON表示 "名称/ 值对"：{ "firstName": "Brett" }。但是，当将多个"名称/ 值对"串在一起时，JSON就会体现出它的价值了。首先，可以创建包含多个"名称/ 值对"的记录，比如：{ "firstName": "Brett", "lastName":"McLaughlin"

2017-02-23 18:14:20 935

原创建立java日期格式和日期数据操作的备忘

近来的项目中经常用到了日期为时间戳的操作，大的方向上说，在大型的java项目（电商，在线办公，云平台等）中也确实需要一个能区分的id号；在小的方向上，这也是java的基础部分。简单一句话，常用故而留下痕迹来加深印象。

2016-08-22 10:28:02 423

转载 web端基于java的文件上传下载

在Web应用系统开发中，文件上传和下载功能是非常常用的功能，今天来讲一下JavaWeb中的文件上传和下载功能的实现。　　对于文件上传，浏览器在上传的过程中是将文件以流的形式提交到服务器端的，如果直接使用Servlet获取上传文件的输入流然后再解析里面的请求参数是比较麻烦，所以一般选择采用apache的开源工具common-fileupload这个文件上传组件。这个common-fileup

2016-05-30 14:23:27 287