自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Learn_ZhangK的博客

积淀,薄发;分享,进步。

  • 博客(25)
  • 资源 (12)
  • 收藏
  • 关注

原创 大数据中常用脚本--awk进行统计分析 SQL

1.简介 1.1国际惯例 按照国际惯例先来理论的介绍。awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 G...

2018-05-21 15:22:57 958

原创 大数据中常用脚本--grep

1.简介1.1国际惯例按照国际惯例先来理论的介绍。grep则是分析一行信息, 若当中有我们所需要的信息,就将该行拿出来。类似的上一篇中,cut是将一行信息当中,取出某部分我们想要的。它能使用正则表达式搜索文本,并把匹配的行打印出来。2.常用选项2.1 grep的格式grep [-acinv] [--color=auto] '搜寻字符串' filename常用的选项与参数:-a :将 binary...

2018-05-11 18:25:09 426

原创 大数据中常用脚本--cut

1.简介1.1 国际惯例按照国际惯例先来理论的介绍。cut是在Linux里非常常用的一个命令,cut命令是一个选取命令,其功能是将文件中的每一行”字节” ”字符” ”字段” 进行剪切,选取我们需要的,并将这些选取好的数据输出至标准输出。执行过程:选取命令通常是针对一行一行的数据来进行分析的, 并不是整篇信息分析。2.常用选项使用时的一般格式:cut -[n]b file cut -c file ...

2018-05-11 17:56:56 794

原创 大数据中常用脚本--sort(二)

1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。3.(接上)实际应用数据准备:$ cat facebook.txtgoogle 110 5000baidu ...

2018-05-10 10:53:48 324

原创 大数据中常用脚本--sort(一)

1.简介1.1国际惯例按照国际惯例先来理论的介绍。sort是在Linux里非常常用的一个命令,管排序的。工作原理:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。在其中我们会遇到需要数值排序的,别急,慢慢来,都是干货。2.常用选项2.1 sort的-u选项它的作用很简单,就是在输出行中去除重复行。[rocrocket@roc...

2018-05-09 21:06:13 626

原创 大数据中常用脚本--解压

1.解压tar –xvf file.tar //解压 tar包tar -xzvf file.tar.gz //解压tar.gztar -xjvf file.tar.bz2   //解压 tar.bz2tar –xZvf file.tar.Z   //解压tar.Zunrar e file.rar //解压rarunzip file.zip //解压zip2.压缩tar –cvf jpg...

2018-05-08 19:44:41 567

原创 大数据中常用脚本--awk

[root@www ~]# last -n 5 <==仅取出前五行root pts/1 192.168.1.100 Tue Feb 10 11:21 still logged inroot pts/1 192.168.1.100 Tue Feb 10 00:46 - 02:28 (01:41)root pts/1 192.168.1.100 Mon Feb 9 11:41 - 18:30 (06:48)dmtsai pts/1 192

2018-05-08 16:34:15 654

原创 Hadoop集群作业调度算法

1.简介 分布式文件系统在调度作业的时候可以通过参数来设置job作业调度。开门见山,常见的有三种,先进先出FifoScheduler,默认的调度算法,先进先出的方式处理应用,只有一个队列可提交应用,没有应用优先级可以配置;公平调度器FairScheduler,多队列的,多用户共享资源.程序在运行的时候可以在客户端设置优先级,也可以设置抢占;容量调度器CapacitySchedule

2018-01-23 15:36:00 501

翻译 摘录机器学习的基本知识以及学习路线

每当提到机器学习,大家总是被其中的各种各样的算法和方法搞晕,觉得无从下手。确实,机器学习的各种套路确实不少,但是如果掌握了正确的路径和方法,其实还是有迹可循的,这里我推荐SAS的Li Hui的这篇博客,讲述了如何选择机器学习的各种方法。另外,Scikit-learn 也提供了一幅清晰的路线图给大家选择:其实机器学习的基本算法都很简单,下面我们就利用二

2017-11-24 09:35:20 338

翻译 机器学习面试系列七

151.在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?  答案:(B)  这是鞍点(Saddle Point)的梯度下降的经典例子。另,本题来源于:https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/。152.下图显示了训练过的3层卷积

2017-11-20 14:16:10 2255

翻译 机器学习面试系列六

101.深度学习(CNN RNN Attention)解决大规模文本分类问题  https://zhuanlan.zhihu.com/p/25928551102.如何解决RNN梯度爆炸和弥散的问题的?  本题解析来源:http://blog.csdn.net/han_xiaoyang/article/details/51932536  为了解决梯

2017-11-20 14:12:32 702

翻译 机器学习面试系列五

81.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:(C)   A.各类别的先验概率P(C)是相等的  B.以0为均值,sqr(2)/2为标准差的正态分布  C.特征变量X的各个维度是类别条件独立随机变量  D.P(X|C)是高斯分布  @BlackEyes_SGC:朴素贝叶斯的条件就是每个变量相互独立。82.

2017-11-20 14:09:32 1175

翻译 机器学习面试系列四

61.说说梯度下降法  @LeftNotEasy,本题解析来源:http://www.cnblogs.com/LeftNotEasy/archive/2010/12/05/mathmatic_in_machine_learning_1_regression_and_gradient_descent.html  下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一

2017-11-20 14:07:20 1730

翻译 机器学习面试系列三

41.线性分类器与非线性分类器的区别以及优劣  如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。  常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归  常见的非线性分类器:决策树、RF、GBDT、多层感知机  SVM两种都有(看线性核还是高斯核)  线性分类器速度快、编程方便,但是可能拟合效果不会很好  非线性分类器编程复杂,但是效果拟

2017-11-20 13:52:40 714

翻译 机器学习面试系列二

21.请大致对比下plsa和LDA的区别  pLSA中,主题分布和词分布确定后,以一定的概率(、)分别选取具体的主题和词项,生成好文档。而后根据生成好的文档反推其主题分布、词分布时,最终用EM算法(极大似然估计思想)求解出了两个未知但固定的参数的值:(由转换而来)和(由转换而来)。  文档d产生主题z的概率,主题z产生单词w的概率都是两个固定的值。  举个文档d产生主题z的

2017-11-20 13:51:05 1043

翻译 机器学习面试系列一

1.请简要介绍下SVM  SVM,全称是support vector machine,中文名叫支持向量机。SVM是一个面向数据的分类算法,它的目标是为确定一个分类超平面,从而将不同的数据分隔开。  扩展:这里有篇文章详尽介绍了SVM的原理、推导,http://blog.csdn.net/v_july_v/article/details/7624837。  此外,这里有个视频

2017-11-20 13:48:48 568

原创 java中json与jsonp这对暗号的使用

按照国际惯例还是说下本期主角jsonp的基本概念。

2017-04-21 18:47:33 1275

原创 记录常见的输入输出流的写法

按照国际惯例 ,先来简单介绍下IO的概念和应用场景。1.什么是IO    Java中I/O操作主要是指使用Java进行输入,输出操作. Java所有的I/O机制都是基于数据流进行输入输出,这些数据流表示了字符或者字节数据的流动序列。Java的I/O流提供了读写数据的标准方法。任何Java中表示数据源的对象都会提供以数据流的方式读写它的数据的方法。      Java.io是大多数面向数

2017-04-20 11:18:13 1337

原创 针对Spring的工作原理的记录

1.Spring简介简单介绍,spring是J2EE应用程序框架,是轻量级的IoC和AOP的容器框架,主要是针对javaBean的生命周期进行管理的轻量级容器,可以单独使用,也可以和Struts框架,ibatis框架等组合使用。2.Spring两大特点2.1 IoC(Inversion of Control)控制反转对象创建责任的反转,在spring中BeanFac

2017-04-07 10:43:02 470

原创 针对项目中用到多个拦截器的一些想法和思考

本文基于Springmvc的拦截器进行分析和总结。只是在项目中用到了拦截器的多个使用场景,有点归纳姑且记录下。按照国际惯例,文字记录下什么是Springmvc的拦截器以及拦截器的具体方法(虽然文字难咀,但是回头看文字的提炼,就更加印象深刻了)。1介绍不罗嗦三点:1.1什么是拦截器java里的拦截器是动态拦截action调用的对象。它提供了一种机制可以使开发者可以定义在一个act

2017-03-17 14:35:32 2184

原创 针对泛型的一些想法和思考

泛型是在java1.5后新加入的东西,这块内容使得java的封装性能更加强大,使用的时候也更加方便。但是这块内容又是比较难以理解的,基于此做此文记录自己的学习心得。泛型,具体的来说就是将java中操作的数据类型"参数化",使得我们在使用的时候可以把数据类型当成是一个参数,像普通的方式似的进行操作。这些应用很广泛,这种参数类型可以使用在类、接口以及方法定义中。明确一下几点:1.为什么使用

2017-03-13 16:32:16 365

原创 Spring中Oracle中各种不同的连接方式

在oracle中要注意数据库是用SID还是服务名。因为两者的在Spring里是不同的。如下:

2017-02-23 18:18:58 1466

原创 json在实际项目中的应用

用途1:表示名称 / 值对最简单的形式,可以用下面这样的 JSON表示 "名称/ 值对":{ "firstName": "Brett" }。但是,当将多个"名称/ 值对"串在一起时,JSON就会体现出它的价值了。首先,可以创建包含多个"名称/ 值对"的 记录,比如:{ "firstName": "Brett", "lastName":"McLaughlin"

2017-02-23 18:14:20 935

原创 建立java日期格式和日期数据操作的备忘

近来的项目中经常用到了日期为时间戳的操作,大的方向上说,在大型的java项目(电商,在线办公,云平台等)中也确实需要一个能区分的id号;在小的方向上,这也是java的基础部分。简单一句话,常用故而留下痕迹来加深印象。

2016-08-22 10:28:02 423

转载 web端基于java的文件上传下载

在Web应用系统开发中,文件上传和下载功能是非常常用的功能,今天来讲一下JavaWeb中的文件上传和下载功能的实现。  对于文件上传,浏览器在上传的过程中是将文件以流的形式提交到服务器端的,如果直接使用Servlet获取上传文件的输入流然后再解析里面的请求参数是比较麻烦,所以一般选择采用apache的开源工具common-fileupload这个文件上传组件。这个common-fileup

2016-05-30 14:23:27 287

apache-hive-2.2.0-src.tar

自己学习udf等源码的时候找的资源,比较新,很实用,感兴趣的可以看看收获很大!

2019-07-30

watermark kafka案例

kafka的多分区watermark机制,这个是在工作中使用的kafka的watermark机制,调试代码,感兴趣可以一观。

2019-03-08

Mac 版本的反编译Java工具

Mac 版本的反编译Java工具,自己用得好的工具。是个值得分享的东东。

2018-10-18

大数据项目爬虫项目demo

此demo是开发组长提供给爬虫组的参考demo,功能齐全,适合研究或者拓展

2018-06-14

某航内部oa使用的新闻爬虫源码

实际工作中真实使用,某航开发的内部人员使用的平台的数据爬虫功能脱胎于此demo,仅供参考

2018-06-14

win下的查找替换神器

个人感觉最好用的一款文件查找替换工具,体积小功能却很强大,胜于其它多数软件,软件完全免费、无广告!只要拥有它,再也不用一个个操作,软件使用也很方便,不必担心出错。

2018-05-10

spark-2.0.2-bin-hadoop2.6

最常用的包,Hadoop和spark学习,实践必备。Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

2018-05-10

JAVA自带的方法生成唯一ID

java中有自带的方法可以自动帮助我们实现id的获取,可以作为稳定的工具类。可自定义。

2018-01-23

poi方式导出excel(分多个sheet导出)

1).每个sheet中有数据50000条记录,如果sheet中的记录数>50000,则新建sheet且导入数据,并且每个sheet都从第一行开始 2).将数据库中的数据导入excel(2003版.xls)中3).前后台代码都有哦

2016-12-21

基于SSM省市联动源码(ajax_json_jquery)

基于SSM省市联动源码(ajax_json_jquery),sql文件在下载包中包含,内有注意事项。

2016-12-14

基于java和jsp的省市联动的源码(ProCityAreas+mysql)

基于java和jsp的省市联动的源码(ProCityAreas+mysql),mysql的数据文件在文件包含,并包含有注意事项。

2016-12-14

基于php和Ajax省市县三级联动代码(jquery+php+mysql)

基于php和Ajax省市县三级联动代码(jquery+php+mysql),mysql的数据文件在文件中包含。

2016-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除