自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 NLPIR-JAVA版本-MAC-LINUX-WINDOWS操作系统均适用

最近在写论文,需要用到各类分词器的效果对比,大家都知道NLPIR是比较有名的,下载链接:NLPIR-ICTCLAS汉语分词系统-首页但是其使用C开发的,使用JAVA的小伙伴会很难受,大家可以直接从使用这个版本:The Java Package of NLPIR-ICTCLAS.其中MAC版本依赖的是这个lib文件(其它系统以来也都在对应目录下):安装好之后,直接进入Test文件运行,跑之前需要修改路径为绝对路径(MAC系统):如果遇到了以下ddl、io文件找不到问...

2022-03-30 20:32:21 2512 1

原创 List 集合流操作基础

List 流操作总结List 取属性值作为新List元素List<Long> illegalMySqlIds = list.stream() //stream是内存操作 .map(IllegalWord::getId) //取Id作为新List元素 .collect(Collectors.toList()); //成型 //案例2 List<Integer> list1=new ArrayList<Integer>(); list1.add(

2020-09-15 16:17:19 1260

原创 剑指Offer--解题记录(更新中......)

1.题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。public class Solution { public boolean Find(int target, int [][] array) { int rows=a...

2020-03-12 21:58:28 163

原创 林子雨案例----淘宝伪数据分析

淘宝双11数据分析与预测准备工作:软件工具本案例所涉及的系统及软件: Linux系统(CENTOS 7) MySQL Tomcat(7.0.9) Hadoop(3.2.0) Hive(2.3.5) Sqoop(1.4.6) ECharts(4.5.0) Idea(2019.1.3) Spark(2....

2020-01-23 16:57:01 5246 36

原创 Hive优化

Hive优化HiveFetch抓取:在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive 默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不 走mapreduce。(如果设置为none,则所有查询都是用mapreduce)Hive本地模式:大多...

2019-12-01 20:45:20 132

原创 MapReduce原理过程详解

1 概述2 MapReduce体系结构3 MapReduce工作流程4 实例分析:WordCount5 MapReduce的具体应用1.概述在MapReduce出现之前,已经有像MPI这样非常成熟的并行计算框架了,那么为什么Google还需要MapReduce?MapReduce相较于传统的并行计算框架有什么优势? 传统并行计算框...

2019-10-05 15:25:38 5533

原创 Mysql——SELECT list is not in GROUP BY clause and contains nonaggregated column 'userinfo.

最近使用linux版本的Mysql的时候出现了错误:SELECT list is not in GROUP BY clause and contains nonaggregated column 'userinfo.最后发现是因为版本问题,在Mysql5.*之后的版本sql_mode缺省值为ONLY_FULL_GROUP_BY,这也是需要修改的地方。only_full_group_by :使...

2019-09-28 23:24:09 1064

原创 Hadoop—jar命令(笔记)

Hadoop—jar命令(笔记)第一种是类名需要写全路径,这种需要在jar包之后加类名参数,在家args参数。我在创建的maven项目都需要此命令格式.第二种

2019-08-17 17:30:00 1448

原创 Hadoop文件系统—通过CompressionCodecFActory 推断 CompressCodec

通过CompressionCodecFActory 推断 CompressCodec在读取一个压缩文件时,通常可以通过文件扩展名推断需要使用哪个codec。如果文件以.gz结尾,则可以用Gzipcodec来读取,如此推断等。各种压缩格式的文件拓展名:Hadoop中的codec当在读取一个压缩文件的时候,可能并不知道压缩文件用的是哪种压缩算法,那么无法完成解压任务。在Hadoop中,Compr...

2019-08-17 17:10:18 675

原创 Hadoop文件系统—对数据流的压缩和解压缩

Hadoop文件系统——对数据流的压缩和解压缩通过CompressionCodec对数据流进行压缩和解压缩,它包含两个函数,可以轻松用于对写入和输出数据进行压缩和解压缩。可用createOutputStream(OutputStream out)方法在底层的数据流中对需要以压缩格式写入(在此之前尚未压缩)的数据新建一个CompressionOutputStream对象。相反,对输入数据流中读...

2019-08-17 16:39:10 283

原创 Hadoop文件系统— 通过FileSystem API 读取数据

通过FileSystem API 读取数据Hadoop文件系统通过Hadoop Path对象(而非java.io.File对象表示,因为它的语义与本地文件系统联系太过紧密)来代表文件。import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apa...

2019-08-14 07:35:52 772

原创 Hadoop文件系统—文件系统的基本操作

文件系统的基本操作现在我们通过命令行交互才进一步认识hdfs文件系统,它还有很多其他接口,但是命令行是最简单的。在我们设置伪分布式配置时,有两个属性需要进一步解释,一个是fs.defaultFS,设置为 hdfs://localhost/,用于设置hadoop的默认文件系统。HDFS的守护进程通过该属性来确定HDFS namenode的主机以及端口。我们将在localhost默认...

2019-08-13 16:47:05 506

原创 一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java)

使用IDEA编写第一个MapReduce程序(Java)上两篇文章已经搭建好了hadoop为伪分布式集群,这节我们是编写第一个MapReduce程序(单词字母检查)1.安装Idea2.创建maven程序3.编写程序,导入hadoop jar包4.打包使用shell命令运行1.安装Idea下载安装即可:Idea官网2.创建maven程序安装好maven之后(配置环境变量),即可创建...

2019-08-11 22:38:52 1818

原创 带带小垃圾的博客

带带小垃圾博客目录Hadoop搭建伪分布式集群(上)hadoop搭建伪分布式集群 (下)编写第一个MapReduce程序Hadoop文件系统—文件系统的基本操作Hadoop文件系统— 通过FileSystem API 读取数据Hadoop文件系统—通过CompressionCodecFActory 推断 CompressCodecHadoop文件系统—对数据流的压缩和解...

2019-08-11 15:29:32 139

原创 hadoop搭建伪分布式集群(下)

hadoop搭建伪分布式集群 下(centos7+hadoop-3.1.0/2.7.7)第一部分请参考hadoop搭建伪分布式集群 上第二部分 Hadoop正式安装1.安装Hadoop2.修改hadoop的5个配置文件3.解决互信问题1.安装hadoop直接去官网hadoop下载建议下载最新的hadoop3.*版本,具体更新特性我也不太清楚,hadoop2.*也可以,1.*就不要考...

2019-08-11 15:26:23 196

原创 Hadoop搭建伪分布式集群(上)

hadoop搭建伪分布式集群 上(centos7+hadoop-3.1.0/2.7.7)第一部分 安装前部署1.查看虚拟机版本2.查看IP地址3.修改主机名为hadoop4.修改 /etc/hosts5.关闭防火墙6.关闭SELINUX7.安装yum源并安装基础包8.关闭不必要的服务9.安装Java环境第二部分 Hadoop正式安装1.安装Hadoop2.修改hadoop...

2019-08-11 14:45:39 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除