donne.go-CSDN博客

原创 NLPIR-JAVA版本-MAC-LINUX-WINDOWS操作系统均适用

最近在写论文，需要用到各类分词器的效果对比，大家都知道NLPIR是比较有名的，下载链接：NLPIR-ICTCLAS汉语分词系统-首页但是其使用C开发的，使用JAVA的小伙伴会很难受，大家可以直接从使用这个版本：The Java Package of NLPIR-ICTCLAS.其中MAC版本依赖的是这个lib文件（其它系统以来也都在对应目录下）：安装好之后，直接进入Test文件运行，跑之前需要修改路径为绝对路径（MAC系统）：如果遇到了以下ddl、io文件找不到问...

2022-03-30 20:32:21 2512 1

原创 List 集合流操作基础

List 流操作总结List 取属性值作为新List元素List<Long> illegalMySqlIds = list.stream() //stream是内存操作 .map(IllegalWord::getId) //取Id作为新List元素 .collect(Collectors.toList()); //成型 //案例2 List<Integer> list1=new ArrayList<Integer>(); list1.add(

2020-09-15 16:17:19 1260

原创剑指Offer--解题记录（更新中......）

1.题目描述在一个二维数组中（每个一维数组的长度相同），每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。public class Solution { public boolean Find(int target, int [][] array) { int rows=a...

2020-03-12 21:58:28 163

原创林子雨案例----淘宝伪数据分析

淘宝双11数据分析与预测准备工作：软件工具本案例所涉及的系统及软件： Linux系统（CENTOS 7） MySQL Tomcat（7.0.9） Hadoop（3.2.0） Hive（2.3.5） Sqoop（1.4.6） ECharts（4.5.0） Idea（2019.1.3） Spark（2....

2020-01-23 16:57:01 5246 36

原创 Hive优化

Hive优化HiveFetch抓取：在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走mapreduce。（如果设置为none，则所有查询都是用mapreduce）Hive本地模式：大多...

2019-12-01 20:45:20 132

原创 MapReduce原理过程详解

1 概述2 MapReduce体系结构3 MapReduce工作流程4 实例分析：WordCount5 MapReduce的具体应用1.概述在MapReduce出现之前，已经有像MPI这样非常成熟的并行计算框架了，那么为什么Google还需要MapReduce？MapReduce相较于传统的并行计算框架有什么优势？传统并行计算框...

2019-10-05 15:25:38 5533

原创 Mysql——SELECT list is not in GROUP BY clause and contains nonaggregated column 'userinfo.

最近使用linux版本的Mysql的时候出现了错误：SELECT list is not in GROUP BY clause and contains nonaggregated column 'userinfo.最后发现是因为版本问题，在Mysql5.*之后的版本sql_mode缺省值为ONLY_FULL_GROUP_BY，这也是需要修改的地方。only_full_group_by ：使...

2019-09-28 23:24:09 1064

原创 Hadoop—jar命令（笔记）

Hadoop—jar命令（笔记）第一种是类名需要写全路径，这种需要在jar包之后加类名参数，在家args参数。我在创建的maven项目都需要此命令格式.第二种

2019-08-17 17:30:00 1448

原创 Hadoop文件系统—通过CompressionCodecFActory 推断 CompressCodec

通过CompressionCodecFActory 推断 CompressCodec在读取一个压缩文件时，通常可以通过文件扩展名推断需要使用哪个codec。如果文件以.gz结尾，则可以用Gzipcodec来读取，如此推断等。各种压缩格式的文件拓展名：Hadoop中的codec当在读取一个压缩文件的时候，可能并不知道压缩文件用的是哪种压缩算法，那么无法完成解压任务。在Hadoop中，Compr...

2019-08-17 17:10:18 675

原创 Hadoop文件系统—对数据流的压缩和解压缩

Hadoop文件系统——对数据流的压缩和解压缩通过CompressionCodec对数据流进行压缩和解压缩，它包含两个函数，可以轻松用于对写入和输出数据进行压缩和解压缩。可用createOutputStream(OutputStream out)方法在底层的数据流中对需要以压缩格式写入（在此之前尚未压缩）的数据新建一个CompressionOutputStream对象。相反，对输入数据流中读...

2019-08-17 16:39:10 283

原创 Hadoop文件系统— 通过FileSystem API 读取数据

通过FileSystem API 读取数据Hadoop文件系统通过Hadoop Path对象（而非java.io.File对象表示，因为它的语义与本地文件系统联系太过紧密）来代表文件。import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apa...

2019-08-14 07:35:52 772

原创 Hadoop文件系统—文件系统的基本操作

文件系统的基本操作现在我们通过命令行交互才进一步认识hdfs文件系统，它还有很多其他接口，但是命令行是最简单的。在我们设置伪分布式配置时，有两个属性需要进一步解释，一个是fs.defaultFS,设置为 hdfs://localhost/，用于设置hadoop的默认文件系统。HDFS的守护进程通过该属性来确定HDFS namenode的主机以及端口。我们将在localhost默认...

2019-08-13 16:47:05 506

原创一起学Hadoop——使用IDEA编写第一个MapReduce程序(Java)

使用IDEA编写第一个MapReduce程序(Java）上两篇文章已经搭建好了hadoop为伪分布式集群，这节我们是编写第一个MapReduce程序（单词字母检查）1.安装Idea2.创建maven程序3.编写程序，导入hadoop jar包4.打包使用shell命令运行1.安装Idea下载安装即可：Idea官网2.创建maven程序安装好maven之后（配置环境变量），即可创建...

2019-08-11 22:38:52 1818

原创带带小垃圾的博客

带带小垃圾博客目录Hadoop搭建伪分布式集群（上）hadoop搭建伪分布式集群（下）编写第一个MapReduce程序Hadoop文件系统—文件系统的基本操作Hadoop文件系统— 通过FileSystem API 读取数据Hadoop文件系统—通过CompressionCodecFActory 推断 CompressCodecHadoop文件系统—对数据流的压缩和解...

2019-08-11 15:29:32 139

原创 hadoop搭建伪分布式集群（下）

hadoop搭建伪分布式集群下（centos7+hadoop-3.1.0/2.7.7）第一部分请参考hadoop搭建伪分布式集群上第二部分 Hadoop正式安装1.安装Hadoop2.修改hadoop的5个配置文件3.解决互信问题1.安装hadoop直接去官网hadoop下载建议下载最新的hadoop3.*版本，具体更新特性我也不太清楚，hadoop2.*也可以，1.*就不要考...

2019-08-11 15:26:23 196

原创 Hadoop搭建伪分布式集群（上）

hadoop搭建伪分布式集群上（centos7+hadoop-3.1.0/2.7.7）第一部分安装前部署1.查看虚拟机版本2.查看IP地址3.修改主机名为hadoop4.修改 /etc/hosts5.关闭防火墙6.关闭SELINUX7.安装yum源并安装基础包8.关闭不必要的服务9.安装Java环境第二部分 Hadoop正式安装1.安装Hadoop2.修改hadoop...

2019-08-11 14:45:39 187

qq_36125181的博客