樱花庄青山七海-CSDN博客

原创技术书籍list

1、《长尾理论》来源：《推荐系统实践》p20提及。

2021-03-01 16:13:14 116

原创 hive

1、hive报错Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: No type found for column type entry 70https://blog.csdn.net/lsr40/article/details/91434371

2019-07-16 23:34:01 175

原创一些资源/链接

如何在mac上安装虚拟机搭载Windows：https://blog.csdn.net/chenhao_c_h/article/details/80276610

2019-05-21 19:37:57 171

原创 hive导出到csv

hive -e "set hive.cli.print.header=true; sql语句" |grep -v "WARN" > 文件路径/文件.csv

2019-05-10 18:48:28 3100

原创一些好的网站收录

后端常见的几种鉴权方式：https://blog.csdn.net/wang839305939/article/details/78713124/

2019-04-29 17:35:59 149

原创 Spark对数据倾斜的八种处理方式

https://blog.csdn.net/weixin_38750084/article/details/82721319

2019-04-16 11:34:48 161

原创 Spark Steaming管理kafka的offset

https://blog.csdn.net/u010454030/article/details/78535003https://blog.csdn.net/u010454030/article/details/78554643https://blog.csdn.net/u010454030/article/details/78660643

2019-04-16 11:20:06 166

原创 Hive总结

建表语句1、分隔符：row format delimited fields terminated by ‘\t’2、格式：stored as textfile3、存储路径：location ‘/user/stu2’4、根据查询结果创建表：create table stu3 as select * from stu25、根据已经存在的表结构创建表：create table stu4 lik...

2019-04-15 13:36:28 97

原创 ELK总结

Logstash组件：– Shipper－发送日志数据– Broker－收集数据，缺省内置 Redis– Indexer－数据写入概念对比Relational DB -> Databases -> Tables -> Rows -> ColumnsElasticsearch -> Indices -> Types -> Documents...

2019-04-14 22:56:56 194

原创 Redis总结

1、redis的是一个内存数据库, 由C语言编写, 数据以key-value的形式来存储2、redis提供了丰富的数据类型, 其有string、list、hash、set、sortedSet五种类型需要注意: redis中的数据类型指的都是value的数据类型, 其key只有string类型3、redis的中的所有的操作都是原子性的, 从来保证数据的完整性五种数据类型的特点和应用场景1...

2019-04-13 00:50:16 129

原创 Kafka总结

1、Kafka特点：高吞吐，低延时2、大多数消息队列（消息中间件）都是基于JMS（java message service）标准实现的，Apache Kafka 类似于JMS的实现3、有什么用？（消息队列有什么用？）答：作为缓冲，来异构、解耦系统。用户注册需要完成多个步骤，每个步骤执行都需要很长时间。代表用户等待时间是所有步骤的累计时间。为了减少用户等待的时间，使用并行执行执行，有多少个...

2019-04-13 00:26:05 109

原创 linux一些操作

1_输出linux文件的第几列awk -F "-" '{print $1}' xxx参数解释：-F “ ” 分隔符$0 代表输出所有列$(NF) 表示最后一列

2019-04-10 17:34:13 79

原创 find/locate查找指令

参考：http://blog.chinaunix.net/uid-24648486-id-2998767findfind . -name "*.log" -ls //在当前目录查找以.log 结尾的文件，并显示详细信息。find /root/ -perm 777 //查找/root/目录下权限为 777 的文件find . -type f -name "*.log" //查找...

2019-04-09 19:25:07 302

原创脚本-杀掉某个进程

ps -ef|grep QuorumPeerMain|grep -v grep |awk ‘{print $2}’ |xargs kill -9

2019-04-09 18:52:18 540

原创第一范式（1NF）、第二范式（2NF）、第三范式（3NF）

参考：https://www.zhihu.com/question/24696366（解释的非常详细）范式（NF），可以把它粗略地理解为一张数据表的表结构所符合的某种设计标准的级别。第一范式：是对关系模式的基本要求。不满足第一范式的关系，不能称为关系型数据库。符合第一范式的关系，每个属性都不可以再分割。但是如果仅仅满足第一范式：仍然存在数据冗余过大、插入异常、删除异常、修改异常等的问题。...

2019-04-09 13:28:37 1199

原创 Spark Streaming总结

1、什么是Spark Streaming类似于Storm，用于流式数据的处理，有高吞吐量和容错能力强的特点。2、Spark Streaming的数据流向

2019-04-07 19:28:28 235

原创 hadoop总结

1、架构模型1、1.xHDFS:NameNode:主节点，管理集群中的各种数据；DataNode:从节点，主要用于存储集群中的各种数据；SecondaryNameNode:元数据信息的辅助管理。MapReduce:JobTracker:主节点，接受用户的计算请求任务，并分配任务给从节点；TaskTracker:负责执行任务。2、2.xYarn:ResourceManager:...

2019-03-31 17:58:22 123

原创 Spark SQL总结

1、DataFrame和RDD的区别左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解 Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么，DataFrame多了数据的结构信息，即schema。这样看起来就像一张表了。...

2019-03-23 00:09:56 514

原创 reduceByKey一个巧妙的用法

用spark做一个反爬虫项目的时候，需要记录很多记录中的最后一条，例如(1,2),(1,3),(1,8),(2,11),(2,7),(3,2),(3,9)要获得(1,8),(2,7),(3,9)，熟悉spark的同学都知道可以通过groupByKey然后取.length-1个可以解决，但是有个更简单的办法，就是用reduceByKey((x,y)=>y)，其中y就是最后值。引申：reduc...

2019-03-21 21:17:09 2092

运行程序时，idea报错如下：ERROR StatusLogger No Log4j 2 configuration file found. Using default configuration (logging only errors to the console), or user programmatically provided configurations. Set system p...

2019-03-21 21:07:23 220

原创 kafka整合lua消费不到数据解决方案

用lua脚本将前端页面获取到的数据塞给kafka，kafka不报错，nginx不报错，lua脚本也没有问题，topic生成了但就是消费不到数据，自己写一个生产者测试过证明消费者也没问题，折腾了很久，最后在kafka配置文件中加了host.name=本机ip，解决。问题应该是在识别kafka集群的时候出现了问题，谁熟悉原理帮忙解释下。...

2019-03-21 21:03:59 918 1

原创 hive总结

1、数据库存储位置1、默认存储路径：hdfs的/user/hive/warehouse在hive-site.xml中由hive.metastore.warehouse.dir决定。2、创建数据库时可以指定存储路径create database myhive2 location '/myhive2';...

2019-03-20 23:36:20 83

原创 hive调优

1、fetch抓取（hive可以避免进行mapreduce） hive.fetch.task.conversionHive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。该属性修改为more以后，在全局查找、字段查找、limit查找...

2019-03-20 22:29:25 131

原创 Lua语法介绍

Lua介绍1、Lua 是一种轻量小巧的脚本语言，用标准 C语言编写并以源代码形式开放，其设计目的是为了嵌入应用程序中，从而为应用程序提供灵活的扩展和定制功能。2、Lua 中有 8 个基本类型分别为：nil、boolean、number、string、userdata、function、thread 和 table。Lua语法1_注释-- 单行注释 --[[ 多行注释 --]...

2019-03-19 11:52:44 303

原创 mysql日期函数总结

一、字符串截取&amp;amp;amp;amp;amp;amp;拼接二、选取日期时间的各个部分三、个性化选择日期（日期在一周、一月、一年中是第几天等等）一、字符串截取&amp;amp;amp;amp;amp;amp;拼接很多mysql需求包含对日期进行一些操作，而给定的日期实际上是字符串类型，这就需要我们对String进行一些操作，获取其中的日期信息。1、字符串截取：substring_index(“aaa_bbb_ccc”,&am

2019-03-14 20:59:19 172

原创 Impala总结整理

一、impala介绍二、impala-shell语法一、impala介绍impala是什么1、impala是cloudera提供的一款高效率的sql查询工具，提供实时的查询效果，官方测试性能比hive快10到100倍，其sql查询比sparkSQL还要更加快速，号称是当前大数据领域最快的查询sql工具。2、基于hive并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。...

2019-03-14 19:47:56 423

原创 Hbase总结整理

1_hbase介绍1_hbase介绍什么是hbase？1、hbase是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统；2、是一个典型的key/value系统；3、仅能通过主键（row key）和主键的range来检索数据，不支持join等复杂操作，计算和存储能力主要依靠横向扩展。hbase集群结构...

2019-03-12 19:16:52 743

原创 Kafka监控工具KafkaOffsetMonitor

介绍：KafkaOffsetMonitor是Kafka的一款监控工具，可以通过web页面实时监控kafka的consumer消费情况，很方便。下载地址：https://github.com/quantifind/KafkaOffsetMonitor/releases安装使用：将下载的jar包上传到linux的kafka所在目录下，可以新建个文件夹KafkaOffsetMonitor，然...

2019-03-12 12:43:16 216

原创 flink异常合集

1_配置文件冲突用flink写了一个很简单的wordCount，打包扔到集群上运行，报如下错误：The program finished with the following exception:org.apache.flink.client.program.ProgramInvocationException: Job failed. (JobID: 01007136fdd759585e...

2019-03-11 23:14:09 2218 1

原创 flink总结

flink简介什么是flinkflink是一个分布式计算引擎，支持流计算和批计算（本质是实时流计算，以流做批）。为什么用flink目前我们我们熟知的大数据计算引擎有mapreduce、spark、storm等等，那为什么还要有flink呢？1）基于内存计算，比hadoop快；2）基于流计算，比spark延迟低；3）比storm吞吐量大。flink虽然年轻，但越来越受到阿里等大公司的...

2019-03-11 09:39:38 309

原创 Phoenix使用介绍

Phoenix简介Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表，插入数据，查询HBase数据，它相当于一个Java中间件，提供jdbc连接。Phoenix的特点就是，它只能查Hbase，别的类型都不支持，也正因如此，它在操作Hbase上的性能超过了Hive和Impala。为什么用Phoenix？1）可以用SQL语句操作Hb...

2019-03-10 10:11:56 436

原创 Hive整合Hbase

Hive整合Hbase的必要性？1、Hbase介绍Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。1）线性扩展，随着数据量增多可以通过节点扩展进行支撑；2）数据存储在hdfs上，备份机制健全；3）通过zookeeper协调查找数据，访问速度快。2、Hive介绍Hive是基于Hadoop的一个数据仓库工具。1）底层数据存储在hdfs上；2）提供HQL查询功能，本质...

2019-03-10 09:34:59 191

原创 Spark总结整理

一、简介为什么学spark?Spark是一种快速、通用、可扩展的大数据分析引擎，是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。spark为什么比mr快？1_基于内存2_线程替代进程spark的启动和web页面？/export/servers/spark/sbin/start-all.sh //若配置HA，b...

2019-03-08 21:01:13 217

原创 linux常用指令总结

1_服务启动service xxx start后台不挂断启动：

2019-03-08 20:38:41 92

原创 spark异常整理

1_spark-sql异常spark和hive整合后，启动spark-sql失败，报错如下（下翻有提取关键错误信息）：19/03/08 13:08:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applica...

2019-03-08 13:55:49 554

原创 kudu&impala总结

kudu简介kudu安装使用过程中遇到的问题总结kudu和impala整合，在IDE中实现对kudu表的操作1_kudu简介什么是kudu？官网：https://kudu.apache.org/官网定义：Kudu is a columnar storage manager developed for the Apache Hadoop platform. Kudu shares ...

2019-03-02 21:28:38 2615

原创 idea操作合集

maven项目无法new scala classmaven项目无法new scala classmodule右键Add Framework Support添加scala即可。

2019-03-01 11:50:33 266

原创 Typora操作整理

1_恢复未保存文件方法file->Preferences->Editor->Recover Unsaved Drafts

2019-02-28 12:00:20 516

原创 hdfs代码合集

依赖如下:<repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> &...

2019-02-24 22:36:44 258

spark-streaming-flume-sink_2.11-2.1.3.jar

hivesql limit的坑，不知道为什么会这样？

mapreduce动态分区如何分别控制每个分区的生成文件数量？

hdfs dfs -ls / 查询到的是本地文件目录，这是为什么？