自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (10)
  • 收藏
  • 关注

原创 spring boot @value @ConfigurationProperties 注释静态配置文件变量引用

spring boot @value @ConfigurationProperties 注释静态配置文件变量引用1.@value错误用法:@Value(value = "${user.userName}") private static String userName;正确用法:标签加在set方法上面,注意set方法是非静态 private static String userName; @Value(value = "${user.userName}") publi

2020-05-15 14:28:26 1001 1

原创 hive 优化(一)超大数据集动态分区优化

需求: 一张300+字段,1亿数据量的表,去重并重新按照天分区 , (1)方案:直接全表去重并按照字段 动态分区 结果 : 失败,由于数据量和字段过多,全表去重(row_number over())和 动态分区 都消耗过多资源,根本无法运行成功 (2)方案: 1.全表去重到中间表 2.中间表动...

2019-02-27 18:11:25 2516 1

原创 关于java多线程简单介绍.1

用到的包和类名以及常用的方法java.long包和thread类 回收验证是覆盖object里面的finalize()和system.gc()的结合运用run() start() Thread.currentThread().getname()//获得进程的名字 Thread.sleep(毫秒)延迟的函数=======================================

2016-09-03 17:07:01 207

主流分词工具的词库.zip

常见分词算法用到的词典库(jieba、IK、mmseg、word),但是词典库没有词性,

2019-10-31

impala开发

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

2017-11-02

cassandra 权威指南

Cassandra权威指南pdf带目录书签.完整版; Cassandra权威指南.带目录书签.完整版 Cassandra权威指南.带目录书签.完整版 Cassandra权威指南.带目录书签.完整版

2017-10-18

Apache kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。

2017-10-14

oracle PLSQL 从入门到精通

内容简介 · · · · · · 《Oracle PL/SQL从入门到精通》以面向应用为原则,深入浅出地介绍了Oracle平台上使用PL/SQL语言进行数据库开发的技术。通过大量的示例,详细介绍了PL/SQL的语言特性、使用技巧,同时配以两个在实际工作中的案例深入地剖析了使用PL/SQL进行Oracle开发的方方面面。 《Oracle PL/SQL从入门到精通》附带1张DVD光盘,内容为作者为《Oracle PL/SQL从入门到精通》录制的全程语音教学视频及《Oracle PL/SQL从入门到精通(附光盘)》所涉及的源代码。 《Oracle PL/SQL从入门到精通》分为5大篇共20章。涵盖的内容主要有PL/SQL语言基础、开发环境、变量与类型、控制语句、数据表的管理和查询、数据表的操纵、使用PL/SQL的记录与集合、各种内置函数、游标、事务处理、异常处理、子程序、包、面向对象的开发等技术点。通过示例性的代码,由浅入深,详细介绍了每一个技术要点在实际工作中的应用,对各种技术要点的应用场合进行了细致的分析。 作者简介 · · · · · · 丁士锋,毕业于国防科技大学计算机学院。有多年的大型软件系统开发经验,有近8年的.NET软件项目研发经验,擅长C#语言,对.NET框架及其底层机制有深入的理解。曾经任职于三星电子、诺基亚等公司,从事软件项目开发。对企业软件的设计与架构有深入的研究和大量经验,主导过多个大型的企业分布式项目的开发。

2017-10-10

Apache Sqoop Cookbook.pdf

目前国内还没有关于sqoop的书,这是一本外国的文档,看了一下还是很不错的,希望对大家有所帮助

2017-09-30

Linux与Unix shell编程指南(完整高清版)pdf

linux下文件的几种类型:目录,符号链接、套接字文件....。要注意,说到的文件类型是一个不一样的概念。linux下文件的类型不是后缀名上进行区别。 "-"表示该文件是一个普通类型的文件。什么是普通类型文件?你得记住linux下几种类型的文件。不属于那里面列出的,就属于普通类型文件了。

2017-09-27

talend用户手册

talend 推出的一体化集成平台可以实现数据集成,ETL,数据质量,主数据管理(MDM),应用集成等各种项目。Talend的解决方案性能稳定,使用便利,扩展简易,强大灵活,因而已成为世界上应用与部署最为广泛的集成解决方案。图形化的界面,拖拉式的方式 无需代码可使用Hadoop、Spark、 Spark Stream和NoSQL数据库

2017-09-14

redis学习pdf

redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。

2017-09-14

hive编程指南

hive编程指南完整版pdf下载,适合hive新手下载阅读, 第1章基础知识 1.1Hadoop和MapReduce综述 1.2Hadoop生态系统中的Hive 1.2.1Pig 1.2.2HBase 1.2.3Cascading、Crunch及其他 1.3Java和Hive:词频统计算法 1.4后续事情 第2章基础操作 2.1安装预先配置好的虚拟机 2.2安装详细步骤 2.2.1装Java 2.2.2安装Hadoop 2.2.3本地模式、伪分布式模式和分布式模式 2.2.4测试Hadoop 2.2.5安装Hive 2.3Hive内部是什么 2.4启动Hive 2.5配置Hadoop环境 2.5.1本地模式配置 2.5.2分布式模式和伪分布式模式配置 2.5.3使用JDBC连接元数据 2.6Hive命令 2.7命令行界面 2.7.1CLI选项 2.7.2变量和属性 2.7.3Hive中“一次使用”命令 2.7.4从文件中执行Hive查询 2.7.5hiverc文件 2.7.6使用HiveCLI的更多介绍 2.7.7查看操作命令历史 2.7.8执行shell命令 2.7.9在Hive内使用Hadoop的dfs命令 2.7.10Hive脚本中如何进行注释 2.7.11显示字段名称 第3章数据类型和文件格式 3.1基本数据类型 3.2集合数据类型 3.3文本文件数据编码 3.4读时模式 第4章HiveQL:数据定义 4.1Hive中的数据库 4.2修改数据库 4.3创建表 4.3.1管理表 4.3.2外部表 4.4分区表、管理表 4.4.1外部分区表 4.4.2自定义表的存储格式 4.5删除表 4.6修改表 4.6.1表重命名 4.6.2增加、修改和删除表分区 4.6.3修改列信息 4.6.4增加列 4.6.5删除或者替换列 4.6.6修改表属性 4.6.7修改存储属性 4.6.8众多的修改表语句 第5章HiveQL:数据操作 5.1向管理表中装载数据 5.2通过查询语句向表中插入数据 5.3单个查询语句中创建表并加载数据 5.4导出数据 第6章HiveQL:查询 6.1SELECT…FROM语句 6.1.1使用正则表达式来指定列 6.1.2使用列值进行计算 6.1.3算术运算符 6.1.4使用函数 6.1.5LIMIT语句 6.1.6列别名 6.1.7嵌套SELECT语句 6.1.8CASE…WHEN…THEN句式 6.1.9什么情况下Hive可以避免进行MapReduce 6.2WHERE语句 6.2.1谓词操作符 6.2.2关于浮点数比较 6.2.3LIKE和RLIKE 6.3GROUPBY语句 6.4JOIN语句 6.4.1INNERJOIN 6.4.2JOIN优化 6.4.3LEFTOUTERJOIN 6.4.4OUTERJOIN 6.4.5RIGHTOUTERJOIN 6.4.6FULLOUTERJOIN 6.4.7LEFTSEMI—JOIN 6.4.8笛卡尔积JOIN 6.4.9map—sideJOIN 6.5ORDERBY和SORTBY 6.6含有SORTBY的DISTRIBUTEBY 6.7CLUSTERBY 6.8类型转换 6.9抽样查询 6.9.1数据块抽样 6.9.2分桶表的输入裁剪 6.10UNIONALL 第7章HiveQL:视图 7.1使用视图来降低查询复杂度 7.2使用视图来限制基于条件过滤的数据 7.3动态分区中的视图和map类型 7.4视图零零碎碎相关的事情 第8章HiveQL:索引 8.1创建索引 8.2重建索引 8.3显示索引 8.4删除索引 8.5实现一个定制化的索引处理器 第9章模式设计 9.1按天划分的表 9.2关于分区 9.3唯一键和标准化 9.4同一份数据多种处理 9.5对于每个表的分区 9.6分桶表数据存储 9.7为表增加列 9.8使用列存储表 9.8.1重复数据 9.8.2多列 9.9(几乎)总是使用压缩 第10章调优 10.1使用EXPLAIN 10.2EXPLAINEXTENDED 10.3限制调整 10.4JOIN优化 10.5本地模式 10.6并行执行 10.7严格模式 10.8调整mapper和reducer个数 10.9JVM重用 10.10索引 10.11动态分区调整 10.12推测执行 10.13单个MapReduce中多个GROUPBY 10.14虚拟列 第11章其他文件格式和压缩方法 11.1确定安装编解码器 11.2选择一种压缩编/解码器 11.3开启中间压缩 11.4最终输出结果压缩 11.5sequencefile存储格式 11.6使用压缩实践 11.7存档分区 11.8压缩:包扎 …… 第12章开发 第13章函数 第14章Streaming 第15章自定义Hive文件和记录格式 第16章Hive的Thrift服务 第17章存储处理程序和NoSQL 第18章安全 第19章锁 第20章Hive和Oozie整合 第21章Hive和亚马逊网络服务系统(AWS) 第22章HCatalog 第23章案例研究 术语词汇表

2017-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除