自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zl1582330223的专栏

Android学习之路

  • 博客(17)
  • 资源 (2)
  • 收藏
  • 关注

原创 安装Jupyter Lab

资源管理器中浏览到希望作为文件存储的目录,选择空白处,在按下。等待网站启动后,将自动打开浏览器,并且展现。等待网站启动后,将自动打开浏览器,并且展现。包时,将会从阿里云下载,速度会增快。包时,将会从阿里云下载,速度会增快。在终端中运行下列命令以安装必要的。依次运行下列命令以安装必要的。右键,然后选择【点击此处打开。运行安装程序,接受默认安装。多次,即可关闭网站服务。文件夹下创建一个名为。以管理员权限打开一个。文件夹下创建一个名为。在命令行中,连续按下。

2024-01-10 17:01:31 909

原创 6.Hive优化-SQL优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,如果union all的部分个数大于2,或者每个union部分数据量大,应该拆成多个insert into 语句,实际测试过程中,执行时间能提升50%尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。对历史库的计算经验 (这项是说根据不同的使用目的优化使用方法)可以使用中间表来完成复杂的逻辑。

2023-08-17 18:30:00 65 1

原创 5.Hive优化-数据倾斜

Hive在进行join时,按照join的key进行分发,而在join左边的表的数据会首先读入内存,如果左边表的key相对分散,读入内存的数据会比较小,join任务执行会比较快。数据倾斜主要表现在,map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。

2023-08-17 14:10:59 55 1

原创 2.Hive UDF

UDF:进来一个出去一个,row mapping。是row级别操作开发。创建UDF函数 udf123。4.2拷贝到Linux上。添加jar包到hive中。evaluate方法。

2023-08-17 14:09:29 50 1

原创 3.Hive UDTF

UDTF(User-Defined Table-Generating Functions)用来解决输入一行输出多行(one-to-many maping)的需求。(4)初始化完成后会调用process()方法,对传入的参数进行处理,可以通过forward()方法把结果返回。(3)UDTF首先会调用initialize()方法,此方法返回UDTF的返回行的信息(返回个数,类型)。(2)实现initialize(),process(),close()三个方法。4.2拷贝到Linux上。分割爱好字段,多行显示。

2023-08-17 14:08:40 27 1

原创 maven关联Spark

- 设置false后是去掉 MySpark-1.0-SNAPSHOT-jar-with-dependencies.jar 后的 “-jar-with-dependencies” -->-- 在maven项目中既有java又有scala代码时配置 maven-scala-plugin 插件打包时可以将两类代码一起打包 -->file->Porject Structure->Artifacts->绿色的加号->JAR->from modules...-- 指定hadoop-client API的版本 -->

2023-08-17 14:05:12 77 1

原创 更改Maven源

添加?<><>-- mirror<mirror></mirror>--><><>alimaven</><></><></><>central</></><><>uk</><>central</><></><></></><><>CN</><></><></><>central</></><><>nexus</><></><></><>central。

2023-08-17 14:03:45 682 1

原创 2.spark集群部署

(2)standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;(4)on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算。(3)on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。(1)local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程。

2023-08-17 14:02:50 34 1

原创 1.Saprk原理

此外,Spark还支持SQL查询,流式计算,图计算,机器学习等。Spark 引进了弹性分布式数据集 RDD (Resilient DistributedDataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即允许基于数据衍生过程)对它们进行重建。MapReduce 中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而 Spark 支持 DAG 图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。

2023-08-17 14:02:04 41 1

原创 第二章:hadoop安装

无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用。Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。注意:在首次启动时要对文件系统进行格式化。Hadoop守护进程运行在一个集群上。设置启动时防火墙的关闭状态。,配置的环境变量才生效。

2023-08-17 13:59:18 28 1

原创 第二章:hadoop安装

Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。Hadoop的安装,安装hadoop运行环境配置,了解运行模式:本地模式与安装、伪分布式模式与安装、完全分布式模式与安装。--配置yarn的resourcemanager地址-->--指定hadoop运行产生的文件的存储目录-->--配置mapreduce运行在yarn上-->--配置reduce的获取方式-->--指定副本的数量-->--配置历史服务器-->

2023-08-07 09:27:25 62

原创 第一章:hadoop介绍

介绍数据的来源,数据量大规模,因此,我们存储大规模的数据,出现分布式存储集群。在早期,数据是通过调查问卷的方式进行,但互联网的兴起,数据的调查不需要问卷方式,可以通过用户的操作行为来记录并进行统计,且并数据是大规模的存储在存储服务器集群中。à HDFS存储原理。电子商务企业获得精准的数据分析,可以更好地了解用户的需求,制定合理的营销策略,从而给用户推广更感兴趣的产品,提高营销成功率。在用户画像的基础上,银行可以根据用户的年龄、资产规模、理财偏好等,对用户群进行精准定位,分析出潜在的金融服务需求。

2023-08-04 13:49:11 50 1

原创 JavaScript基础知识学习笔记(适合懂得一定开发的人员学习,都是与java不同的一些小知识点)

一、JS简介(注意以后的代码中会省略<!DOCTYPE html>    这3个标签,如Demo1所示)Demo1:document.writeHTML代码:JavaScript能够直接写入HTML输入流中document.write(" This is a heading");document.write(" This

2015-07-23 11:21:32 482

转载 JDBC深度封装的工具类 (具有高度可重用性)

JDBC深度封装的工具类 (具有高度可重用性)(2012-10-06 23:58:50)转载▼标签:jdbc工具类高度重用性杂谈分类:JavaSE首先介绍一下Dbutils:    CommonDbutils是操作数据库的组件,对传统操作数据库的类进行二次封装,可以把结果集转化成List。  补充一下,传统操作数据

2014-08-24 23:36:33 485

转载 Eclipse常用快捷键总结

Eclipse快捷键,熟悉快捷键可以帮助开发事半功倍,节省更多的时间来用于做有意义的事情。Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行

2014-08-22 15:34:44 328

原创 java笔记心得2

一、java不同于c语言,它是一种面向对象的语言二、类的定义[修饰符1,修饰符2.。]class类名{//类体;}类名:遵循标识符的命名规则及习惯2、类中的内容:包括:属性和方法(1)属性定义:[修饰符1,修饰符2]数据类型 属性名[=赋值](2)方法定义:[修饰符1,修饰符2.。。]返回值类型  方法名称【参数列表】{。。。}3.构造器(也叫构造方

2014-08-22 14:20:34 513

原创 java笔记心得1

1.虚拟机jvm作用:跨平台使用:编译器:javac→将源代码编译.class文件解释器:java→将.class文件解释为机器语言2.垃圾回收器1.自动清理垃圾,程序员无法干预2.清理垃圾不是及时的,只有在垃圾回收器空闲时候才会清理3.执行垃圾回收器的方法:System.gc();

2014-08-21 12:36:45 350

XshellXftpPortable.zip

XshellXftpPortable.zip

2023-08-02

SwitchHosts.zip

SwitchHosts.zip

2023-08-02

securcrt.zip

securcrt.zip

2023-08-02

linux环境编译源码\hadoop-2.7.2-src.tar.gz

linux环境编译源码\protobuf-2.5.0.tar.gz linux环境编译源码\hadoop-2.7.2-src.tar.gz linux环境编译源码\apache-maven-3.0.5-bin.tar.gz linux环境编译源码\apache-ant-1.9.9-bin.tar.gz

2023-08-02

jdk-8u144-windows-x64.zip

jdk-8u144-windows-x64.zip

2023-08-02

hadoop各种环境编译后jar包.tar.gz

hadoop各种环境编译后jar包.tar.gz hadoop各种环境编译后jar包\win10下编译过的hadoop jar包 hadoop各种环境编译后jar包\原生未编译的hadoop jar包 hadoop各种环境编译后jar包\win7下编译过的hadoop jar包 hadoop各种环境编译后jar包\linux编译过的hadoop jar包

2023-08-02

Android开发权威指南.李宁.扫描版

《Android开发权威指南》内容上涵盖了用最新的Android版本开发的大部分场景。全书分4个部分,分别从Android基础介绍、环境搭建、SDK介绍,到应用剖析、组件介绍、综合实例演示,以及符合潮流的、最新的移动开发技术,如HTML5、OpenGL ES、NDK编程、Android测试驱动开发等几个方面讲述。从技术实现上,讲解了6大完整综合案例及源代码分析,分别是新浪微博客户端、蓝牙聊天、全键盘输入法、月球登陆(游戏)、贪吃蛇(游戏)、笑脸连连看(游戏)。

2014-08-27

Google.Android.SDK开发范例大全

《Google Android SDK开发范例大全(第3版)》在上一版的基础上,以Android手机应用程序开发(采用Android SDK 2.3.3)为主题,超过200多个范例全面且深度地整合了手机、网络及服务等多个开发领域,为读者提高程序设计能力提供了很大的帮助。

2014-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除