自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 验证YARN内存溢出,运行任务的情况

加入参数:在capacity-scheduler.xml或fair-scheduler.xml文件中配置yarn.resourcemanager.reservation-system.enable=false运行2个任务,把YARN的内存占满,spark-shell只运行driver还要资源运行./spark-shell --master yarn --executor-memor...

2020-03-24 12:04:35 624

原创 安装Rnager1.2.0的问题总结

一、在安装完ranger-admin之后,需要setup.sh,自动化安装admin相关的配置,运行setup.sh报错。问题截图:解决思路:上图报错,显示数据库出现问题了,admin安装在mysql的ranger(这个数据库需要提前安装,不然也会报错)。可能是ranger这个数据的权限配置不够。解决方法:show variables like ‘%func%’;在my...

2020-03-24 11:54:15 212

原创 Impala介绍

简介Impala可以对Hadoop中大多数格式的文件进行查询。它能通过create table和insert的方式将一部分格式的数据加载到table中,但值得注意的是,有一些格式的数据它是无法写入的(write to)。对于Impala无法写入的数据格式,我们只能通过Hive建表,通过Hive进行数据的写入,然后使用Impala来对这些保存好的数据执行查询操作。​​​​​​​架构角色介绍...

2020-01-06 17:13:01 214

原创 python爬取高德地图的某个省的天气

背景:想要实时收集天气的数据,网上的天气API很多,但发现好像高德地图的API会比较容易使用。认识高德地图API:高德地图天气开放文档网址:https://lbs.amap.com/api/webservice/guide/api/weatherinfo/#t1api地址:https://restapi.amap.com/v3/weather/weatherInfo?ci...

2019-12-10 19:26:44 549

原创 Azkaban工作流使用

Azkaban工作流使用创建start1.job type=command command=echo 'start1 started' 创建start2.job type=command command=echo 'start2 started' 创建start3.job type=command dependenci...

2019-11-19 10:34:50 152

原创 azkaban与zeppelin的shell脚本调度任务

Shell脚本编写Shell脚本实现Azkaban利用用户名、密码、noteID等来调用Zeppelin的代码。 #!/bin/bash #设置参数默认值 zeppelin_server_addr=192.168.128.200 port=8089 # 登录到zeppelin服务器,并且保存本次会话的cookie信息 curl -X ...

2019-11-19 10:33:47 1183 1

原创 Zeppelin部署与入门(0.8)

Zeppelin简介Apache Zeppelin是一个基于web的笔记本,支持交互式数据分析。你可以用SQL、Scala等做出数据驱动的、交互、协作的文档。(类似于ipython notebook,可以直接在浏览器中写代码、笔记并共享),可实现的主要有以下功能:数据采集、数据发现、数据分析和数据可视化和协作。Zeppelin安装安装前准备在Vmware上安装linux环境 在lin...

2019-11-19 10:26:31 450

原创 Azkaban部署与入门(3.X)

Azkaban简介Azkaban 一个批量工作流任务调度器,使用Java语言开发。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流,当然Azkaban也可以使用API,来调用相应的操作和任务。Azkaban 的优点:提供功能清晰,简单易用的Web UI界面 提供job配...

2019-11-19 10:23:48 757

原创 逆向分析爬取动态网页

在确认网页是动态网页后,需要获取从网页响应中由JavaScript动态加载生成的信息,在谷歌浏览器中爬取今日头条首页的信息,步骤如下。1. “F12”键打开今日头条首页的网页调试工具.2. 点击“Network”选项卡后,发现有很多响应,XHR是Ajax中的概念,表示XML-HTTP-request,一般javascript加载的文件隐藏在JS或者XHR。通过查找发现,今日头条首页各个...

2018-12-17 15:51:19 2710

原创 在运行spark-submit时遇到Could not load org.apache.hadoop.hive.conf .HiveConf

在配置Hive的节点/etc/profile里面加export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/usr/local/apache-hive-1.2.2-bin/lib/*

2018-12-04 10:27:56 372 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除