自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 【hadoop】mapreduce面试题总结

MapTask工作机制ReduceTask工作流程 mapreduce工作流程MapJoinReduceJoin

2022-11-26 13:34:03 1450 1

原创 【hadoop】纠删码技术详解

纠删码技术详解

2022-11-21 16:03:03 1581

原创 【hadoop】Hadoop 面试题总结

Hadoop面试题总结

2022-11-21 15:33:55 1045

原创 【python】epub的电子书繁体字与简体字转换

中文繁体与简体转换

2022-11-21 15:06:24 1846 2

原创 数据仓库面试题总结

根据尚硅谷电商数仓4教程进行总结目录1 Hadoop常用压缩方式2 HDFS存在大量小文件的问题与处理3 flume零点漂移问题4 数据冗余的优缺点5 同步策略6 关系建模与维度建模7 维度建模的四个过程8 数据分层9 LZO索引文件失效10 hive严格模式11 hive中解析json串12 全外连的第二种解决方式13 原始数据扩展n倍14 解决insert into产生小文件问题15 sqoop导出update模式16 即席查询17 OLTP和OLAP概念1 Hadoop常用压缩方式常见的压缩.

2022-04-14 21:02:09 2948

原创 flume启动由于guava-jar包冲突报错

启动flume遇到如下报错(SinkRunner-PollingRunner-DefaultSinkProcessor) [ERROR - org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)] process failedjava.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/Stri

2022-03-31 20:35:21 3269

原创 【python&爬虫】easyocr识别gif图片文字

使用easyorc直接识别gif格式的图片会报错,如下所示:图片地址:https://code.nongji360.com/images/u/0o2o.gifimport easyocrreader = easyocr.Reader(['ch_sim','en'])res = reader.readtext("https://code.nongji360.com/images/u/0o2o.gif")print(res)运行如上代码会抛出异常:AttributeError: ‘None.

2022-03-10 20:25:26 1617

原创 正则表达式总结

今天花了一个小时学习了正则表达式,现在做一个总结。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本一.标准字符集合能够与多种字符匹配的表达式,要区分大小写,一般大写代表取反字符集合描述\d表示任意一个数字 0-9 【\D 代表除了0-9的其他字符】\w表示任意一个字母数字下划线 【\W 代表除了字母数字下划线的字符】\s表示空格,制表符,换行符 【\S 代表除了制表符,换行符的其他字符】.代表任意字符(除了换行符)注意:. 不能匹配.

2020-10-21 09:49:14 233

原创 【hadoop】MapReduce寻找博主共同好友

花了2个星期刷完了尚硅谷hadoop课程,虽然是第二次学习hadoop,但是收获也非常大,今天分享一下我对mapreduce最后一个题目-寻找博主共同好友的解题思路一.需求以下是博主的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友,数据中的好友关系是单向的,共有14个博主A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:.

2020-10-18 13:07:16 384

原创 【Flink】Flink实时计算最热门Top N商品(Scala)

前进的路很艰难,但只要坚持下去,终会收获丰硕的果实!文章目录一.项目需求二.数据准备三.代码演示1.定义样例类2.主体代码3.函数类四.运行效果五.项目小结一.项目需求每隔5分钟输出最近一小时内点击量最多的前N个商品具体步骤• 抽取出业务时间戳,告诉Flink框架基于事件时间(Event Time)做窗口• 过滤出点击行为数据• 按一小时的窗口大小,每5分钟统计一次,做滑动窗口聚合(Sliding Window)• 按每个窗口聚合,输出每个窗口中点击量前N名的商品二.数据准备字

2020-09-25 00:17:28 1110

原创 【Linux】快速入门shell编程

每天都得进步,哪怕是一点!文章目录一.shell基本介绍1.基本介绍2.shell脚本的执行要求3.脚本的常用执行方式二.shell变量1.基本介绍2.shell变量的定义和撤销3.定义变量的规则4.将命令的结果赋值给变量5.设置环境变量7.位置参数变量8.预定义变量9.shell中的运算符三.流程控制-条件控制1.条件判断基本语法2.常用的条件判断 `重点`2.1.字符串比较2.2.两个整数的比较2.3.按照文件权限进行判断2.4.按照文件类型进行判断2.5.基本案例3.if判断语句3.1.基本语法3.

2020-07-11 13:14:46 2066 2

原创 CentOS7搭建MySQL,一步一步带你完成安装

说明:安装包:mysql-5.7.28-linux-glibc2.12-x86_64.tar.gz一条一条复制并执行以下代码即可完成安装1.为保证MySQL的独立性 安装前需要创建mysql用户组和用户groupadd mysqluseradd -r -g mysql mysql (-r 建立系统账号 -g 指定用户所属的群组)2.解压安装mkdir -p /usr/local/ #创建mysql的安装路径tar -zxvf mysql-5.7.28-linux-glibc2.12-x8

2020-06-14 16:04:55 262 2

原创 【spark学习】SparkStreaming将采集结果存储MySQL数据库

一.需求说明SparkStreaming采集网页日志文件,计算网页的热度,根据网页热度排序取前10行,最后将网页ID和热度存入MySQL数据库二.日志文件准备说明:以原始数据 test.log为基础,用日志生成程序不断的生成日志文件,以供SparkStraming采集和处理网站热度计算规则:0.1*用户等级+0.9*访问次数+0.4*停留时间+是否点赞原始数据文件 test.log。字段分隔符为 "," 10行网页ID 用户等级 访问次数 停留时间 是否点赞(1为赞,-1表示踩,0表示中立)0

2020-06-10 20:23:20 673

原创 【python&爬虫】快速入门Scrapy框架

一.基本介绍Scrapy是用纯Python实现的一个开源爬虫框架,是为了高效地爬取网站数据,提取结构性数据而编写的应用框架,用途非常广泛,可用于爬虫开发,数据挖掘,数据监测,自动化测试等领域。二.Scrapy框架的架构Scrapy框架包含以下组件1.Scrapy Engine(引擎):负责Spider,Item Pipeline,DownLoader,Scheduler之间的通信,包括信号和数据的传递2.Scheduler(调取器):负责接收引擎发送过来的Requests请求,并按照一定的方式进

2020-06-09 11:49:30 510

转载 自学编程的 6 个致命误区

自学编程的 6 个致命误区01、追求时髦所谓基础不牢,地动山摇啊。可很多小伙伴压根就没注意过这个问题,市面上出什么新鲜的技术就想去尝试,结果把自己学的乱七八糟,心灰意冷。别的语言我不懂,就拿 Java 来说吧。时下最火热的技术,有微服务 Spring Boot、有分布式 Spring Cloud,虚拟容器 Docker,流处理框架 Flink 等等等等,但如果你连 JDK、JRE 和 JVM 都搞不清楚的话,那这些技术学起来可想而知有多痛苦。我从一开始写作那会就计划着用半年的时间把 Java 基础方

2020-06-02 18:30:05 294

原创 【python&爬虫】selenium爬取淘宝商品图片

一.说明淘宝商品的爬取,主要用到selenium和css选择器,本案例难度较低可以用作selenium的入门。注意:扫码登录是手动操作二.代码演示from selenium import webdriverfrom selenium.webdriver.common import keysimport timeimport requestsimport os# 创建浏览器browser = webdriver.Chrome(r'D:\ChromeCoreDownloads\chrome

2020-06-02 18:28:08 2511 2

原创 【python&爬虫】requests登录豆瓣网并爬取“浏览发现”中的文章简介和图片

一.前言为了总结前面所学知识,今天随便爬了一下豆瓣网。使用了requests+xpath,豆瓣网的爬取相对比较简单,可将此网站作为爬虫的入门。二.爬取需求爬取每篇文章的用户名,标题,文章简介,图片,点赞量和转发量。注意:标题和图片有的文章没有三.说明1.登录豆瓣2.文章的刷新,重复请求这个url即可实现文章的刷新,以下代码只刷新了3次四.代码演示# encoding=gbkimport requestsimport json, osfrom lxml import etree

2020-06-01 11:46:10 638

原创 【python&爬虫】快速入门Web自动化测试工具selenium

一.selenium基本介绍1.selenium是一个web的自动化测试工具,最初是为网站自动化测试而开发的,它可以按指定的命令自动操作。selenium可以直接运行在浏览器上,它支持所有主流的浏览器。2.selenium可以根据用户指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作的发生。二.selenium原理图及解析说明:1.自动化程序调用Selenium 客户端库函数(比如点击按钮元素)2.客户端库会发送Selenium 命令 给浏览器的驱动程序3.浏览器

2020-05-29 13:50:48 645

原创 【hadoop】MapReduce数据清洗及导入数据到hive仓库

搜狗用户查询日志分析综合案例一.MapReduce数据清洗1.数据清洗要求(1)解决乱码问题(2)过滤少于6个字段的行(3)统一字段之间的分隔符(统一用逗号)(3)在每行前添加年,月,日字段。清洗前的数据清洗后的数据2.准备原始数据说明:1.该数据来自搜狗实验室 数据下载地址2.年月日三个字段在文件名中3.该数据已经上传到HDFS3.代码详解这个案例只需要Mapper类和Driver类即可Mapper类package xiexianyouSogouLogClean;

2020-05-28 16:23:28 5261 3

原创 【python&爬虫】快速入门JSON和JSONPath

一.基本介绍JSON(JavaScript Object notation)是一种轻量级的数据交换格式,更加易于阅读和编写,同时也方便了机器进行解析和生成。JSON适用于数据交互场景,如网站前台和后台之间的数据交互。JSONPath是一种信息抽取类库,用于从JSON文档中抽取指定信息1.语法规则JSON是比XML更简单的一种数据交换格式,它采用完全独立于编程语言的文本格式来存储和表示数据,其语法规则如下:(1)使用键值对(key:value)表示对象属性和值(2)使用逗号 , 分隔多条数据(3)

2020-05-27 22:36:13 906

原创 【python&爬虫】快速入门BeautifulSoup解析器

文章目录一.基本介绍1.节点对象分类2.使用bs4的流程二.构建BeautifulSoup类1.BeautifulSoup类构造方法解析2.创建BeautifulSoup对象4.常用的两个方法5.find_all()方法解析6.快速体验BeautifulSoup小案例三.CSS选择器1.通过标签名查找2.通过类名查找3.通过ID名查找4.通过组合的形式查找5.通过属性进行查找6.CSS选择器小案例四.总结一.基本介绍目前流行使用的是beautifulSoup4(BeautifulSoup4简称bs4)

2020-05-27 00:38:05 948

原创 【python&爬虫】快速入门urllib库和requests库

文章目录一.urllib库基本介绍二.urllib.request 请求模块1.urlopen方法参数解析1.1.发送get请求1.2.发送post请求(设置data参数)1.3.设置timeout参数1.4.HTTPResponse对象2.构造Request对象三.urllib.parse URL解析模块四.代理服务器1.使用自定义opener对象发送请求2.设置代理服务器五.requests库1.requests库常用类:2.requests库的请求函数3.返回响应Response的常用属性一.url

2020-05-25 21:27:26 1783 1

原创 【python&爬虫】快速入门python正则表达式

一.基本介绍二.re模块中的常用方法三.参数flags规则选项总结四.正则表达式模式语法中的特殊元素

2020-05-24 19:51:40 954

原创 【Spark学习】使用Spark SQL操作外部hive数据库

一.基本介绍默认情况下,spark自带hive,可以直接在spark-shell使用spark.sql("…")来操作内置的hive数据库二.使用外部hive①删除spark中内置的hive。即删除metastore_db和spark-warehouse文件夹②将外部hive中的hive-site.xml文件复制到spark/conf中③将mysql-connector-java-5.1.39.jar拷贝到jars目录下④重启spark-shell⑤这时spark.sql("…")访问的就是外

2020-05-23 10:34:08 3226

原创 【Scala学习】Scala思维导图 (超详细!)

学会了坚持,就离成功就进了一点!内容太多,截图只有一部分,详细查看下方链接Scala思维导图地址(需要登录processOn账号)https://www.processon.com/view/link/5ec3fafb0791290fe07292cf学习笔记下载链接:https://pan.baidu.com/s/1ETK2jNdVBddzQLp7ZwJyuQ提取码:j1dk基本结构详细...

2020-05-19 23:32:05 969 1

原创 【Spark学习】Partitioner分区器初体验

Partitioner源码abstract class Partitioner extends Serializable { def numPartitions: Int def getPartition(key: Any): Int}源码解释:一个对象,定义如何按键对键值对RDD中的元素进行分区。将每个键映射到一个分区ID,从0到“numPartitions-1”。注意,partitioner必须是确定性的,即它必须返回给定的相同分区id相同的分区键。简单来说:getParti

2020-05-14 12:23:11 545

原创 【Spark学习】Spark思维导图(超详细!)

花了将近一个月时间学习了Spark,为了总结所学知识,我用ProcessOn绘制了几张Spark思维导图这里是Spark思维导图地址Spark思维导图地址注意:需要有ProcessOn账号才能查看1.Spark 入门2.Spark Core3.Spark SQL4.Spark Streaming...

2020-05-12 00:12:48 12031 12

原创 【Spark学习】将wordcount程序打包上传到spark集群运行

1.编写wordcount程序package RDDTestimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object test03 { def main(args: Array[String]): Unit = { //构建SparkConf对象 val conf:SparkConf = new SparkConf().setAppName("wc").setM

2020-05-11 13:39:43 887

原创 【Spark学习】RDD基础练习

需求计算每个学生这两门课程的总成绩,并且排序输出前5名学号 课程 分数1001 大数据基础 90 1002 大数据基础 941003 大数据基础 1001004 大数据基础 991005 大数据基础 901006 大数据基础 941007 大数据基础 1001008 大数据基础 931009 大数据基础 891010 大数据基础 781011 大数据基础 9110...

2020-04-26 13:24:07 5468

原创 【Spark学习】报错Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties20/04/26 00:45:36 INFO SparkContext: Running Spark version 2.4.420/04/26 00:45:36 ERROR Shell: Failed to locate the win...

2020-04-26 00:55:57 732 1

原创 【Spark学习】初步了解RDD中的装饰者模式

spark RDD是什么?RDD(resilient Distributed Dataset)弹性分布式数据集,是spark中基本的计算(数据)抽象。它代表一个不可变,可分区,里面的元素可以并行(多个线程一起执行)计算的集合装饰者模式是什么?装饰者模式是设计模式其中的一种,是指在不改变原有对象的基础之上,将功能附加到对象上。提供了比继承更有弹性的替代方案(扩展原有对象功能)。简单来说,就是给...

2020-04-26 00:37:46 346

原创 【Spark学习】用maven构建spark项目

小白必看,用maven构建spark项目首先,我们需要下载mavenmaven下载地址1.解压安装即可2.进入conf目录,修改配置文件settings.xml文件,配置阿里云镜像-<mirror> <id>nexus-aliyun</id><mirrorOf>central</mirrorOf> <nam...

2020-04-25 21:21:13 2852 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除