迪奥不及你的美-CSDN博客

原创【hadoop】mapreduce面试题总结

MapTask工作机制ReduceTask工作流程 mapreduce工作流程MapJoinReduceJoin

2022-11-26 13:34:03 1450 1

根据尚硅谷电商数仓4教程进行总结目录1 Hadoop常用压缩方式2 HDFS存在大量小文件的问题与处理3 flume零点漂移问题4 数据冗余的优缺点5 同步策略6 关系建模与维度建模7 维度建模的四个过程8 数据分层9 LZO索引文件失效10 hive严格模式11 hive中解析json串12 全外连的第二种解决方式13 原始数据扩展n倍14 解决insert into产生小文件问题15 sqoop导出update模式16 即席查询17 OLTP和OLAP概念1 Hadoop常用压缩方式常见的压缩.

2022-04-14 21:02:09 2948

原创 flume启动由于guava-jar包冲突报错

启动flume遇到如下报错(SinkRunner-PollingRunner-DefaultSinkProcessor) [ERROR - org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)] process failedjava.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/Stri

2022-03-31 20:35:21 3269

原创【python&爬虫】easyocr识别gif图片文字

使用easyorc直接识别gif格式的图片会报错，如下所示：图片地址：https://code.nongji360.com/images/u/0o2o.gifimport easyocrreader = easyocr.Reader(['ch_sim','en'])res = reader.readtext("https://code.nongji360.com/images/u/0o2o.gif")print(res)运行如上代码会抛出异常：AttributeError: ‘None.

2022-03-10 20:25:26 1617

原创正则表达式总结

今天花了一个小时学习了正则表达式，现在做一个总结。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本一.标准字符集合能够与多种字符匹配的表达式，要区分大小写，一般大写代表取反字符集合描述\d表示任意一个数字 0-9 【\D 代表除了0-9的其他字符】\w表示任意一个字母数字下划线【\W 代表除了字母数字下划线的字符】\s表示空格，制表符，换行符【\S 代表除了制表符，换行符的其他字符】.代表任意字符（除了换行符）注意：. 不能匹配.

2020-10-21 09:49:14 233

原创【hadoop】MapReduce寻找博主共同好友

花了2个星期刷完了尚硅谷hadoop课程，虽然是第二次学习hadoop，但是收获也非常大，今天分享一下我对mapreduce最后一个题目-寻找博主共同好友的解题思路一.需求以下是博主的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友，数据中的好友关系是单向的，共有14个博主A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:.

2020-10-18 13:07:16 384

原创【Flink】Flink实时计算最热门Top N商品（Scala）

前进的路很艰难，但只要坚持下去，终会收获丰硕的果实！文章目录一.项目需求二.数据准备三.代码演示1.定义样例类2.主体代码3.函数类四.运行效果五.项目小结一.项目需求每隔5分钟输出最近一小时内点击量最多的前N个商品具体步骤• 抽取出业务时间戳，告诉Flink框架基于事件时间（Event Time）做窗口• 过滤出点击行为数据• 按一小时的窗口大小，每5分钟统计一次，做滑动窗口聚合（Sliding Window）• 按每个窗口聚合，输出每个窗口中点击量前N名的商品二.数据准备字

2020-09-25 00:17:28 1110

原创【Linux】快速入门shell编程

每天都得进步，哪怕是一点！文章目录一.shell基本介绍1.基本介绍2.shell脚本的执行要求3.脚本的常用执行方式二.shell变量1.基本介绍2.shell变量的定义和撤销3.定义变量的规则4.将命令的结果赋值给变量5.设置环境变量7.位置参数变量8.预定义变量9.shell中的运算符三.流程控制-条件控制1.条件判断基本语法2.常用的条件判断 `重点`2.1.字符串比较2.2.两个整数的比较2.3.按照文件权限进行判断2.4.按照文件类型进行判断2.5.基本案例3.if判断语句3.1.基本语法3.

2020-07-11 13:14:46 2066 2

原创 CentOS7搭建MySQL，一步一步带你完成安装

说明：安装包：mysql-5.7.28-linux-glibc2.12-x86_64.tar.gz一条一条复制并执行以下代码即可完成安装1.为保证MySQL的独立性安装前需要创建mysql用户组和用户groupadd mysqluseradd -r -g mysql mysql （-r 建立系统账号 -g 指定用户所属的群组）2.解压安装mkdir -p /usr/local/ #创建mysql的安装路径tar -zxvf mysql-5.7.28-linux-glibc2.12-x8

2020-06-14 16:04:55 262 2

原创【spark学习】SparkStreaming将采集结果存储MySQL数据库

一.需求说明SparkStreaming采集网页日志文件，计算网页的热度，根据网页热度排序取前10行，最后将网页ID和热度存入MySQL数据库二.日志文件准备说明：以原始数据 test.log为基础，用日志生成程序不断的生成日志文件，以供SparkStraming采集和处理网站热度计算规则：0.1*用户等级+0.9*访问次数+0.4*停留时间+是否点赞原始数据文件 test.log。字段分隔符为 "," 10行网页ID 用户等级访问次数停留时间是否点赞(1为赞，-1表示踩，0表示中立)0

2020-06-10 20:23:20 673

原创【python&爬虫】快速入门Scrapy框架

一.基本介绍Scrapy是用纯Python实现的一个开源爬虫框架，是为了高效地爬取网站数据，提取结构性数据而编写的应用框架，用途非常广泛，可用于爬虫开发，数据挖掘，数据监测，自动化测试等领域。二.Scrapy框架的架构Scrapy框架包含以下组件1.Scrapy Engine(引擎)：负责Spider,Item Pipeline,DownLoader,Scheduler之间的通信，包括信号和数据的传递2.Scheduler(调取器)：负责接收引擎发送过来的Requests请求，并按照一定的方式进

2020-06-09 11:49:30 510

转载自学编程的 6 个致命误区

自学编程的 6 个致命误区01、追求时髦所谓基础不牢，地动山摇啊。可很多小伙伴压根就没注意过这个问题，市面上出什么新鲜的技术就想去尝试，结果把自己学的乱七八糟，心灰意冷。别的语言我不懂，就拿 Java 来说吧。时下最火热的技术，有微服务 Spring Boot、有分布式 Spring Cloud，虚拟容器 Docker，流处理框架 Flink 等等等等，但如果你连 JDK、JRE 和 JVM 都搞不清楚的话，那这些技术学起来可想而知有多痛苦。我从一开始写作那会就计划着用半年的时间把 Java 基础方

2020-06-02 18:30:05 294

原创【python&爬虫】selenium爬取淘宝商品图片

一.说明淘宝商品的爬取，主要用到selenium和css选择器，本案例难度较低可以用作selenium的入门。注意：扫码登录是手动操作二.代码演示from selenium import webdriverfrom selenium.webdriver.common import keysimport timeimport requestsimport os# 创建浏览器browser = webdriver.Chrome(r'D:\ChromeCoreDownloads\chrome

2020-06-02 18:28:08 2511 2

原创【python&爬虫】requests登录豆瓣网并爬取“浏览发现”中的文章简介和图片

一.前言为了总结前面所学知识，今天随便爬了一下豆瓣网。使用了requests+xpath，豆瓣网的爬取相对比较简单，可将此网站作为爬虫的入门。二.爬取需求爬取每篇文章的用户名，标题，文章简介，图片，点赞量和转发量。注意：标题和图片有的文章没有三.说明1.登录豆瓣2.文章的刷新，重复请求这个url即可实现文章的刷新，以下代码只刷新了3次四.代码演示# encoding=gbkimport requestsimport json, osfrom lxml import etree

2020-06-01 11:46:10 638

原创【python&爬虫】快速入门Web自动化测试工具selenium

一.selenium基本介绍1.selenium是一个web的自动化测试工具，最初是为网站自动化测试而开发的，它可以按指定的命令自动操作。selenium可以直接运行在浏览器上，它支持所有主流的浏览器。2.selenium可以根据用户指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作的发生。二.selenium原理图及解析说明：1.自动化程序调用Selenium 客户端库函数（比如点击按钮元素）2.客户端库会发送Selenium 命令给浏览器的驱动程序3.浏览器

2020-05-29 13:50:48 645

原创【hadoop】MapReduce数据清洗及导入数据到hive仓库

搜狗用户查询日志分析综合案例一.MapReduce数据清洗1.数据清洗要求（1）解决乱码问题（2）过滤少于6个字段的行（3）统一字段之间的分隔符（统一用逗号）（3）在每行前添加年，月，日字段。清洗前的数据清洗后的数据2.准备原始数据说明：1.该数据来自搜狗实验室数据下载地址2.年月日三个字段在文件名中3.该数据已经上传到HDFS3.代码详解这个案例只需要Mapper类和Driver类即可Mapper类package xiexianyouSogouLogClean;

2020-05-28 16:23:28 5261 3

原创【python&爬虫】快速入门JSON和JSONPath

一.基本介绍JSON（JavaScript Object notation）是一种轻量级的数据交换格式，更加易于阅读和编写，同时也方便了机器进行解析和生成。JSON适用于数据交互场景，如网站前台和后台之间的数据交互。JSONPath是一种信息抽取类库，用于从JSON文档中抽取指定信息1.语法规则JSON是比XML更简单的一种数据交换格式，它采用完全独立于编程语言的文本格式来存储和表示数据，其语法规则如下：（1）使用键值对（key:value）表示对象属性和值（2）使用逗号 , 分隔多条数据（3）

2020-05-27 22:36:13 906

原创【python&爬虫】快速入门BeautifulSoup解析器

文章目录一.基本介绍1.节点对象分类2.使用bs4的流程二.构建BeautifulSoup类1.BeautifulSoup类构造方法解析2.创建BeautifulSoup对象4.常用的两个方法5.find_all()方法解析6.快速体验BeautifulSoup小案例三.CSS选择器1.通过标签名查找2.通过类名查找3.通过ID名查找4.通过组合的形式查找5.通过属性进行查找6.CSS选择器小案例四.总结一.基本介绍目前流行使用的是beautifulSoup4（BeautifulSoup4简称bs4）

2020-05-27 00:38:05 948

原创【python&爬虫】快速入门urllib库和requests库

文章目录一.urllib库基本介绍二.urllib.request 请求模块1.urlopen方法参数解析1.1.发送get请求1.2.发送post请求（设置data参数）1.3.设置timeout参数1.4.HTTPResponse对象2.构造Request对象三.urllib.parse URL解析模块四.代理服务器1.使用自定义opener对象发送请求2.设置代理服务器五.requests库1.requests库常用类：2.requests库的请求函数3.返回响应Response的常用属性一.url

2020-05-25 21:27:26 1783 1

xiexianyou666的博客

原创【hadoop】mapreduce面试题总结

原创【hadoop】纠删码技术详解

原创【hadoop】Hadoop 面试题总结

原创【python】epub的电子书繁体字与简体字转换

原创数据仓库面试题总结

原创 flume启动由于guava-jar包冲突报错

原创【python&爬虫】easyocr识别gif图片文字

原创正则表达式总结

原创【hadoop】MapReduce寻找博主共同好友

原创【Flink】Flink实时计算最热门Top N商品（Scala）

原创【Linux】快速入门shell编程

原创 CentOS7搭建MySQL，一步一步带你完成安装

原创【spark学习】SparkStreaming将采集结果存储MySQL数据库

原创【python&爬虫】快速入门Scrapy框架

转载自学编程的 6 个致命误区

原创【python&爬虫】selenium爬取淘宝商品图片

原创【python&爬虫】requests登录豆瓣网并爬取“浏览发现”中的文章简介和图片

原创【python&爬虫】快速入门Web自动化测试工具selenium

原创【hadoop】MapReduce数据清洗及导入数据到hive仓库

原创【python&爬虫】快速入门JSON和JSONPath

原创【python&爬虫】快速入门BeautifulSoup解析器

原创【python&爬虫】快速入门urllib库和requests库

原创【python&爬虫】快速入门python正则表达式

原创【Spark学习】使用Spark SQL操作外部hive数据库

原创【Scala学习】Scala思维导图（超详细！）

原创【Spark学习】Partitioner分区器初体验

原创【Spark学习】Spark思维导图（超详细！）

原创【Spark学习】将wordcount程序打包上传到spark集群运行

原创【Spark学习】RDD基础练习

原创【Spark学习】报错Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

原创【Spark学习】初步了解RDD中的装饰者模式

原创【Spark学习】用maven构建spark项目

空空如也

空空如也