自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(559)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hive - 问题 & 解决

1 Hive - mapjoin问题:hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且会在reduce的过程中遇到内存不够而报错解决方案:考虑使...

2019-10-20 20:13:33 292

原创 Linux - 问题 & 解决

1 MySQL - 安装问题:warning: MySQL-client-5.5.47-1.linux2.6.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEYerror: Failed dependencies: /usr/bin/perl is needed by MySQL-client-5....

2019-08-26 20:31:07 314

原创 Linux - 常用命令

1 Linux的帮助命令man COMMAND COMMAND --help info COMMAND//以ls命令为例man lsls --helpinfo ls备注:按q键退出2 Tab键的使用自动补全命令或者目录1、在某个目录下如果只有一个目录的时候可以不用输入首字母直接按Tab键就可以自动补齐2、双击tab时一般为显示所有命令或者列出某个目录下的所有目录或文件。...

2019-07-25 20:18:45 333

原创 Spark SQL 常见问题汇总

1 DataFrame转RDD,map中获取时,下标从0开始例如:solve02DF .rdd .map(x => (x.getInt(0), x.getInt(1), x.getDouble(2))) .foreach(println)

2020-05-13 00:21:28 660

原创 MySQL常用命令

1、 启动(1)service方式:service mysql start2、停止(2)service方式:service mysql stop3、重启(1)service方式:service mysql restart

2020-05-11 23:21:45 309

原创 MySQL: Got a packet bigger than 'max_allowed_packet' bytes

Python导入数据到MySQL,提示出现错误:Got a packet bigger than ‘max_allowed_packet’ bytes原因:导入的数据大于MySQL限制的最大包的大小解决方法:修改max_allowed_packet的值,然后重启MySQL-- 查看当前的max_allowed_packet的值show variables like '%max_allowed_packet%'-- 修改max_allowed_packet的值,10M: 10485760.

2020-05-11 23:18:01 395

原创 Python3 Json转字典

import jsonjson.loads(json_str) # Json字符串转字典json.dumps(dict) # 字典转Json字符串'''读取评分数据,写入到MongoDB中'''import json# 输入 - 文件inPath = 'D:/projectData/EcSystem/Amazon/reviews.json'inFile = open(i...

2020-04-23 15:53:50 871

原创 Python3 - 时间戳转日期

import pymongoimport timefrom bson.int64 import long# 输入 - 文件inPath = 'D:/projectData/EcSystem/Amazon/ratings.csv'inFile = open(inPath, 'r', encoding='UTF-8')for line in inFile: # 去掉末尾换行符...

2020-04-23 11:19:08 310

原创 Spark SQL中如何使用广播变量

通过自定义UDF函数

2020-04-21 22:35:19 3139 1

原创 Spark Core - 数据加载 - 从HDFS读取数据

package DataInputimport org.apache.spark.{SparkConf, SparkContext}/** * @ Description:Spark Core - 从HDFS读取数据 * @ Modified By: * @ Date :22:53 2020/4/20 0020 * * @ Author :leoxr...

2020-04-20 23:33:07 502

原创 Python Django - MgongoDB2View

创建一个app,从MongoDB中获取数据,加载到页面(1)创建app(venv) C:\Project\PythonProject\EcSystemPython> python manage.py startapp django_web(2)修改settings.py文件,添加INSTALLED_APPS(3)templates文件夹中,创建test.html(4)编辑d...

2020-04-20 21:08:24 224

原创 推荐系统实践-笔记-第1章

第1章 好的推荐系统1.1 什么是推荐系统推荐系统,帮助信息消费者从大量信息中找到自己感兴趣的信息,帮助消息生产者让信息展现在对它感兴趣的用户面前信息过载的解决方案:分类目录、搜索引擎分类目录只能覆盖少量的热门网站搜索引擎需要用户主动提供准确的关键词推荐系统,帮助用户快速发现有用信息,不需要用户提供明确的需求,通过分析用户的历史行为给用户的兴趣建模搜索引擎满足了用户有明确目的时的主动...

2020-04-17 22:08:59 1081

原创 Python - 爬取图片并下载到本地

import requests #用来模拟浏览器发送网络请求from lxml import etree #解析数据from urllib import request #下载保存urlretrive()import time #time.sleep让程序延迟几秒再进行# 函数的封装 defdef huya_spide...

2020-03-28 22:53:05 675

原创 二进制除法

二进制除法中包括除法和模2除法,两个计算并不同一、除法二、模2除法参考文章1链接:https://blog.csdn.net/e891377/article/details/85036212参考文章2链接:https://blog.csdn.net/u010190210/article/details/80707698...

2020-02-21 10:58:57 47496 2

原创 Redis

1 bind ip地址bind 0.0.0.0所有访问bind 127.0.0.1本地访问bind 内网IP地址指定的内网IP可以 访问参考文章链接:https://blog.csdn.net/sinat_21354977/article/details/83150127...

2019-12-26 15:17:03 186

原创 Scala - 小项目 - 奥特曼打小怪兽

一、项目描述奥特曼 1个 名字 血量 普通 必杀 一次只能打1只 魔法 所有 奥特曼的攻击 10%必杀 30%魔法 60%普攻 小怪兽 4只 名字 血量 普通 回合制游戏 示例输出:======== 第1回合 ========(aa奥特曼,血量:100) 使用魔法,攻击了b1小怪兽,小怪兽血...

2019-10-31 19:27:39 656 1

原创 Idea - 问题 & 解决

1 Error:java: Compilation failed: internal java compiler error原因:项目中Java版本不一致解决:参考文章地址:https://blog.csdn.net/qq291539326/article/details/79311373/

2019-10-22 19:44:28 242

原创 HBase - 完全分布式搭建

1 Zookeeper 正常部署启动Zookeeper2 Hadoop 正常部署启动Hadoop3 HBase 解压[hadoop@hadoop105 ~]$ tar -zxvf hbase-1.2.1-bin.tar.gz -C apps/4 配置环境变量[hadoop@hadoop105 ~]$ sudo vi /etc/profile添加内容如下:export HBASE...

2019-10-21 21:15:40 227

原创 Flume - 故障转移、负载均衡

故障转移概述:故障转移机制的工作方式是将失败的sink放到一个池中,并在池中为它们分配一段冷冻期,在重试之前随着连续的失败而增加。一个sink成功发送event后,将其恢复到活动池。sink有一个与它们相关联的优先级,数字越大表示优先级越高。如果一个sink在发送event时失败,则下一个具有最高优先级的sink将被尝试用于发送事件。实例:# hadoop105# Name t...

2019-10-20 20:24:35 554

原创 Flume - 安装

一、安装1 解压缩[root@hadoop01 ~]# tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/2 修改名称[root@hadoop01 local]# mv apache-flume-1.9.0-bin/ flume-1.9.0/3 修改配置[root@hadoop01 flume-1.9.0]# cd conf...

2019-09-21 20:27:34 457

原创 Tez - 安装、简介、优化

一、Tez 安装1 下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/2 二进制包安装2.1 解压并重命名[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/[root@hadoop01 ~]# mv /usr/l...

2019-09-21 14:47:15 1398

原创 Tez - 安装

一、Tez 安装1 下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/2 二进制包安装2.1 解压并重命名[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/[root@hadoop01 ~]# mv /usr/l...

2019-09-21 12:02:06 1278

原创 Sqoop

一、Sqoop1 官网http://sqoop.apache.org/2 概述1、用于结构化数据存储(如传统关系型数据库)和Hadoop之间的数据传输2、Sqoop的核心设计思想是利用MapReduce加快数据传输速度,即Sqoop的导入和导出功能是通过基于Map Task(只有Map)的MapReduce作业完成,因此Sqoop是一种批处理方式进行数据传输,难以实现实时的数据进行导入...

2019-09-20 15:07:46 1234

原创 Hive - 文件存储、文件压缩、视图、日志、运行方式、JDBC、优化

一、文件存储格式File Formats and Compression: RCFile, Avro, ORC, Parquet; Compression, LZO1.1 textfile1、textfile是hive默认的数据文件存储格式2、textfile是普通的文件文本存储3、不压缩4、可以配合压缩配置属性进行压缩CREATE TABLE `u4`( `id` int,...

2019-09-19 21:34:07 578

原创 DataX - 安装

1 将安装包上传到服务器2 将安装包解压缩到规划目录[root@hadoop01 ~]# tar -zxvf datax.tar.gz -C /usr/local/3 进入datax的bin子目录,运行datax.py进行自检[root@hadoop01 bin]# python datax.py ../job/job.json...

2019-09-16 23:37:00 256

原创 Hive - 安装

1 启动集群start-all.sh2 hive压缩包解压缩tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/local/3 移动到规划位置mv /usr/local/apache-hive-1.2.1-bin/ /usr/local/hive-1.2.14 添加环境变量[root@hadoop02 ~]# vi /etc/prof...

2019-09-08 15:35:55 277

原创 MapReduce - A - 归约 - Combiner

题目:使用Conbiner进行词频统计思路:Combiner在整个Map阶段结束后,进行一次合并,可以理解为提前的一次reduce代码://MyCombinerpackage A_Combiner02;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import o...

2019-09-07 21:45:12 262

原创 MapReduce - A - 排序 - TreeSet

题目:求评分(平均值)最高的前10的电影id?(输出:moveid 平均分)思路:Map中获取数据,键:电影好,值:电影信息类(实现Comparable)Reduce中汇总数据,将某部电影的评分算出来,然后放到TreeSet中Reducer的cleanup中,输出TreeSet中记录的电影信息代码://电影信息类package Sort02;import org...

2019-09-07 20:58:11 270

原创 MapReduce - A - 分组 - Comparator

题目:求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的)思路:通过手机号的前三位区分通信运营商按照运营商分组后,在每个Reduce里计算各运营商总和即可代码://分组比较器package Comparator02;import org.apache.hadoop.io.WritableComparable;import org.apache...

2019-09-07 20:56:22 272

原创 MapReduce - A - 分区 - Partitioner

题目:求每个通信商的上行、下行、总流量 (输出:通信商 上行 下行 总的)思路:通过手机号的前三位区分通信运营商按照运营商分区后,在每个Reduce里计算各运营商总和即可代码://分区比较器package Partitioner02;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapre...

2019-09-07 20:53:33 186

原创 MapReduce - A - 迭代(多次MR)

题目:对给定的文件进行词频统计,然后按照词频从大到小排序词频相同时,按照单词的字典序思路:通过两个MR进行解决第一个MR:统计词频第二个MR:利用Shuffle阶段的排序,实现排序效果代码://单词类package Test02;import org.apache.hadoop.io.WritableComparable;import java.io.Dat...

2019-09-07 20:51:21 746

原创 Linux - 安装MongoDB

安装包官网下载地址:https://www.mongodb.com/download-center#community1 下载curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.0.6.tgz2 解压tar -zxvf mongodb-linux-x86_64-3.0.6.tgz3 将解压包拷贝...

2019-09-04 20:02:49 195

原创 MapReduce - 词频统计

统计一个文本的词频package Test01;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import or...

2019-09-02 19:52:19 929

原创 Shell - 常用命令

l 列出当前行上下各5行,总共10行q|quit 退出h 帮助/for/ 向后搜索字符串for?for? 向前搜索字符串forx 1+2 计算算术表达式的值!! ls -laRt 执行shell命令n 执行下一条语句s 4 ...

2019-09-02 19:44:13 180

原创 Shell - 测试

任何语编程都有对应的调试工具,如java有Debug、mysql有调试工具、js有调试工具等,shell也不例外shell的语法检测:相当于java的编译1. shell语法检测:sh -n ./test.sh (sh是/bin/sh 是系统提供的可执行脚本)2. shell的普通调试:sh -x ./test.sh如test.sh的内容如下:#!/bin/ba...

2019-09-01 10:22:31 336

原创 Shell - 文件引入

和其他语言一样,Shell 也可以包含外部脚本。这样可以很方便的封装一些公用的代码作为一个独立的文件。Shell 文件包含的语法格式如下:. filename # 注意点号(.)和文件名中间有一空格或source filename案例:vi /home/shell/1.sh#!/bin/bashname=‘123’vi /home/shell/2.sh. ...

2019-09-01 10:12:01 357

原创 Shell - 函数

shell中函数的定义格式如下:[ function ] funname (){ action; [return int;]}注:1、可以带function fun() 定义,也可以直接fun() 定义,不带任何参数。2、参数返回,可以显示加:return 返回,如果不加,将以最后一条命令运行结果,作为返回值。 return后跟数值n(0-255)作为一个返...

2019-09-01 09:06:48 184

原创 Shell - for、while、until、case

循环-forFor i in 1 2 3;do echo $i;donefor var in item1 item2 ... itemNdo command1 command2 ... commandNdone案例1:for loop in 1 2 3 4 5do echo "The value is: $loop"done案例2...

2019-09-01 09:00:04 146

原创 Shell - if

七、条件控制if支持嵌套写成一行就得这么写:if [ ] ; then echo “” ;fi单一的if:(表达式必须有空格)if []thencmd1fi单一的if else :(表达式必须有空格,else后不能有then)If []thencmd1elsecmd2fiif else-if else :(elif后必须有then)if condi...

2019-09-01 08:49:18 189

原创 Shell - 基本运算符 - 文件测试运算符

文件测试运算符用于检测 Unix 文件的各种属性。属性检测描述如下:操作符 说明 举例-b file 检测文件是否是块设备文件,如果是,则返回 true。 [ -b $file ] 返回 false。-c file 检测文件是否是字符设备文件,如果是,则返回 true。 [ -c $file ] 返回 false。-d file 检测文件是否是目录,如果是,则返回 true。 [ ...

2019-09-01 08:46:30 249

Hive安装,使用MySQL作为元数据库

apache-hive-1.2.1-bin.tar.gz mysql-connector-java-5.1.6-bin 用于安装Hive并使用MySQL作为元数据库

2019-09-08

mysql + navicat for mysql

1.mysql-5.5.37-win32 2.Navicat for MySQL 3.所提供的资源仅用于学习,如果商用请到官网下载正版软件

2019-01-22

navcat for mysql 含注册码

navcat for mysql 中文破解版 含注册码。下载完成后,找到程序,点击运行,进入注册页面,填入注册码即可

2018-07-24

【ACM比赛模板积累ing】O(n)回文子串(Manacher)算法

ACM比赛模板积累,Manacher算法,时间复杂度O(n),可适应于求输入串的最长回文子串

2017-10-08

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除