谢雪葵-CSDN博客

原创 OutOfMemoryError异常与实战

StackOverflowError：线程请求的栈深度大于虚拟机所允许的深度OutOfMemoryError：虚拟机栈可以动态扩展（当前大部分的Java虚拟机都可动态扩展，只不过Java虚拟机规范中也允许固定长度的虚拟机栈），如果扩展时无法申请到足够的内存OutOfMemoryErrorJavaheapspace：java堆内存溢出OutOfMemoryError PermGenspace...

2020-07-04 17:08:15 453

storm入门教程，简单实例windows下开发storm程序功能描述：实时随机输出一字符串。在开发前记得导入storm需要的jar包。1、SimpleSpout类继承BaseRichSpout类，用来产生数据并且向topology里面发出消息：tuple。package com.ljq.helloword;import java.util.Map;import java.util.Random;import backtype.storm.spout.SpoutOut

2020-07-04 16:58:47 759

原创 Java 实现SparkSQL保存查询结果（带有字段信息）到HDFS（header）

public class SparkSQLJob { private static final Logger LOG = Logger.getLogger(SparkSQLJob.class); public static void main(String[] args) throws InterruptedException{ LOG.setLevel(Level.INFO); if (args == null || args.length.

2020-07-03 18:40:58 704

原创在IDEA中使用 maven 打可执行jar（包括依赖jar文件和所有配置文件资源文件）

目标 1. 将依赖第三方jar包都打进去2. 将工程Java 目录下所有文件夹和配置文件，包括资源文件都打入jar包，根据目录来 3. 打出jar文件可直接运行方法：采用maven-assembly-plugin环境：IDEA 14.1.5 JDK 1.8其中**/*写法，是为了保证各级子目录下的资源文件被打包，svn相关文件排除。pom.xml 写法<build><resources><resource><d...

2020-07-03 18:27:15 1779

原创 hbase安装文档

上传首先确保用户是hadoop，用工具将hbase安装包hbase-0.99.2-bin.tar.gz上传到/home/hadoop下，确保hbase-0.99.2-bin.tar.gz的用户是hadoop，如果不是，执行chown命令，见上文解压su – hadooptar –zxvf hbase-0.99.2-bin.tar.gz重命名mv hbase-0.99.2 hbase修改环境变量在master机器上执行下面命令：su – rootvi/etc/profil

2020-07-03 18:12:14 191

原创使用zookeeper管理多个hbase集群

zookeeper是hbase集群的"协调器"。由于zookeeper的轻量级特性，因此我们可以将多个hbase集群共用一个zookeeper集群，以节约大量的服务器。多个hbase集群共用zookeeper集群的方法是使用同一组ip，修改不同hbase集群的"zookeeper.znode.parent"属性，让它们使用不同的根目录。比如cluster1使用/hbase-c1,cluster2使用 /hbase-c2，等等。使用以上方法有一个现实的问题：如何避免各集群的相互干扰？因为...

2020-07-03 17:40:54 708

原创 sqoop安装与案例介绍

下载地址：http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6.tar.gz参考： http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/SqoopUserGuide.html https://cwiki.apache.org/confluence/display/SQOOP/Home一、Sqoop安装步骤 1. 下载 2. 解压 ...

2020-07-03 17:19:21 121

原创 iptables使用大全

#查看帮助iptables -hman iptables列出iptables规则iptables -L -n列出iptables规则并显示规则编号iptables -L -n --line-numbers列出iptables nat表规则（默认是filter表）iptables -L -n -t nat清除默认规则（注意默认是filter表，如果对nat表操作要加-t nat）#清楚所有规则iptables -F#重启iptables发现规则依然存在，因为没有保存serv.

2020-07-02 18:21:19 263

原创 Source命令简单实用方法

source命令：source FileName作用:在当前bash环境下读取并执行FileName中的命令。备注：该命令一般用命令“.”来替换。如：source .bash_rc 与 . .bash_rc 是等效的。备注：source命令与shell scripts的区别是，source在当前bash环境下执行命令，而scripts是启动一个子shell来执行命令。这样如果把设置环境变量（或alias等等）的命令写进scripts中，就只会影响子shell,无法改变当前的BASH,所以通过文件

2020-07-02 18:18:49 1831

原创如何查看linux版本信息和系统位数

$ cat /etc/issueCentOS release ,可以知道是CentOS发行版$ file /sbin/init/sbin/init: ELF 64-bit LSB shared object, x86-64,为64位。32-bit即为32位。

2020-07-02 18:10:41 173

原创如何用Spark SQL完成轻量级用户数据查询

当人们把越来越多的大数据存储在HDFS或者AWS的S3上，通常下一个问题是如何让全公司范围的员工能够方便的查询这些数据。一个选项是建立一个SQL-on-Hadoop系统，让用户使用SQL或者类SQL语言来查询数据，但是这些SQL-on-Hadoop系统往往比较复杂，需要一定的开发和维护工作量。另一个选项是，如果你已经有了Spark或者Hadoop YARN集群，那么利用Spark SQL，通过编写少量的代码，你就可以建立一个轻量级的工具，让用户自己提交SQL语句，来获取他们需要的数据。主..

2020-07-02 18:05:29 278

原创通过python smtplib库添加右抄送和密送人

# filename任意,根据需要att1["Content-Disposition"] = 'attachment; filename=%s.pdf' % (day)message.attach(att1)try:smtpObj = smtplib.SMTP('xxx.com')smtpObj.login('[email protected]', 'xxxpsd')smtpObj.sendmail(sender, reciver, message.as_string())log.war.

2020-07-02 18:01:24 803

原创基于sqoop、sparkSQL、hive、HBASE简易数据分析流程

######1.sqoop导入全量数据到hive数据仓库1.1.全量数据维护，定时任务每天凌晨1点导入前天数据到hive分区表中2.sparkSQL将全量数据进行分区，并写到数据仓库分区表中3.在hive中根据界面原型业务创建hive按照天进行分区的结果表4.sparkSQL根据业务按照天进行数据分析，并将分析出的结果写到hive的结果分区表4.1.hive结果分区表的维护，每天凌晨1:30进行当天数据分析，并将分析结果追加到hive的结果分区表中5.在HBASE中创建页面需要的

2020-07-02 17:50:37 529

原创如何实现表外连接实现hive子查询

由于hive也支持sql，很多人会把hql跟标准sql进行比较，甚至有的时候会直接套用。hive不支持事务也不支持索引，更不支持追加写，但是对于一般的sql都是能够支持的。但是对于一些子查询确实无法支持的，例如select * from t_ext_1_bkdoubledelete where f1=( select max(f1) from t_ext_1_bkdoubledelete )　　这个sql在mysql中是能够支持的，意思是找到val最大的那一行记录，然后在hive中运...

2020-07-02 17:46:29 445

原创一条命令轻松在linux里获取sparkSql值

使用shell pipeString[] cmd = {"/bin/sh","-c","ls /etc | grep release"};Process p = Runtime.getRuntime().exec(cmd);

2020-07-02 17:34:17 424

原创 Python轻松一键替换文件字符串

● python / ● 字符串替换 / ● replace #!/bin/env python # -*- coding:utf-8 -*- import sys def replace(file_path, old_str, new_str): try: f = open(file_path,'r+') all_lines = f.readlines() f.se...

2020-07-02 17:27:35 365

原创如何使用Shell命令调研HBase

HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'删除记录delete '表名' ,'行名称' , '列名称'删除一张表先要屏蔽该表，才能对该表进行删除，第一步 disable '表名称' 第二步 drop '表名称'查看所有记录

2020-07-01 18:46:34 168

原创 hive数据加载方式

1 hive数据加载方式：a) 使用load加载b) 用查询语句向表中插入数据a) 使用LOAD DATA方式加载数据详解：命令格式如下Java代码收藏代码LOAD DATA 【LOCAL】 INPATH ‘....’ 【OVERWRITE】 INTO TABLE t1 【PARTITION (...)】eg: load data local inpath '/usr/local/data/user' into table jiuye partition(grade='1...

2020-07-01 18:42:27 700

原创 nginx简单安装文档

安装依赖包yum -y install pcre-develyum -y install openssl-develyum -y install gccyum -y install lrzszyum -y install openssh-clients安装nginx上传su - root1、cd /usr/local2、rz –y解压tar -xzvf nginx-1.7.7.tar.gz重命名mv nginx-1.7.7 nginx安装nginx

2020-07-01 18:34:47 159

原创如何查看linux某软件是否已安装

因为Linux安装软件的方式比较多，所以没有一个通用的办法能查到某些软件是否安装了。总结起来就是这样几类：1、rpm包安装的，可以用rpm -qa看到，如果要查找某软件包是否安装，用 rpm -qa | grep “软件或者包的名字”。[root@hexuweb102 ~] rpm -qa | grep ruby2、以deb包安装的，可以用dpkg -l能看到。如果是查找指定软件包，用dpkg -l | grep “软件或者包的名字”；[root@hexuweb102~]dpkg-l|gre

2020-07-01 18:32:00 2929

原创 sed详细说明

1. Sed简介sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。以下介绍的是Gnu版本的Sed 3.02。2. 定址可以通过定址来定位你所希望编辑的行，该地址用数字构成，用

2020-07-01 18:28:21 484

原创正确的修改linux时间，使其永久生效

Centos系统，必须同时修改系统时间和硬件时间，才可以保证修改有效，单纯的使用date命令修改系统时间，是立即生效，重启后系统还原。具体操作如下：1.date {查看目前本地的时间}2.hwclock --show {查看硬件的时间}3.如果硬件时间和系统时间不同，那就对硬件的时间进行修改4.hwclock --set --date '014-12-15 15:15:15' {设置硬件时间为14年12月15日15点15分15秒}5.hwclock --hctosys {设置系.

2020-07-01 18:24:32 3172

原创那些我们常用vi命令

命令模式:yy:复制光标所在的这一行4yy:复制光标所在行开始向下的4行p: 粘贴dd:剪切光标所在的这一行2dd:剪切光标所在行向下 2行D:从当前的光标开始剪切，一直到行末d0:从当前的光标开始剪切，一直到行首x:删除当前的光标，每次只会删除一个X:删除当前光标前面的那个，每次只会删除一个h左 j下 k上 l右H:当前屏幕的上方M:当前屏幕的中间L:当前屏幕的下方ctrl+f--->向下翻一页代码ctrl+b--->向上翻

2020-07-01 18:16:31 91

转载定制化自己的shell命令

前言，纯粹的linux下的全屏vim,shell的编辑中，难免要在编辑器外做shell的一些command命令。比如，解压一个文件。可是解压一个文件往往要看文件的类型是什么，tar的时候要查询各种参数，简直是一种受不了的事情。本文方法就是尝试用shell的定制化命令来简化参数和命令本身。比如grep 简化成ga,比如find简化成fd.当然，如果遇到了一组经常用到的shell命令，如果是需要一大组输入命令option的参数选择的命令，那么，我们能不能定义一个命令组合的代名词，代替一组命令输入，代替一组参数输

2020-07-01 18:07:41 622

原创内置zookeeper 来进行hbase简易安装步骤

1 下载http://archive.cloudera.com/cdh5/cdh/5/hbase-0.98.6-cdh5.3.6.tar.gz2 解压tar -zxvf xxx3 修改conf/hbase-env.shJAVA_HOME=/usr/local/jdkHBASE_CLASSPATH=hadoophome/etc/hadoopexport HBASE_PID_DIR=/home/hadoop/bd/hbase-0.98.6-cdh5.3.6/hbase/pidsp

2020-06-30 12:54:12 6702

原创日志采集框架flume简单实用

Flume的安装部署 flume不同源的配置文件1、Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz然后进入flume的目录，修改conf下的flume-env.sh，在里面配置JAVA_HOME2、根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)3、指定采集方案配置文件，在相应的节点上启动flume agentflum

2020-06-30 12:48:54 3626

转载 MySQL数据库面试题（2020最新版）

文章目录数据库基础知识为什么要使用数据库什么是SQL？什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格...

2020-06-25 19:15:43 1284

转载 Java基础知识面试题（2020最新版）

文章目录Java概述何为编程什么是Javajdk1.5之后的三大版本JVM、JRE和JDK的关系什么是跨平台性？原理是什么Java语言有哪些特点什么是字节码？采用...

2020-06-25 19:00:57 4453

原创 navicat 下载与Navicat连接MySQL教程

一、Navicat介绍Navicat是一套快速、可靠并价格相当便宜的数据库管理工具，专为简化数据库的管理及降低系统管理成本而设。它的设计符合数据库管理员、开发人员及中小企业的需要。Navicat 是以直觉化的图形用户界面而建的，让你可以以安全并且简单的方式创建、组织、访问并共用信息。二、Navicat下载1、下载64位下载地址：https://www.navicat.com.cn/download/direct-download?product=navicat_premium_cs_x64.

2020-06-19 18:02:58 2213

原创 Python工程师悄悄收藏的Python学习网站

一、视频教学网站 PyThon学习网 https://www.py.cn/ PHP中文网 php.cn/course/list/30.html 网易云课堂 https://study.163.com/category/480000003131009?_trace_c_p_k2_=a3e1f22c3c69476d823c8bdf8a188dcf 慕课网 https://www.imooc.com/course/list?c=python 腾讯课堂 https://

2020-06-17 13:01:28 1259

原创 Python爬虫应用场景大全

相信很多人都知道Python，也有很多人知道Python爬虫，那么Python爬虫到底能干什么。下面简单罗列了下Python爬虫的应用场景，希望对Python爬虫感兴趣的朋友有所帮助。Python场景应用大全个人信息检索系统特定信息收集系统电话号码收集系统爬虫分析热度排行爬虫网站定向数据购物网站比价系统飞机票比价系统（以一个地方到另外一个地方飞机票）招聘公司爬虫招聘信息爬虫房产网站做房产分析排行分析之指数分析畅销书排行分析用户拓展关系分析模拟登陆系统

2020-06-15 21:10:06 5032

原创解决MySQL安装Can not find error-message file

一、问题出现场景在进行MySQL安装时进行，进行初始化的时候，能初始化成功，但是提示：Can't find error-message file2020-06-14T08:04:42.154214Z 0 [ERROR] [MY-010338] [Server] Can't find error-message file 'D:\Devsoft\mysql-8.0.20-winx64\bin\ oftWare\MySQL\share\errmsg.sys'. Check error-messag

2020-06-15 16:05:15 30114 7

原创解决MySQL初始化时报错 mysqld create directory No such file or directory

一、报错场景安装MySQL的时候，当我们用命令mysqld --initialize --console进行初始化时，会出现mysqld: Can't create directory 'D:\Devsoft\mysql-8.0.20-winx64\bin\ oftWare\MySQL\data\' (OS errno 2 - No such file or directory)我想你也看到了，为什么这个路径怎么有个空格，实际上空格的地方应该是s,但是“\s”在一起就有特定的含义，所以就变成空.

2020-06-15 15:29:01 6417 2

原创 MySQL8.0+初始化时报错（由于找不到vcruntime140_1.dll 无法继续执行代码。重新安装程序可能会解决此问题）

一、报错出现地方一般这个错误会出现在windows安装8.0+，初始化数据库的时候，提示找不到vcruntime140_1.dll这个文件。二、解决办法下载并安装一个微软常用运行库合集，在这个运行库包含这个vcruntime140_1.dll文件。下载地址:http://soft.360.cn/static/baoku/info_7_0/softinfo_104698064.html，链接中有32位和64位的，找到自己系统对应位数就好。...

2020-06-15 12:07:46 3637

原创 Windows 上安装 MySQL安装教程（8.0.20版本）-命令行安装方式（GA）--详细版

一、下载MySQL二、配置my.ini文件三、安装MySQL服务四、修改MySQL密码五、可视化软件Navicat连接MySQL...

2020-06-14 21:05:45 1715 1

原创 Linux之CentOS 7 安装Git

一、服务端1、先从yum安装git yum –y install git2、检查是否安装成功 yum --version3、在需要的位置创建一个裸仓库（最后以.git结尾） cd /usr/local mkdir git cd git git init --bare learngit.git4、创建一个git用户并赋予密码 useradd git ...

2020-06-13 20:41:01 1741

原创那些年我用过的实用/学习/工具网站

平时自己在工作中或者生活中会遇到一些实用的网站，一般自己都会收藏起来，个人觉得挺实用的，今天分享给大家，希望能给大家有点帮助。一、编程类实用网站1、在线测试编程代码网址：https://www.dooccn.com/对于很多程序员朋友很多时候需要测试代码，但是苦于电脑没有安装代码运行环境，这个时候dooccn在线测试代码也许能为你省去很多繁琐的事情。dooccn不仅界面清晰，支持的编程语言还比较多。二、生活类实用网站...

2020-06-12 21:55:52 3301 1

原创基于shell,python 简易数据采集流程图

一、数据采集目录结构1. Api --数据采集最终 api 目录 (1) Ct --充值提现采集数据 (2) Invest --投资采集数据 (3) Product --产品采集数据 (4) Reward --奖励采集数据 (5) User--用户采集数据 (6) status.txt --采集状态数据 2. Databak (1) Data--数据采集前的当天汇总数据集 (2) Databak --备份采集前一次采集数据 (3) databakBy..

2020-06-12 15:33:33 1546

原创 MySQL 5.7 yum 安装、授权

一、安装前准备1．查询已经安装 mysql 组件（1）命令：rpm -qa | grep -i mysql（2）结果：2．查看与 mysql 相关的文件（1）命令：find / -name mysql（2）结果：（3）命令：whereis mysql（4）结果：3．卸载 mysql 组件（1）命令：rpm -ev --nodeps mysql57-community-release-el6-8.noarch（2）结果：4．删除 m...

2020-06-11 21:22:16 502

原创我的博客之旅--赠人玫瑰，手留余香

自己加入csdn博客已经很久了，我挺喜欢看别人的博客，但是自己很少写博客，其实自己一直有做云笔记的习惯，像有道云和印象笔记都一直在使用，平时在开发中遇到什么问题，自己也喜欢用笔记记录下来，以及学习心得什么的。不过这些笔记主要是个人话，别人很少能看得到。感谢程序员朋友分享的各种有用的博客，受益匪浅，当然自己以后也会在博客上分享个人一些开发心得，个人技术笔记等等。希望能为程序员朋友尽自己的一点绵薄之力。...

2020-06-11 19:45:16 306

CentOS 7 安装Git

CentOS 7 安装Git 一、服务器端二、客户端 linux git服务器搭建，多用户协作

2018-09-07

mysql5.7yum安装、授权

MySQL 5.7 yum安装、授权一、安装前准备二、Yum命令安装5.7 三、安装后权限授权

2018-09-07

数据采集流程图

数据采集文档说明 1. 生产数据目录为： /home/wangyi/DepositoryProject/API，其中对应的数据分别为，产品采集，用户采集，充提采集，奖励采集，投资采集，数据按照天依次递增，同时保留历史数据。 /home/wangyi/DepositoryProject/api/Ct/xxx --充值提现采集数据 /home/wangyi/DepositoryProject/api/Invest/xxx --投资采集数据 /home/wangyi/DepositoryProject/api/Product/xxx --产品采集数据 /home/wangyi/DepositoryProject/api/Reward/xxx --奖励采集数据 /home/wangyi/DepositoryProject/api/User/xxx --用户采集数据 2. 开发数据目录：数据开发工程中只有/home/wangyi/DepositoryProject/Databak 中的数据是全量数据，也就是从开始进行数据采集到采集时候的所有数据，其它生产目录只保留清洗前一次数据目录备份 Databak --数据最终切割与汇总输出目录（也是全量数据，包括历史数据） Dataclear --数据临时清洗目录 dataclearTitle --数据一级清洗目录 datadisposeStringNULL --数据二级清洗目录 Dataformat --数据三级清洗目录 Datalast --数据四级清洗目录 Dataproduce --数据产生层目录

2018-09-07

java框架的实现

采用java的mybatis与struts2与Spring实现的登陆功能

2016-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人