自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 50道sql练习题

网上有个50道sql练习题,我做了很多遍,今天又做了一遍,前部分比较麻烦,后部分比较简单,但是如何把四张表的关联关系搞懂了,其实也不麻烦。现在和大家分享一下这个sql 50题。首先,建表create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert int

2020-09-02 16:16:57 627

原创 sparkStreaming往数据库写数据时候字段注释消失

问题描述:sparkStreaming往数据库中写入数据,我手动给字段加上注释,但是等下个批次数据来临时候,字段注释就消失了,字段的数据类型也改变了。试了好几次都是这样。原因:写数据库时候我用的是overwrite方式写入,overwrite是把数据删除,把表删除,然后重新建表,重新写入数据。所以注释会消失的,数据类型也会改变。append不会出现这个问题。解决方法:很简单,设置个属性就行了。writeNowDF.write.format("jdbc").option("url",url).opti

2020-07-14 16:14:34 233

原创 springboot定时操作数据库

工作中很多地方都需要使用定时器这个方法,比如定时操作数据库,定时更新等等。java中有定时器的方法,比较麻烦,springboot中直接用注解就能实现。下面看如何实现//一定要加上Service注解,否则无法找到这个方法@Servicepublic class mapperTest { @Autowired private testMapper mapper; ...

2020-04-30 11:58:57 946

原创 shell脚本一键安装kafka,亲测可用

很简单,就几行命令。亲测可用!echo "=================kafka安装==================="echo "================安装并解压kafka======================="cd /usr/programs/soft/#tar -zxvf kafka_2.11-0.10.2.1.tgz echo "==========...

2020-01-15 17:42:40 486

原创 shell一键安装zookeeper,亲测可用

安装zookeeper过程繁琐,修改配置文件比较麻烦,所以我写了一个shell脚本,一键安装zookeeper,下面上代码,亲测可用!```bashecho "====================zookeeper安装==============================="cd /usr/app/zookeeperwget https://archive.apache.org...

2020-01-15 16:50:26 314

原创 shell一键安装mysql,亲测可用

安装mysql过程比较繁琐,直接写个脚本一键安装,方便快捷。亲测可用。可以直接拿去执行。#!/bin/bash# 一键安装mysql5.6MYSQL_INSTALL_DIR=/usr/programs/soft # mysql安装目录IS_CINTINUE='y';# 下载mysqlinstall_mysql() { cd /data/soft ...

2020-01-15 13:35:59 370

原创 shell一键安装redis,亲测有效

亲测有效!不用执行那么多命令,只需一个shell,即可完成安装redis,下面看代码吧。echo "==================下载安装包========================="cd /usr/app/redis/wget http://download.redis.io/releases/redis-4.0.6.tar.gzecho "===============...

2020-01-15 13:28:03 291 1

原创 shell一键安装docker,亲测有效

docker网上的安装方法有很多,一步步来做很麻烦,而且中间可能会出现各种错误,现在我就用shell写一个脚本,一键安装docker,方便快捷。废话不多说,直接上代码。这个shell脚本我测试过了,可以使用。#安装dockerecho "========添加阿里云镜像加速器============="mkdir -p /etc/dockertouch /etc/docker/daemo...

2020-01-15 11:05:56 770

原创 单机版Alink

最近几天Alink刚出来,我也是去官网看了一下这个东西,Alink官网 他就是在flink之下添加了一个机器学习库,这个库非常给力,可以拖拽生成job自动运行,不需要手写代码了,所以比较给力。好了上正题。按照官网的集群模式一步步来,到maven编译alink这一块我出现了bug,见下图说是找不到这个依赖包,我很纳闷,试了几次都这样,而且特别慢,一次就执行一小时,我后来用idea进行编译...

2019-12-02 14:30:53 1086

原创 java集成datax

网上关于java集成datax方法很少,这里我写一个java集成datax的案例,希望能帮到你。下面直奔主题!方法很简单,去github下载datax,大概一个g大小。解压它Pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...

2019-11-21 15:23:13 877

原创 java集成sqoop

网上关于java集成sqoop的资料很少,这里我写一个java集成sqoop的代码。sqoop我自然不用介绍了,大家都知道。直奔主题!Sqoop Java集成sqoop。数据从Mysql到hdfs1.windows下载sqoop网址http://mirror.bit.edu.cn/apache/sqoop/1.4.7/选择sqoop-1.4.7.bin__hadoop-2.6.0.ta...

2019-11-21 15:04:23 640 1

原创 springboot集成sqoop

sqoop我就不再这里给大家介绍了,能来到这里应该都知道sqoop了。目前我写了一个demo,springboot操作sqoop。废话不多说,直入主题。pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/...

2019-11-21 14:57:41 2030 27

原创 区块链 Hyperledger Fabric - 超级账本项目在centos7环境下的安装与部署

作用:多人记账,去中心化,每个人都是一个中心,每个人都能进行记账,每个人操作账本时候都会把结果同步到所有人的账本上,防止篡改。搭建:一:安装docker1)执行代码:curl -sSL https://get.daocloud.io/docker | sh2)安装后查看是否安装成功docker -v3) 修改docker,开启docker远程配置DOCKER_OPTS="$DOCK...

2019-11-13 16:26:03 335

原创 spark读取外部配置文件

配置参数可以写在项目中的properties.xml中也可以在spark-submit上面写上你的配置参数,如果配置参数足够多,写到spark-submit后面很麻烦可以把这些配置参数写到一个文件中,直接读取配置文件获取配置。建一个property.yml,配置如下es.nodes: 127.0.0.1es.port: 9356spark程序如下 def main(args: Arra...

2019-10-11 15:32:27 1144

转载 spark 2.2.0源码解读(七) spark内存分配

spark的内存分配模型如下图所示:可以看到other占用40%英语用户定义的数据结构和spark元数据,这40%比例是不可变的,同一内存有60%,其中storage和executor各占50%,所以他们各自占用总体的30%,executor就是执行执行程序中间发生shuffle过程产生的中间数据,storage用于缓存数据。executor和storage在老版本不能互相借用,在新版本中可以互...

2019-10-11 11:01:04 174

原创 spark 2.2.0源码解读(六) driver和executor之间如何通信(源码细致研究)

上一篇文章从理论上分析了driver和executor之间是如何,这一篇是从代码上细致的分析2者之间是如何通信的,文章篇幅较长,需要耐心阅读。/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file...

2019-10-10 20:27:23 601

原创 spark 2.2.0源码解读(五) driver和executor之间如何通信

driver:发送任务。检测executor状态。executor:接受任务并执行,完成task任务。给driver发送消息反馈自己状态。driver和executor之间通信老版本有2中方法,netty和akka,新版本只有netty通信。先说一下akka通信:一张图就把关系解释清楚了,akka定时给executor发送心跳,executor接受到心跳后反馈自身信息,如果driver没有...

2019-10-10 17:25:01 1152

原创 spark 2.2.0源码解读(四) spark-submit源码解读

spark有四种运行模式,standalone,yarn,mesos,local。yarn又分为client,cluster两种。系统默认使用client。这两者区别是client模式中,driver分给一个节点,如果这个节点宕机,则运行失败。cluster模式,driver分给每个节点,如果一个节点宕机,没有关机,其他节点会顶替上来。所以cluster比client性能好。测试代码时...

2019-10-10 16:52:48 125 1

原创 spark 2.2.0源码解读(三) spark调度策略

这个文章比较长,看的时候需要些耐心,源码中将如何分配资源,如何调度任务,调度策略,如何管理任务,如何给webui界面传参数等等都做了详细设计,代码之美,无法用言语来表达,说来话长,还是看代码吧。/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreem...

2019-10-09 23:29:23 269

原创 spark 2.2.0源码解读(二) spark context源码解读

spark context源码解读spark context是spark的上下文环境,也是spark程序的入口,在spark2.0中sparkcontext融入到sparksession中,直接可以用sparksession.sparkContext去调用它。spark程序是运行在jvm上的,一个jvm只能有一个活跃的sparkcontext,所以在你代码末尾加上一个sparkcontext....

2019-10-09 09:47:58 505

原创 spark 2.2.0源码解读(一) rdd源码解读

spark 2.2.0源码解读(一) rdd源码解读spark中有很多rdd,每个rdd都有自己的作用,恰当用好rdd可以达到事半功倍的效果.闲话少说,直接上代码cache /** * Persist this RDD with the default storage level (`MEMORY_ONLY`). * 持久化RDD使用默认的存储级别(`MEMORY_ONLY`...

2019-10-08 20:07:48 216

原创 编译spark 2.3.0源码

编译spark 2.3.0源码最近编译了spark 2.3.0。现在做一下总结。最开始以为这不需要多久时间很快就完成了,真正操作时候才发现有各种坑,完全在意料之外,有些坑让人没有头绪,找不到方向,浪费大把时间,我花了将近一天才解决这个问题。首先需要准备以下东西:spark源码 2,.3.0 没有的话去官网下载maven 3.Xscala 2.11编译方法有很多,可以用maven...

2019-09-27 17:57:38 359

原创 hanlp简单DEMO

导入依赖com.hankcshanlpportable-1.6.8//分词private static void test1(){List stermList = HanLP.segment(“商品和服务”);print(stermList);}//繁体分词private static void test2(){List stermList = TraditionalCh...

2019-07-19 16:54:31 390

原创 sparkMLlib中breeze常用api

package leaning import breeze.linalg._import breeze.numerics._import breeze.stats.distributions.Rand /** * Created by dy9776 on 2017/12/5. */ object Practise_breeze{ def main(args: Arr...

2019-07-18 17:36:04 204

原创 spark通过jdbc连接hive

连接hive的方法有很多,这里说说通过jdbc连接hive首先要把hive下的conf下的hive-site.xml文件复制到编译器中object readAndWriteHive { //从hive中读取数据表,去重并写到一个新表中 def main(args: Array[String]): Unit = { //加载配置文件 val load = ConfigFa...

2019-07-18 17:33:14 2527 1

原创 hadoopHDFS常见几个命令

随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | head -100返回最后几行的样本数据hadoop fs -cat /test/go...

2019-07-18 17:11:36 100

原创 spark-jdbc读取数据库分区

spark通过jdbc从数据库中读取数据,如果数据过大,一定要分区,否则运行慢,分区数目可以从webui上看到,分区数就是task数目。如果分区后,有的task很快完成有的task完成比较慢,这时候需要用sql去查找数据库中看看到底哪里发生数据倾斜了,在数据倾斜的地方多建立几个分区,这样会快些。好了,不多说,上代码import java.util.Propertiesimport org....

2019-07-18 17:06:00 1699

原创 spark通过jdbc连接数据库

连接数据库的方法有很多,不同的数据库也有不同的方法,今天说一下用jdbc连接数据库这里以mysql为例说明一下,其实也很简单,无非就是配置好driver,url,账号,密码。好了,不多说,上代码。val conf = new SparkConf().setAppName("jdbctest").setMaster("local[*]")val session = SparkSession....

2019-07-18 17:02:16 699

原创 spark-checkpoint检查点Demo

首先要知道什么是checkpoint?checkpoint就是检查点,用于核查rdd的进度。比如说一长串rdd计算操作需要花费很长时间,占用资源也比较多,突然断电,服务器宕机等等不可预测事情发生时候,这个时候如何rdd从新计算将又要花费大量时间,占用大量资源,这就耗时耗力了,spark的checkpoint就是为了解决这个问题而生的。checkpoint先把rdd的中间重要计算结果保存到hdf...

2019-07-18 16:51:55 225

原创 sparkGraphx图计算DEMO

spark图计算简单来说就是构建边集合,点集合,然后把边集合,点集合放到graphx中进行计算。下面我用scala写一下spark图计算的demo。package sparksqlimport org.apache.spark.graphx.{Edge, Graph}import org.apache.spark.{SparkConf, SparkContext}object spa...

2019-07-18 16:41:27 628

原创 sparkMLlib逻辑线性回归demo

这里写一个逻辑线性回归demoimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.regression.{IsotonicRegression, IsotonicRegressionModel, Labe...

2019-07-11 17:53:20 220

原创 sparkMLlib保序回归demo

保序回归的简单demo保序算法这里不做介绍,感兴趣的上网搜索,简单来说就是在一串数字中将数字不停修改,得到一个非递减队列。比如一人能吃5个包子,吃少了饿,吃多了撑,所以只能去找一个适中的值5,不停的测试得到最优值import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}i...

2019-07-11 17:43:47 138

原创 贝叶斯分类算法

贝叶斯详细的理论介绍这里就不说了,可以上网查看。这里写一个demopackage sparksqlimport org.apache.spark.mllib.classification.NaiveBayesimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.Labele...

2019-07-11 17:34:11 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除