自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 ModuleNotFoundError: No module named ‘Image‘

##解决方案:将import Image 改为from PIL import Image

2021-05-09 13:13:22 764

原创 Caused by: java.io.IOException: Incorrect string value: ‘\xF2\xB6\xAB\xB1\xEF\xBF...‘ for column ‘

#hadoop插入mysql数据报错###Caused by: java.io.IOException: Incorrect string value: ‘\xF2\xB6\xAB\xB1\xEF\xBF…’ for column ‘author’ at row 1解决方案:// final String lines = new String(value.getBytes(),0,value.getLength(),“GBK”);参考链接:https://blog.csdn.net/tornadoj

2021-02-15 23:36:52 295

原创 hadoop java.lang.OutOfMemoryError: Java heap space

修改hadoop-env.sh中的export HADOOP_CLIENT_OPTS="-Xmx2048m"重新启动集群

2020-07-25 13:06:41 264

原创 org.apache.hadoop.mapred.Task - Failure committing: java.io.IOException: Could not rename

多个文件输出时报错:06:20:30,429 [pool-3-thread-1] WARN org.apache.hadoop.fs.FileUtil - Failed to delete file or dir [F:\projects\output_temporary\0_temporary\attempt_local722729032_0001_r_000000_0.data-r-00000.crc]: it still exists.06:20:30,430 [pool-3-thread-1

2020-07-12 19:01:43 329

原创 Plugin ‘Scala‘ is incompatible with this installation

参考地址:https://www.cnblogs.com/quchunhui/p/10132877.html点击help->about查看对应的版本信息插件下载地址:http://plugins.jetbrains.com/plugin/1347-scala

2020-07-05 23:15:33 151

原创 Linux下运行sparkSql程序时,mysql连接找不到驱动 No suitable driver found for jdbc:mysql://127.0.0.1:3306/testdemo

java.sql.SQLException: No suitable driver found for jdbc:mysql://127.0.0.1:3306/telecomdata?useUnicode=true&characterEncoding=UTF-8解决方案:将相应的mysql的驱动包在$JAVA_HOME/jre/lib/ext/下即可

2020-06-02 23:04:54 757

原创 Hibernate缓存机制

缓存通过Session查询数据库实体时,会将实体对象保存到内存中,下一次通过同一个session查询时,不在从数据库查询数据,而是从缓存中获取一级缓存sessionsession的get方法session缓存,会话级缓存API:evict清除会话中的某个对象clear: 清除会话中的所有对象当用creatQuery、迭代器查询数据时,会将数据保存到内存中,当下次调用时依然还是会从缓...

2019-07-22 23:29:48 85

原创 Hibernate 基于mysql开发

-》下载hibernate版本:hibernate-release-5.4.3.Final.zipEsclipse开发添加相应的hibernate库到工程中具体库如下:该目录下我的全选了,有些是用不到的,懒的一个一个的选,jpa这个库我跟网上的不一样,怀疑是版本的问题新建表:create table grade( gid int primary...

2019-07-21 10:28:05 198

原创 Phoenix集成Hbase

概念网址:http://phoenix.apache.org/Apache Phoenix通过结合两者的优点,在Hadoop中为低延迟应用程序启用OLTP和运营分析:具有完整ACID事务功能的标准SQL和JDBC API的强大功能通过利用HBase作为其后备存储,来自NoSQL世界的后期绑定,读取模式功能的灵活性Apache Phoenix与其他Hadoop产品完全集成,如Spark,Hive...

2019-06-20 20:32:47 1364

原创 Hadoop序列化

序列化:系列化就是把内存当中的对象,转换成字节序列以便于存储和网络传输反序列化:就是将收到的字节序或硬盘的持久化数据转换成内存中的对象java的序列化Serializable不适用java的序列化的原因: java的序列化时一个重量级的序列化框架 一个对象被序列化会附带大量的消息hadoop的序列化 Writable...

2019-06-15 16:12:32 138

原创 Mongodb学习之路

概念 是一个基于分布式文件存储的开源数据库系统。查看数据库show databases;查看表show tables;服务端mongod客户端mongo查看数据db.douban_movie.findOne()与关系型数据库的比较解释说明-》创建数据库use 数据库名 如果不存在,自动创建,如果存在自动切换-》创建集合(表)db...

2019-06-01 22:59:13 139

原创 Django简介

概念Django是一个高级Python Web框架,鼓励快速开发和干净,实用的设计。由经验丰富的开发人员构建,它可以解决Web开发的大部分麻烦,因此您可以专注于编写应用程序而无需重新发明轮子。它是免费和开源的安装方式1:pip install Django==1.11方式2:下载源码后进入到根目录执行: python setup.py install创建命令: Django-admin...

2019-05-11 23:49:09 172

原创 PyCharm规范设置

获取Python的注册码:http://idea.lanyus.com/设置模板启动PyCharmFile ->Settings -> Editor ->File and Code Templates。添加具体的模式如下:设置pep8规范执行优化右键python文件,点击ExternalTool->autopep8 自动格式化...

2019-05-09 22:04:12 937

原创 Redis简单介绍

安装配置启动服务客户端启动对数据的操作获取配置CONFIG GET *“dbfilename”“dump.rdb”“requirepass”“xxxxx1129”“masterauth”“”“cluster-announce-ip”“”“unixsocket”“”“logfile”“”“pidfile”“/var/run/redis_6379.pid”...

2019-05-07 22:35:01 161

原创 Logstash简介

概述Logstash是一个开源数据收集引擎,具有实时管道功能。Logstash可以动态地将来自不同数据源的数据统一起来,并将数据标准化到你所选择的目的地输入输入:采集各种样式、大小和来源的数据过滤器过滤器:实时解析和转换数据Logstash 能够动态地转换和解析数据,不受格式或复杂度的影响:1)利用 Grok 从非结构化数据中派生出结构2)从 IP 地址破译出地理坐标3)将 ...

2019-04-24 23:04:02 3214 1

原创 Elasticsearch基本用法

维基百科、GitHub-站内实时搜索

2019-04-14 22:53:50 6061 2

原创 SparkStreaming

SparkStreaming概述Spark Streaming可以轻松构建可扩展的容错流应用程序1)便于使用2) 容错3)Spark集成计算框架log-》flume-》kafka-》sparkStreaming-》hdfs || mysql -》hive||hbaseDstream数据源来源于分布式多台机器,多台计算Dframe 属于离散数据流,在streaming中 以Dst...

2019-04-14 13:16:06 535

原创 Spark SQL介绍

概述: sparkSQL是spark用来处理结构化数据的一个模块 提供了一个编程的抽象叫DataFrame作为分布式的查询引擎作用1)处理结构化数据2)先将非机构化的数据转换为结构化数据编程模型1)sql select * from user;2)DateFrame (DSL)HQL:将sql转换为mr任务SparkSql将sql转换为rdd任务特点:容易整合Spar...

2019-04-13 22:17:34 219

原创 Kafka 介绍(二)

图中介绍1主要是回调函数,2回调函数处理的事情,3 发给消费者的数据消费则API:生产者:消费者:拦截器:实现一个接口:ProducerInterceptorkafka-stream接口实现:Processor的方法数据清洗,针对生产的数据金子那个增、减数据...

2019-04-08 15:30:50 70

原创 Scala学习之路

-》Scala简介-》Scala 版本:scala-2.12.4语音 编译 执行 扩展名 java javac java java scala scalac scala scala -》数据类型java scala byte/char/short/int/long/float/double/boolean/...

2019-04-08 09:53:00 863

原创 QT学习之路

哎,欠下的债迟早要还的,其实之前学习过这个,只是当时记不住,后来也没从事界面相关的工作,就慢慢的遗忘了,现在再拾起来。QT下载:qt-opensource-windows-x86-5.10.0.exeQT安装参考《https://blog.csdn.net/ruyulin/article/details/78912341》QT运行QApplication 记住即可信号与槽conn...

2019-04-06 23:08:36 242

原创 Sqoop1介绍和简单实用

# 概述:Apache Sqoop(TM)是一种工具,用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据。安装sqoop-1.4.7最新的稳定版本是1.4.7(下载,文档)。Sqoop2的最新剪辑是1.99.7(下载,文档)。请注意,1.99.7与1.4.7不兼容且功能不完整,不适用于生产部署。# # 配置 sqoop-env.sh...

2019-03-31 22:46:35 288

原创 Hive概述与应用

1 概念:Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。数据计算:mapreduce 分布式计算 -》难度大 hive -》sql语句简化开发,减少学习成本2 优缺点 优点: 1)操作接口采用了sql 简...

2019-03-31 16:05:12 79

原创 Storm核心组件介绍

Nimbus: 主控节点用于接收,提交任务,来分配集群任务,集群的监控Zookeeper:存储storm集群的数据存储、心跳、集群状态Nimbus任务分配到supervisor分组策略1)fields Grouping 按照字段分组,相同字段发送到同一个task中2)shuffle Grouping 随机分组 轮询分组、随机分发tuple,保证每个bolt中的tup...

2019-01-13 20:17:22 408

原创 Storm概述以及集群搭建

Apache Storm是一个免费的开源分布式实时计算系统。 Storm可以轻松可靠地处理无限数据流,实现Hadoop对批处理所做的实时处理。 Storm非常简单,可以与任何编程语言一起使用,并且使用起来很有趣! Storm有许多用例:实时分析,在线机器学习,连续计算,分布式RPC,ETL等。 风暴很快:一个基准测试表示每个节点每秒处理超过一百万个元组。 它具有可扩展...

2019-01-13 13:24:15 107

原创 Hbase -API

构建Maven工程:Pom文件添加依赖:pom.xml<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> ...

2019-01-13 11:29:11 166

原创 Flink应用

概念:Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。在这里,我们解释Flink架构的重要方面Flink特点1)mapredue2)store3)spark适用于所有企业,不同企业有不同的业务场景,处理数据量,模型不一样处理无界和有界数据...

2019-01-13 11:21:33 212

原创 Kafka知识点(一)

概念:ApacheKafka®是一个分布式流媒体平台地址:http://kafka.apache.org/功能介绍:1)流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 记录发生时处理流。 Kafka通常用于两大类应用: 构建可在系统或应用程序之间可靠获取数据的实时流数据管道 构建转换或响应数据流的实...

2019-01-08 23:02:12 315

原创 HBase

概述;Hadoop数据库,是一个分布式,可扩展的大数据存储。当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable:Chang等人的结构化数据分布式存储系统。正如Bigtable利用Goo...

2018-12-29 23:03:49 140

原创 Azkaban学习之路

概述:Azkaban是在LinkedIn上创建的批处理工作流作业调度程序,用于运行Hadoop作业。Azkaban通过作业依赖性解决订单,并提供易于使用的Web用户界面来维护和跟踪您的工作流程特点:1)提供可视化界面--web界面2)工作流->jar包3) 设置任务间的关系4)权限设置5)模块化6)随时启停任务7)课查看日志记录兼容任何版本的Hadoo...

2018-12-28 20:16:09 6442

原创 HIVE压缩

1)map-》开启输出压缩功能:set hive.exec.compress.intermediate = true; -》开始map压缩功能:                              hive (mongdb)&gt; set mapreduce.map.output.compress;mapreduce.map.output.compress=falsehiv...

2018-12-23 21:23:49 99

原创 HIVE自定义函数

-》自定义函数1)创建工程,加载hive的依赖包2)编写代码,需要继承UDF3)打包 export jar file4)双传jar包到linux目录下5)启动hive6)add jar jar路径 //不要加引号add jar /root/lower.jar7)关联到hive中create temporary function 自定义函数名 as '包的函...

2018-12-23 20:47:09 243

原创 Hive基本使用(二)

增加头信息增加配置<property> <name>hive.cli.print.current.db</name> <value>true</value></property><property><name>hive.cli.print.header</name&...

2018-12-22 20:52:06 1725

原创 Hive基本使用

基本操作1)查看数据库show databases;2)切换数据库use mongdb;3)查看表show tables;4)创建表create table movie_world(id int, name string);5)插入数据insert into movie_world values(1, "1942");6)删除表结构drop tab...

2018-12-21 21:50:16 827

原创 org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /

解决方案:检查下各自的端口号优先使用zkCli.sh -server ip:port看下各个客户端能不能起来我的端口号不是默认的,处理第一台时2181 其他的是2281 2381 ,程序里改掉后可以了...

2018-12-19 23:24:01 1316

原创 Zookeeper概述

1)概念: ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的服务,应用程序最初通常会吝啬它们,这使得它们在变化的情况下变得脆弱并且难以管理。即使正确完成,这些服务的不同实现也会在部署应用程序时导致管理复杂性2)...

2018-12-19 22:05:44 127

原创 Exception in thread "main" java.lang.IllegalArgumentException: The document is really a OOXML file

Exception in thread “main” java.lang.IllegalArgumentException: The document is really a OOXML fileat org.apache.poi.hwpf.HWPFDocumentCore.verifyAndBuildPOIFS(HWPFDocumentCore.java:126)at org.apache....

2018-12-16 22:57:25 10496 10

原创 Flume简介

flume概念:apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。作用:主要用来采集数据flume架构:source:数据源channe...

2018-12-16 17:31:32 180

原创 Spark基础概念

什么是Spark?Spark的特点和结构 1、什么是Spark? Spark是一个针对大规模数据处理的快速通用引擎。 类似MapReduce,都进行数据的处理 2、Spark的特点: (1)基于Scala语言、Spark基于内存的计算 (2)快:基于内存 (3)易用:支持Scala、Java...

2018-12-15 23:35:35 521

原创 git的安装

linux下git安装yum install -y git  git init[root@Master git]# git initInitialized empty Git repository in /opt/git/.git/git ls-filestest01.txt[root@Master git]# git ls-files --stage100644 d536...

2018-12-13 21:33:45 154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除