自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

kebexue的博客

原创 ModuleNotFoundError: No module named ‘Image‘

##解决方案：将import Image 改为from PIL import Image

2021-05-09 13:13:22 764

原创 Caused by: java.io.IOException: Incorrect string value: ‘\xF2\xB6\xAB\xB1\xEF\xBF...‘ for column ‘

#hadoop插入mysql数据报错###Caused by: java.io.IOException: Incorrect string value: ‘\xF2\xB6\xAB\xB1\xEF\xBF…’ for column ‘author’ at row 1解决方案：// final String lines = new String(value.getBytes(),0,value.getLength(),“GBK”);参考链接：https://blog.csdn.net/tornadoj

2021-02-15 23:36:52 295

原创 hadoop java.lang.OutOfMemoryError: Java heap space

修改hadoop-env.sh中的export HADOOP_CLIENT_OPTS="-Xmx2048m"重新启动集群

2020-07-25 13:06:41 264

原创 org.apache.hadoop.mapred.Task - Failure committing: java.io.IOException: Could not rename

多个文件输出时报错：06:20:30,429 [pool-3-thread-1] WARN org.apache.hadoop.fs.FileUtil - Failed to delete file or dir [F:\projects\output_temporary\0_temporary\attempt_local722729032_0001_r_000000_0.data-r-00000.crc]: it still exists.06:20:30,430 [pool-3-thread-1

2020-07-12 19:01:43 329

原创 Plugin ‘Scala‘ is incompatible with this installation

参考地址：https://www.cnblogs.com/quchunhui/p/10132877.html点击help->about查看对应的版本信息插件下载地址：http://plugins.jetbrains.com/plugin/1347-scala

2020-07-05 23:15:33 151

原创 Linux下运行sparkSql程序时，mysql连接找不到驱动 No suitable driver found for jdbc:mysql://127.0.0.1:3306/testdemo

java.sql.SQLException: No suitable driver found for jdbc:mysql://127.0.0.1:3306/telecomdata?useUnicode=true&characterEncoding=UTF-8解决方案：将相应的mysql的驱动包在$JAVA_HOME/jre/lib/ext/下即可

2020-06-02 23:04:54 757

原创 Hibernate缓存机制

缓存通过Session查询数据库实体时，会将实体对象保存到内存中，下一次通过同一个session查询时，不在从数据库查询数据，而是从缓存中获取一级缓存sessionsession的get方法session缓存，会话级缓存API：evict清除会话中的某个对象clear：清除会话中的所有对象当用creatQuery、迭代器查询数据时，会将数据保存到内存中，当下次调用时依然还是会从缓...

2019-07-22 23:29:48 85

原创 Hibernate 基于mysql开发

-》下载hibernate版本：hibernate-release-5.4.3.Final.zipEsclipse开发添加相应的hibernate库到工程中具体库如下：该目录下我的全选了，有些是用不到的，懒的一个一个的选，jpa这个库我跟网上的不一样，怀疑是版本的问题新建表：create table grade( gid int primary...

2019-07-21 10:28:05 198

原创 Phoenix集成Hbase

概念网址：http://phoenix.apache.org/Apache Phoenix通过结合两者的优点，在Hadoop中为低延迟应用程序启用OLTP和运营分析：具有完整ACID事务功能的标准SQL和JDBC API的强大功能通过利用HBase作为其后备存储，来自NoSQL世界的后期绑定，读取模式功能的灵活性Apache Phoenix与其他Hadoop产品完全集成，如Spark，Hive...

2019-06-20 20:32:47 1364

原创 Hadoop序列化

序列化：系列化就是把内存当中的对象，转换成字节序列以便于存储和网络传输反序列化：就是将收到的字节序或硬盘的持久化数据转换成内存中的对象java的序列化Serializable不适用java的序列化的原因： java的序列化时一个重量级的序列化框架一个对象被序列化会附带大量的消息hadoop的序列化 Writable...

2019-06-15 16:12:32 138

原创 Mongodb学习之路

概念是一个基于分布式文件存储的开源数据库系统。查看数据库show databases；查看表show tables；服务端mongod客户端mongo查看数据db.douban_movie.findOne()与关系型数据库的比较解释说明-》创建数据库use 数据库名如果不存在，自动创建，如果存在自动切换-》创建集合（表）db...

2019-06-01 22:59:13 139

原创 Django简介

概念Django是一个高级Python Web框架，鼓励快速开发和干净，实用的设计。由经验丰富的开发人员构建，它可以解决Web开发的大部分麻烦，因此您可以专注于编写应用程序而无需重新发明轮子。它是免费和开源的安装方式1：pip install Django==1.11方式2：下载源码后进入到根目录执行： python setup.py install创建命令： Django-admin...

2019-05-11 23:49:09 172

原创 PyCharm规范设置

获取Python的注册码：http://idea.lanyus.com/设置模板启动PyCharmFile ->Settings -> Editor ->File and Code Templates。添加具体的模式如下：设置pep8规范执行优化右键python文件，点击ExternalTool->autopep8 自动格式化...

2019-05-09 22:04:12 937

原创 Redis简单介绍

安装配置启动服务客户端启动对数据的操作获取配置CONFIG GET *“dbfilename”“dump.rdb”“requirepass”“xxxxx1129”“masterauth”“”“cluster-announce-ip”“”“unixsocket”“”“logfile”“”“pidfile”“/var/run/redis_6379.pid”...

2019-05-07 22:35:01 161

原创 Logstash简介

概述Logstash是一个开源数据收集引擎，具有实时管道功能。Logstash可以动态地将来自不同数据源的数据统一起来，并将数据标准化到你所选择的目的地输入输入：采集各种样式、大小和来源的数据过滤器过滤器：实时解析和转换数据Logstash 能够动态地转换和解析数据，不受格式或复杂度的影响：1）利用 Grok 从非结构化数据中派生出结构2）从 IP 地址破译出地理坐标3）将 ...

2019-04-24 23:04:02 3214 1

原创 Elasticsearch基本用法

维基百科、GitHub-站内实时搜索

2019-04-14 22:53:50 6061 2

原创 SparkStreaming

SparkStreaming概述Spark Streaming可以轻松构建可扩展的容错流应用程序1)便于使用2) 容错3)Spark集成计算框架log-》flume-》kafka-》sparkStreaming-》hdfs || mysql -》hive||hbaseDstream数据源来源于分布式多台机器，多台计算Dframe 属于离散数据流，在streaming中以Dst...

2019-04-14 13:16:06 535

原创 Spark SQL介绍

概述： sparkSQL是spark用来处理结构化数据的一个模块提供了一个编程的抽象叫DataFrame作为分布式的查询引擎作用1）处理结构化数据2）先将非机构化的数据转换为结构化数据编程模型1）sql select * from user；2）DateFrame （DSL）HQL:将sql转换为mr任务SparkSql将sql转换为rdd任务特点：容易整合Spar...

2019-04-13 22:17:34 219

原创 Kafka 介绍（二）

图中介绍1主要是回调函数，2回调函数处理的事情，3 发给消费者的数据消费则API：生产者：消费者：拦截器：实现一个接口：ProducerInterceptorkafka-stream接口实现：Processor的方法数据清洗，针对生产的数据金子那个增、减数据...

2019-04-08 15:30:50 70

原创 Scala学习之路

-》Scala简介-》Scala 版本：scala-2.12.4语音编译执行扩展名 java javac java java scala scalac scala scala -》数据类型java scala byte/char/short/int/long/float/double/boolean/...

2019-04-08 09:53:00 863

原创 QT学习之路

哎，欠下的债迟早要还的，其实之前学习过这个，只是当时记不住，后来也没从事界面相关的工作，就慢慢的遗忘了，现在再拾起来。QT下载：qt-opensource-windows-x86-5.10.0.exeQT安装参考《https://blog.csdn.net/ruyulin/article/details/78912341》QT运行QApplication 记住即可信号与槽conn...

2019-04-06 23:08:36 242

原创 Sqoop1介绍和简单实用

# 概述：Apache Sqoop（TM）是一种工具，用于在Apache Hadoop和结构化数据存储（如关系数据库）之间高效传输批量数据。安装sqoop-1.4.7最新的稳定版本是1.4.7（下载，文档）。Sqoop2的最新剪辑是1.99.7（下载，文档）。请注意，1.99.7与1.4.7不兼容且功能不完整，不适用于生产部署。# # 配置 sqoop-env.sh...

2019-03-31 22:46:35 288

原创 Hive概述与应用

1 概念：Apache Hive™数据仓库软件有助于使用SQL读取，编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。数据计算：mapreduce 分布式计算 -》难度大 hive -》sql语句简化开发，减少学习成本2 优缺点优点： 1）操作接口采用了sql 简...

2019-03-31 16:05:12 79

原创 Storm核心组件介绍

Nimbus：主控节点用于接收，提交任务，来分配集群任务，集群的监控Zookeeper：存储storm集群的数据存储、心跳、集群状态Nimbus任务分配到supervisor分组策略1）fields Grouping 按照字段分组，相同字段发送到同一个task中2）shuffle Grouping 随机分组轮询分组、随机分发tuple，保证每个bolt中的tup...

2019-01-13 20:17:22 408

原创 Storm概述以及集群搭建

Apache Storm是一个免费的开源分布式实时计算系统。 Storm可以轻松可靠地处理无限数据流，实现Hadoop对批处理所做的实时处理。 Storm非常简单，可以与任何编程语言一起使用，并且使用起来很有趣！ Storm有许多用例：实时分析，在线机器学习，连续计算，分布式RPC，ETL等。风暴很快：一个基准测试表示每个节点每秒处理超过一百万个元组。它具有可扩展...

2019-01-13 13:24:15 107

原创 Hbase -API

构建Maven工程：Pom文件添加依赖：pom.xml<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> ...

2019-01-13 11:29:11 166

原创 Flink应用

概念：Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。在这里，我们解释Flink架构的重要方面Flink特点1）mapredue2）store3）spark适用于所有企业，不同企业有不同的业务场景，处理数据量，模型不一样处理无界和有界数据...

2019-01-13 11:21:33 212

原创 Kafka知识点（一）

概念：ApacheKafka®是一个分布式流媒体平台地址：http://kafka.apache.org/功能介绍：1）流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。 Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建转换或响应数据流的实...

2019-01-08 23:02:12 315

原创 HBase

概述；Hadoop数据库，是一个分布式，可扩展的大数据存储。当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的，分布式的，版本化的非关系数据库，模仿Google的Bigtable：Chang等人的结构化数据分布式存储系统。正如Bigtable利用Goo...

2018-12-29 23:03:49 140

原创 Azkaban学习之路

概述：Azkaban是在LinkedIn上创建的批处理工作流作业调度程序，用于运行Hadoop作业。Azkaban通过作业依赖性解决订单，并提供易于使用的Web用户界面来维护和跟踪您的工作流程特点：1）提供可视化界面--web界面2）工作流->jar包3) 设置任务间的关系4）权限设置5）模块化6）随时启停任务7）课查看日志记录兼容任何版本的Hadoo...

2018-12-28 20:16:09 6442

原创 HIVE压缩

1）map-》开启输出压缩功能：set hive.exec.compress.intermediate = true; -》开始map压缩功能： hive (mongdb)> set mapreduce.map.output.compress;mapreduce.map.output.compress=falsehiv...

2018-12-23 21:23:49 99

原创 HIVE自定义函数

-》自定义函数1)创建工程,加载hive的依赖包2）编写代码，需要继承UDF3）打包 export jar file4）双传jar包到linux目录下5）启动hive6）add jar jar路径 //不要加引号add jar /root/lower.jar7）关联到hive中create temporary function 自定义函数名 as '包的函...

2018-12-23 20:47:09 243

原创 Hive基本使用（二）

增加头信息增加配置<property> <name>hive.cli.print.current.db</name> <value>true</value></property><property><name>hive.cli.print.header</name&...

2018-12-22 20:52:06 1725

原创 Hive基本使用

基本操作1)查看数据库show databases；2）切换数据库use mongdb；3）查看表show tables；4）创建表create table movie_world(id int, name string);5)插入数据insert into movie_world values(1, "1942");6)删除表结构drop tab...

2018-12-21 21:50:16 827

原创 org.apache.zookeeper.KeeperException$ConnectionLossException: KeeperErrorCode = ConnectionLoss for /

解决方案：检查下各自的端口号优先使用zkCli.sh -server ip:port看下各个客户端能不能起来我的端口号不是默认的，处理第一台时2181 其他的是2281 2381 ，程序里改掉后可以了...

2018-12-19 23:24:01 1316

原创 Zookeeper概述

1）概念： ZooKeeper是一种集中式服务，用于维护配置信息，命名，提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的服务，应用程序最初通常会吝啬它们，这使得它们在变化的情况下变得脆弱并且难以管理。即使正确完成，这些服务的不同实现也会在部署应用程序时导致管理复杂性2）...

2018-12-19 22:05:44 127

原创 Exception in thread "main" java.lang.IllegalArgumentException: The document is really a OOXML file

Exception in thread “main” java.lang.IllegalArgumentException: The document is really a OOXML fileat org.apache.poi.hwpf.HWPFDocumentCore.verifyAndBuildPOIFS(HWPFDocumentCore.java:126)at org.apache....

2018-12-16 22:57:25 10496 10

原创 Flume简介

flume概念：apache Flume 是一个从可以收集例如日志，事件等数据资源，并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务，或者数集中机制。flume具有高可用，分布式，配置工具，其设计的原理也是基于将数据流，如日志数据从各种网站服务器上汇集起来存储到HDFS，HBase等集中存储器中。作用：主要用来采集数据flume架构：source：数据源channe...

2018-12-16 17:31:32 180

原创 Spark基础概念

什么是Spark？Spark的特点和结构 1、什么是Spark？ Spark是一个针对大规模数据处理的快速通用引擎。类似MapReduce，都进行数据的处理 2、Spark的特点：（1）基于Scala语言、Spark基于内存的计算（2）快：基于内存（3）易用：支持Scala、Java...

2018-12-15 23:35:35 521

原创 git的安装

linux下git安装yum install -y git git init[root@Master git]# git initInitialized empty Git repository in /opt/git/.git/git ls-filestest01.txt[root@Master git]# git ls-files --stage100644 d536...

2018-12-13 21:33:45 154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Supper宝宝 CSDN认证博客专家 CSDN认证企业博客

码龄12年

IP 属地：上海市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

44: 原创

12万+: 周排名

197万+: 总排名

4万+: 访问

: 等级

888: 积分

7: 粉丝

11: 获赞

13: 评论

23: 收藏

私信

关注

热门文章

分类专栏

最新评论

Elasticsearch基本用法
嗨啵: 你标题中的单词拼写错误，多了个“e”
Exception in thread "main" java.lang.IllegalArgumentException: The document is really a OOXML file
Supper宝宝: 转了可以就行，我就用了一下，后来就没继续弄了
Exception in thread "main" java.lang.IllegalArgumentException: The document is really a OOXML file
菜鸟笔记本回复 Supper宝宝: 换了也报错，用这种方式转的 https://blog.csdn.net/qq_25983579/article/details/108278664 [/code]
Exception in thread "main" java.lang.IllegalArgumentException: The document is really a OOXML file
菜鸟笔记本回复先订个小目标: 换了也报错！[code=java] @Test void contextLoads() throws Throwable{ final String path = "C:\\Users\\info\\Desktop\\text\\"; final String file = "1、xxx-旧版.docx"; InputStream input = new FileInputStream(path + file); HWPFDocument wordDocument = new HWPFDocument(input); WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter( DocumentBuilderFactory.newInstance().newDocumentBuilder() .newDocument()); wordToHtmlConverter.setPicturesManager(new PicturesManager() { public String savePicture(byte[] content, PictureType pictureType, String suggestedName, float widthInches, float heightInches) { return suggestedName; } }); wordToHtmlConverter.processDocument(wordDocument); List pics = wordDocument.getPicturesTable().getAllPictures(); if (pics != null) { for (int i = 0; i < [/code]
Exception in thread "main" java.lang.IllegalArgumentException: The document is really a OOXML file
Supper宝宝: 下个4.0.0的，我的是4.0.1会报错

最新文章

提示

确定要删除当前文章？

取消删除