自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (7)
  • 收藏
  • 关注

原创 SparkSQL读取MySQL数据库(pyspark版)

首先启动数据库,mysql -u root -p创建spark数据库,和一张student表测试使用mysql> create database spark;Query OK, 1 row affected (0.02 sec)mysql> use spark;Database changedmysql> create table student (id int(4), name char(20), gender char(4), age int(4));Query O

2022-03-25 10:16:05 4414

原创 java.sql.SQLException: The server time zone value ‘Öйú±ê׼ʱ¼ä‘ is unrecognized or represents more

连接mysql出现报错py4j.protocol.Py4JJavaError: An error occurred while calling o28.load.: java.sql.SQLException: The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver

2022-03-25 10:06:38 3102

原创 pyspark使用流程以及遇到的问题(windows版)

本文所使用方式为在windows独立环境中进行pyspark的开发,如需链接hdfs还是要借助虚拟机的,主要包含以下几个步骤一、windows中的环境配置1、java的安装这里建议大家选择版本较低的java版本,如果版本较高可能会出现不兼容问题,Java和hadoop的安装流程我之前的文章里面有,大家可以看一下,这里附上链接hadoop安装2、hadoop的安装hadoop安装链接同上3、scala的安装先下载scala的压缩包,依然是官网地址,建议2.11的版本,因为后续我们使用的s

2022-03-23 15:31:57 7047

原创 python3.7配置(linux版)

文章目录Python3.7安装**注意**一定严格按照流程,最好配置前备份虚拟机,python安装后出问题,卸载比较麻烦1、安装依赖包2、下载python3.7.0源码,根据需求下载1)下载2)解压Python-3.7.0.tgz3)建立一个空文件夹,用于存放python3程序4)执行配置文件,编译,编译安装5)建立软连接6)测试一下python3Python3.7安装注意一定严格按照流程,最好配置前备份虚拟机,python安装后出问题,卸载比较麻烦1、安装依赖包1)首先安装gcc编译器,gcc有些

2022-03-23 15:02:33 2388

原创 Spark单机配置(linux版)

文章目录scala安装一、软件解压二、配置环境变量三、验证Spark安装一、解压二、添加环境变量三、修改启动变量文件四、启动Spark五、验证scala安装本文中所有软件都以单机模式配置,提供测试学习使用一、软件解压cd /usr/local/soft/下载压缩包https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz解压​ tar -zxvf scala-2.13.1.tgz重命名mv scala-

2022-03-23 10:33:23 837

原创 pyspark导入,解决pyspark无法直接使用问题(linux版)

文章目录scala安装一、软件解压二、配置环境变量三、验证Spark安装一、解压二、添加环境变量三、修改启动变量文件四、启动Spark五、验证Python3.7安装**注意**一定严格按照流程,最好配置前备份虚拟机,python安装后出问题,卸载比较麻烦1、安装依赖包2、下载python3.7.0源码,根据需求下载1)下载2)解压Python-3.7.0.tgz3)建立一个空文件夹,用于存放python3程序4)执行配置文件,编译,编译安装5)建立软连接6)测试一下python3Pycharm破解解压压缩包

2022-03-23 10:31:33 4017

原创 Spark基础-RDD、DataFrame、DataSet转换方式以及异同

文章目录1. RDD转换成DataFrame的两种方式2.DataSet的创建3.类型之间的转换总结4.RDD、DataFrame、DataSet三者的共性与区别共性:区别:RDD:DataFrame:Dataset:1. RDD转换成DataFrame的两种方式rdd可以通过下面这种方式得到DataFrame:valpeopleDF = peopleRdd.map(_.split("")).filter(_.length==2).map(paras=>(paras(0),paras(1).t

2022-03-04 09:28:35 2864

原创 spark-streaming-kafka配置流程(idea版)

1.创建maven项目首先创建一个maven工程,具体流程可查看这篇文章创建Maven项目2.接下来是pom文件的编辑这里我们用的spark版本是2.4.5,scala是2.12,所以要选择spark-streaming-kafka-0-10_2.12<dependencies> <dependency> <groupId>org.apache.spark</groupId> <a

2022-03-01 09:50:08 1574

原创 maven项目jar包缺失

创建的maven工程有些jar包无法在pom文件中直接下载,怎么办可以尝试一下手动导入,访问maven的官网maven官网直接搜索自己想要下载的jar包名比如spark-streaming-kafka找到自己需要的版本,直接进行下载有了jar包之后,接下来手动导入到我们的项目中以idea为例,点击project structure加号里面点击java,这里最好把需要添加的jar包放在纯英文的路径下,手动选择我们下载的jar包就可以了添加完记得apply应用...

2022-03-01 09:32:16 1938

原创 SLF4J-jar包冲突解决方法

2022-02-25 11:08:38 1812

原创 linux关闭防火墙

禁用防火墙:systemctl stop firewalld.servicesystemctl disable firewalld.service查看防火墙状态: systemctl status firewalld重启网络服务:service network restart 或systemctl restart network或者重启系统:reboot进行测试:ping www.baidu.com...

2022-02-25 10:46:52 597

原创 knowstname问题解决方法

在配置hadoop集群的过程中,如果遇到 Name or service not knowstname *****这种问题,大概率是配置文件出错,如图显示的是datanodes节点的启动问题,那么问题应该是在workers文件中遇到这个报错信息,可以在linux中检查自己的workers文件检查workers的文件格式如果格式为doc,需要更改文件格式为unix先使用yum指令下载工具yum install -y dos2unix下载完成后,改变workers文件格式dos2unix w

2022-02-25 10:45:50 1123

原创 基于python的阴阳师后台辅助

本文为搬运,我自身并没有使用过,大家感兴趣可以试一试Python 版本:Python 3.8模拟器:雷电模拟器(推荐)|网易 MuMu模拟器分辨率:1024*576网易 MuMu 显卡渲染模式:兼容(OpenGL)兼容 Windows 系统和 MacOS 系统(不太友好,发热严重且需要重新截图)个人使用顺序每周首先挂秘闻副本,每天三大地域鬼王,结界突破券满了挂突破,突破用完了挂御魂,大概 80-100 次左右御魂结界突破券会满,满了继续挂突破…思路:利用 adb 截图后,使用 open

2022-02-24 16:51:30 680

原创 问题解决Exception in thread “main“ java.lang.NoClassDefFoundError: scala/Product$class

在使用idea进行spark开发时遇到如下报错Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class at org.apache.spark.streaming.Duration.<init>(Duration.scala:22) at org.apache.spark.streaming.Seconds$.apply(Duration.scala:90) at streamingtes

2022-02-24 15:45:40 2478 3

原创 自然语言处理基础技术工具篇之TextBlob

TextBlob简介TextBlob是一个用Python编写的开源的文本处理库。它可以用来执行很多自然语言处理的任务,比如,词性标注,名词性成分提取,情感分析,文本翻译,等等。Github地址:https://github.com/sloria/TextBlob官方文档:https://textblob.readthedocs.io/en/dev/TextBlob实战安装:pip install textblob如果下载速度太慢,可以配置国内源安装:pip install textblob

2022-02-24 14:20:33 3278 3

原创 MySQL8安装配置流程

1.进入地址:https://dev.mysql.com/downloads/mysql/下载mysql-8.0.11-winx642.解压zip包,并将解压文件放入一个文件夹下,如图:3.配置环境变量(目的是为了避免在CMD窗口下操作时反复切换路径)在Path下添加 解压的mysql的bin目录路径如:D:\Program Files\mysql-8.0.11-winx64\bin4.编写配置文件我们发现解压后的目录并没有my.ini(或my-default.ini)文件,没关系可以自行

2022-02-24 14:17:06 460

原创 Spark在不同集群中的运行架构

Spark在不同集群中的运行架构Spark注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式。部署在单台机器上时,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行;当以分布式集群部署的时候,可以根据自己集群的实际情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式。Spark的各种运行模式虽然在启动方式、运行位置、调度策略上各有不同,但它们的目的基本都是一致的,就是在合适的位置安全可靠的根据用

2022-02-24 08:49:42 260

原创 报错:Failed to locate the winutils binary in the hadoop binary path解决方案

在windows中运行我懂maven项目出现报错Failed to locate the winutils binary in the hadoop binary path这代表这你的电脑上没有配置hadoop,具体可参考hadoop的配置文档:windows中hadoop配置流程按照流程配置完毕之后,重启一下电脑,就可以解决问题了...

2022-02-23 14:30:13 725

原创 windows安装hadoop流程

在windows中安装hadoop其实很简单,下面我们一起来看一下首先我们要下载一个hadoop的压缩包,hadoop-3.2.2这是hadoop的官网下载地址,也可以自行选择其他版本下载完成之后,解压到本地的文件夹中这里,因为我们安装的hadoop是安装在windows中的,所以我们需要在bin目录中添加一些新的文件,文件随着hadoop的版本变化,我把自己收集的压缩包分享给大家,大家可以自行下载各个版本winutils-master直接替换bin目录即可接下来,我们在电脑上配置一

2022-02-23 14:28:53 5438 2

原创 修改spark中显示日志等级

当我们运行spark-shell或者是开发spark项目时,运行结果总是会伴随很多的日志,影响我们对结果的查看Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties22/02/23 11:24:49 INFO SparkContext: Running Spark version 2.4.522/02/23 11:24:50 INFO SparkContext: Submitted applicat

2022-02-23 11:30:23 5764 2

原创 Spark快速上手-创建Maven项目

创建Maven项目1.1 增加Scala插件Spark由Scala语言开发的,所以本课件接下来的开发所使用的语言也为Scala,咱们当前使用的Spark版本为2.4.5,默认采用的Scala版本为2.12,所以后续开发时。我们依然采用这个版本。开发前请保证IDEA开发工具中含有Scala开发插件在idea的setting中,找到plugins,搜索scala,并进行安装,如果不安装插件,我们是无法在idea中创建scala文件的1.2 增加依赖关系修改Maven项目中的POM文件,增加Spark

2022-02-23 11:22:38 2142

spark-streaming-kafka-0-10-assembly_2.12-3.2.1.jar

资源共享,没有权限下载的私信

2022-03-01

hadoop-common-3.2.0.jar

hadoop-common-3.2.0.jar

2022-02-24

hadoop-auth-3.2.0.jar

hadoop-auth-3.2.0.jar

2022-02-24

commons-configuration2-2.1.1.jar

commons-configuration2-2.1.1.jar

2022-02-24

hadoop-hdfs-3.2.0.jar

hadoop-hdfs-3.2.0.jar

2022-02-24

apache-flume-1.7.0-bin.tar.gz.baiduyun

apache-flume-1.7.0-bin.tar.gz.baiduyun

2022-02-24

各个版本winutils-master

在windows中安装hadoop时所需的bin目录文件,包含从2.6.1到3.2.2版本

2022-02-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除