自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (6)
  • 问答 (1)
  • 收藏
  • 关注

原创 linux通过screen离线运行程序、训练模型

安装:1.在线(base) [root@slave2 ~]# yum -y install screen2.离线:查看系统版本(base) [root@slave2 ~]# cat /etc/redhat-release然后在http://www.rpmfind.net/linux/rpm2html/search.php?query=screen下载自己需要的版本,然后安装rpm...

2020-04-14 12:41:17 793

原创 websocket连接失败!!

连接socket的时一定要把url对上:我的127.0.0.1就是localhost如果tomcat配置的是那这里也要改成

2020-04-03 18:03:46 5837 2

原创 Linux Centos7.5安装tensorflow

当前环境:centos7.5python3.7.6anaconda3安装anaconda: https://blog.csdn.net/ychgyyn/article/detai/82258136添加tensorflow环境conda create -n tensorflow python=3.7激活tensorflow环境conda active tensorflow进...

2020-03-24 15:07:34 474

原创 storm本地模式运行成功但不生产文件结果,ERROR o.a.s.d.s.ReadClusterState - Failed to Sync Supervisor

在local模式下出现了这个错误,百度得到的是版本信息不符合,但是local怎么会不对呢?解决:将休眠时间调大是主线程休眠的时间太短了,休眠10s,而此时storm还没有初始化完成,所以导致还没开始就结束了解决方案:将休眠时间调高,让程序可以正常执行...

2020-03-15 15:09:06 632

原创 word中优雅的插入代码块

打开 http://www.planetb.ca/syntax-highlight-word将代码复制至code块里选择编译语言,然后show highlights将新页面的代码复制至word即可

2019-12-23 14:07:51 188

原创 idea写spark程序时过滤掉INFO信息

编写spark程序时,INFO信息导致过多 导致输出非常不好找,因此给他过滤掉方法一:在代码中加入val spark = SparkSession.builder().appName("xx").master("local").getOrCreate()val sc = spark.sparkContextsc.setLogLevel("ERROR")//log中只会出现error级别的...

2019-12-17 15:05:38 832

原创 sparkSQL练习,分析处理篮球运动员数据

题目:(1) 分析2016年 ①②③④ 属性 z-score 排名package zhimport org.apache.spark.sql.SparkSession/** * * @author smallheroic * @Date 2019-12-12 15:18 * */object homework1 { case class nba(Age:Int,...

2019-12-16 14:28:05 2384 1

原创 Command line is too long. Shorten command line for OOP or also for Application default configuration

idea运行代码时出现解决:在.idea文件夹里的workspace.xml中的标签下添加:<property name="dynamic.classpath" value="true" />

2019-12-14 16:39:34 414

原创 sparkcore练习_2,各种算子的练习

数据集http://grouplens.org/datasets/movielens/MovieLens 1M Dataset相关数据文件users.datUserID::Gender::Age::Occupation::Zip-codemovies.datMovieID::Title::Genresratings.datUserID::MovieID::Rating::Tim...

2019-12-12 22:11:26 337

原创 idea通过maven创建scala项目及编写spark

file->new project->maven->填写gva:配置maven版本,如果配置了镜像则读取自己的setting.xmlnext->finish!!! scala版本一定要对应改成自己安装的版本,dos模式:scala --version将自动生成的.scala文件删除:file->project structurespa...

2019-12-12 16:36:16 318

原创 解决rdd无法调用toDF及 value toDF is not a member of org.apache.spark.rdd.RDD[names]

编译代码object homework01 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("ch2homework01").setMaster("local[4]") val sc = new SparkContext(conf) val sp...

2019-12-10 13:58:41 1477

原创 spark中的map-side-join关联优化

将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-side-join。如果其中有张表较小的话,我们则可以自己实现在 map 端实现数...

2019-12-10 11:39:47 276

原创 spark scala读取文件选取特定列

spark scala读取文件选取特定列wordcount.txt:a,1c,2a,1选取最后一列//选取特定列.val data=sc.textFile("file:///E://table//wordcount.txt").flatMap(_.split("\n")) //按换行符分割文件,把文件分成一行行的.map{ line=> var splits=li...

2019-12-08 18:22:15 3323

原创 sparkcore练习_1,RDD转化为RDD[LabelPoint]和map-side-join以及将结果(RDD/dataframe)输出到一个文件保存

数据集net.gz为网络流量数据, 数据集每条记录展现每个连接的信息, 最后一列为攻击的标签(1) 请统计, 出现的攻击类型对应的攻击次数(2) 为了输入给算法, 请将RDD 类型转换为RDD[Labelpoint]( Labelpoint为Spark Vector)(1)不使用labelpoint:package homework.chapter2import org.apac...

2019-12-08 18:12:25 573

原创 Spark运行模式的区别

local :就是单机,jobs都在这台机器上运行。standalone:就是说多台机器组成一个集群,然后jobs可以分在多台机器上运行yarn:就是说spark程序运行在yarn上client :就是Jobs在不同机器运行,然后结果返回到这台机器上。cluster : 就是说jobs在不同机器上运行,结果返回到集群中的某一台机器上。...

2019-12-06 17:32:59 162

原创 scala一行代码实现wordcount解析

sc.textFile("/data/wordcount.txt").flatMap(.split(" ")).map(word=>(word,1)).reduceByKey(+).sortBy(._1,false).collect().foreach(println)这个file读的是hdfs文件,读文件的区别sc.textFile(args(0)) 读取这个变量地址指定的文件....

2019-12-06 10:36:04 454

原创 读取文件时,读取hdfs集群的文件和本机文件的scala代码写法

读取hdfs集群的文件val file=sc.textFile("/data/wordcount.txt")不能写成:val file=sc.textFile(“hdfs:IP地址///data/wordcount.txt”)读取本机文件val file=sc.textFile(“file:///data/wordcount.txt”)...

2019-12-06 10:02:31 672

原创 解决idea通过maven创建scala项目,自动生成的App.scala报错

直接删除自动生成的scala文件main里有一个test里有两个删了然后新建即可

2019-12-06 08:48:05 286

原创 解决idea编写spark程序时,import org.apache.spark报错

问题描述导入spark程序时,spark显示不能识别此符号解决:去官网对应spark版本的压缩包,链接解压,既有jars目录

2019-12-05 18:06:08 19267 2

原创 R语言第五次实训,dplyr 、tidyr和lubridate处理数据

题目1:1.数据处理【只用SY-20150401.csv】将数据处理成每条数据处于一天中的第几个5分钟(说明: 00:00:01在第一个5分钟内, 00:10:13在第三个5分钟内),由于一天可能多次乘坐地铁,根据卡号和进站时间,查询最近出站的时间,作为本次出站时间。参考函数lubridate::hms, lubridate:: period_to_seconds。处理的最终结果: da...

2019-12-05 16:40:41 593

原创 R语言第六次实训,leaflet绘制地铁线路图

题目:使用leaflet绘制地铁线路图,要求1) 图中绘制地铁线路2) 各站点展示进站流量(08:00:00-08:05:00间的数据),流量的大小用标记的大小表示,并且提示线路、站点、流量的具体数值。Shenyang <- leaflet() %>%setView(lng=123.44,lat=41.81,zoom = 11) %>% addProviderTil...

2019-12-05 16:25:12 1205

原创 解决idea中创建scala项目中maven-scala-plugin插件无法加载的问题

解决idea中创建scala项目中插件无法加载的问题解决方案先创建在用idea时由于自己使用的是老师给的pom,出现了始终飘红,无法下载解决方案在依赖下载中加上<!-- https://mvnrepository.com/artifact/org.scala-tools/maven-scala-plugin --> <dependency> ...

2019-12-05 15:54:18 20735 4

sparkSQL数据 basketball.zip

sparkSQL练习数据集,用户应通过正当途径自CSDN下载资源,不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源,否则CSDN有权停止用户对下载资源的使用,并采取封禁账户、终止服务等措施。

2019-12-16

spaakcore练习_1第二题数据.zip

sparkcore练习_1第二题数据,用户应通过正当途径自CSDN下载资源,不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源,否则CSDN有权停止用户对下载资源的使用,并采取封禁账户、终止服务等措施。

2019-12-10

sparkcore1_1.corrected.gz

sparkcore1第一题数据集,用户应通过正当途径自CSDN下载资源,不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源,否则CSDN有权停止用户对下载资源的使用,并采取封禁账户、终止服务等措施。

2019-12-08

R语言第六次实训数据.zip

R语言第六次实训数据,用户应通过正当途径自CSDN下载资源,不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源,否则CSDN有权停止用户对下载资源的使用,并采取封禁账户、终止服务等措施。

2019-12-05

systation.csv

R语言第6次实训数据,用户应通过正当途径自CSDN下载资源,不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源,否则CSDN有权停止用户对下载资源的使用,并采取封禁账户、终止服务等措施。

2019-12-05

javaWeb选择题,面试

这是javaweb的一些常见选择题型,适合新手上路,面试中也会有可能出现

2018-11-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除