企鹅席地而坐-CSDN博客

原创 linux通过screen离线运行程序、训练模型

安装：1.在线(base) [root@slave2 ~]# yum -y install screen2.离线：查看系统版本(base) [root@slave2 ~]# cat /etc/redhat-release然后在http://www.rpmfind.net/linux/rpm2html/search.php?query=screen下载自己需要的版本,然后安装rpm...

2020-04-14 12:41:17 793

原创 websocket连接失败！！

连接socket的时一定要把url对上：我的127.0.0.1就是localhost如果tomcat配置的是那这里也要改成

2020-04-03 18:03:46 5837 2

原创 Linux Centos7.5安装tensorflow

当前环境：centos7.5python3.7.6anaconda3安装anaconda： https://blog.csdn.net/ychgyyn/article/detai/82258136添加tensorflow环境conda create -n tensorflow python=3.7激活tensorflow环境conda active tensorflow进...

2020-03-24 15:07:34 474

原创 storm本地模式运行成功但不生产文件结果，ERROR o.a.s.d.s.ReadClusterState - Failed to Sync Supervisor

在local模式下出现了这个错误，百度得到的是版本信息不符合，但是local怎么会不对呢？解决：将休眠时间调大是主线程休眠的时间太短了，休眠10s，而此时storm还没有初始化完成，所以导致还没开始就结束了解决方案：将休眠时间调高，让程序可以正常执行...

2020-03-15 15:09:06 632

原创 word中优雅的插入代码块

打开 http://www.planetb.ca/syntax-highlight-word将代码复制至code块里选择编译语言，然后show highlights将新页面的代码复制至word即可

2019-12-23 14:07:51 188

原创 idea写spark程序时过滤掉INFO信息

编写spark程序时，INFO信息导致过多导致输出非常不好找，因此给他过滤掉方法一：在代码中加入val spark = SparkSession.builder().appName("xx").master("local").getOrCreate()val sc = spark.sparkContextsc.setLogLevel("ERROR")//log中只会出现error级别的...

2019-12-17 15:05:38 832

原创 sparkSQL练习，分析处理篮球运动员数据

题目：(1) 分析2016年 ①②③④ 属性 z-score 排名package zhimport org.apache.spark.sql.SparkSession/** * * @author smallheroic * @Date 2019-12-12 15:18 * */object homework1 { case class nba(Age:Int,...

2019-12-16 14:28:05 2384 1

原创 Command line is too long. Shorten command line for OOP or also for Application default configuration

idea运行代码时出现解决：在.idea文件夹里的workspace.xml中的标签下添加：<property name="dynamic.classpath" value="true" />

2019-12-14 16:39:34 414

原创 sparkcore练习_2,各种算子的练习

数据集http://grouplens.org/datasets/movielens/MovieLens 1M Dataset相关数据文件users.datUserID::Gender::Age::Occupation::Zip-codemovies.datMovieID::Title::Genresratings.datUserID::MovieID::Rating::Tim...

2019-12-12 22:11:26 337

原创 idea通过maven创建scala项目及编写spark

file->new project->maven->填写gva：配置maven版本，如果配置了镜像则读取自己的setting.xmlnext->finish!!! scala版本一定要对应改成自己安装的版本，dos模式：scala --version将自动生成的.scala文件删除：file->project structurespa...

2019-12-12 16:36:16 318

原创解决rdd无法调用toDF及 value toDF is not a member of org.apache.spark.rdd.RDD[names]

编译代码object homework01 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("ch2homework01").setMaster("local[4]") val sc = new SparkContext(conf) val sp...

2019-12-10 13:58:41 1477

将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去，也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为 reduce-side-join。如果其中有张表较小的话，我们则可以自己实现在 map 端实现数...

2019-12-10 11:39:47 276

原创 spark scala读取文件选取特定列

spark scala读取文件选取特定列wordcount.txt:a,1c,2a,1选取最后一列//选取特定列.val data=sc.textFile("file:///E://table//wordcount.txt").flatMap(_.split("\n")) //按换行符分割文件，把文件分成一行行的.map{ line=> var splits=li...

2019-12-08 18:22:15 3323

原创 sparkcore练习_1,RDD转化为RDD[LabelPoint]和map-side-join以及将结果（RDD/dataframe）输出到一个文件保存

数据集net.gz为网络流量数据，数据集每条记录展现每个连接的信息，最后一列为攻击的标签(1) 请统计，出现的攻击类型对应的攻击次数(2) 为了输入给算法，请将RDD 类型转换为RDD[Labelpoint]（ Labelpoint为Spark Vector）(1)不使用labelpoint：package homework.chapter2import org.apac...

2019-12-08 18:12:25 573

原创 Spark运行模式的区别

local ：就是单机，jobs都在这台机器上运行。standalone：就是说多台机器组成一个集群，然后jobs可以分在多台机器上运行yarn：就是说spark程序运行在yarn上client ：就是Jobs在不同机器运行，然后结果返回到这台机器上。cluster ：就是说jobs在不同机器上运行，结果返回到集群中的某一台机器上。...

2019-12-06 17:32:59 162

原创 scala一行代码实现wordcount解析

sc.textFile("/data/wordcount.txt").flatMap(.split(" ")).map(word=>(word,1)).reduceByKey(+).sortBy(._1,false).collect().foreach(println)这个file读的是hdfs文件,读文件的区别sc.textFile(args(0)) 读取这个变量地址指定的文件....

2019-12-06 10:36:04 454

原创读取文件时，读取hdfs集群的文件和本机文件的scala代码写法

读取hdfs集群的文件val file=sc.textFile("/data/wordcount.txt")不能写成：val file=sc.textFile(“hdfs:IP地址///data/wordcount.txt”)读取本机文件val file=sc.textFile(“file:///data/wordcount.txt”)...

2019-12-06 10:02:31 672

原创解决idea通过maven创建scala项目，自动生成的App.scala报错

直接删除自动生成的scala文件main里有一个test里有两个删了然后新建即可

2019-12-06 08:48:05 286

原创解决idea编写spark程序时，import org.apache.spark报错

问题描述导入spark程序时，spark显示不能识别此符号解决：去官网对应spark版本的压缩包，链接解压，既有jars目录

2019-12-05 18:06:08 19267 2

原创 R语言第五次实训,dplyr 、tidyr和lubridate处理数据

题目1：1.数据处理【只用SY-20150401.csv】将数据处理成每条数据处于一天中的第几个5分钟（说明： 00:00:01在第一个5分钟内， 00:10:13在第三个5分钟内），由于一天可能多次乘坐地铁，根据卡号和进站时间，查询最近出站的时间，作为本次出站时间。参考函数lubridate::hms， lubridate:: period_to_seconds。处理的最终结果： da...

2019-12-05 16:40:41 593

原创 R语言第六次实训,leaflet绘制地铁线路图

题目：使用leaflet绘制地铁线路图，要求1）图中绘制地铁线路2）各站点展示进站流量（08:00:00-08:05:00间的数据），流量的大小用标记的大小表示，并且提示线路、站点、流量的具体数值。Shenyang <- leaflet() %>%setView(lng=123.44,lat=41.81,zoom = 11) %>% addProviderTil...

2019-12-05 16:25:12 1205

原创解决idea中创建scala项目中maven-scala-plugin插件无法加载的问题

解决idea中创建scala项目中插件无法加载的问题解决方案先创建在用idea时由于自己使用的是老师给的pom，出现了始终飘红，无法下载解决方案在依赖下载中加上 <dependency> ...

2019-12-05 15:54:18 20735 4

sparkSQL数据 basketball.zip

sparkSQL练习数据集，用户应通过正当途径自CSDN下载资源，不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源，否则CSDN有权停止用户对下载资源的使用，并采取封禁账户、终止服务等措施。

2019-12-16

spaakcore练习_1第二题数据.zip

sparkcore练习_1第二题数据，用户应通过正当途径自CSDN下载资源，不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源，否则CSDN有权停止用户对下载资源的使用，并采取封禁账户、终止服务等措施。

2019-12-10

sparkcore1_1.corrected.gz

sparkcore1第一题数据集，用户应通过正当途径自CSDN下载资源，不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源，否则CSDN有权停止用户对下载资源的使用，并采取封禁账户、终止服务等措施。

2019-12-08

R语言第六次实训数据.zip

R语言第六次实训数据，用户应通过正当途径自CSDN下载资源，不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源，否则CSDN有权停止用户对下载资源的使用，并采取封禁账户、终止服务等措施。

2019-12-05

systation.csv

R语言第6次实训数据，用户应通过正当途径自CSDN下载资源，不得通过购买、借用其他用户账户、积分交易、用技术手段规避CSDN下载限制或其他不当方式下载资源，否则CSDN有权停止用户对下载资源的使用，并采取封禁账户、终止服务等措施。