- 博客(46)
- 资源 (1)
- 收藏
- 关注
原创 linux慎用 rm -rf
注意:rm -rf命令后面不能加“/”,否则它会把你的系统文件全部删除,在此着重关注一下! 如果你接触过linux,肯定没少听过rm -rf的故事,这个恐怖的命令执行后到底会产生什么样的效果呢?接下来就带大家在虚拟机中演示一下。 注意:::一定不能在生产环境中执行此命令,否则没有后悔药可买的! 因此平时操作的过程中要养成良好的习惯,尽量不要用rm命令,可以...
2018-11-21 12:01:10 668
原创 pyspark初学含义
如果使用jupyter调试pyspark程序,可以配置spark.sql.repl.eagerEval.enabled选项,可以像pandas一样直接执行df即可查看数据(不需要手动调用show函数):
2023-07-07 09:47:47 198
原创 idea无法显示scala插件怎么办
新安装idea,无论怎么搜plugin这里都没有scala,后来有帖子说,项目中没有scala文件,但是没说具体怎么弄。后来想了一下,在项目中新建一个文件,后缀改为.scala,果然这个出现了,具体如下:新建了这个.scala文件...
2022-01-20 17:32:23 1415
原创 深度实践SPARK机器学习_学习笔记_第二章2.4探索数据1
2.4.1 数据统计信息schemauser.describe("userid","age","gender","occupation","zip").show()
2022-01-09 21:03:55 1340
原创 【如何把hive表中的数据放入模型中去训练】
网上的都是使用txt导入模型。如下:Classification and regression - Spark 2.2.0 Documentational data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")// Automatically identify categorical features, and index them.// Set maxCategories so feature
2021-12-27 11:16:56 219
原创 scala加工特征遇到数组越界问题解决
1.在scala加工模型特征过程中,libsvm形式的数据报错内容:executor 40): java.lang.ArrayIndexOutOfBoundsException: 1判断方法:如果部分样本可以跑通,全量数据无法跑通,99%的概率为数据问题。比如分隔符错误划分特征,把不是特征的字段分割为特征。感谢cong哥~...
2021-12-06 16:08:24 312
原创 本地运行报错 java.lang.ClassNotFoundException: org.apache.spark.SparkConf
报错1:本地运行scala,报如下错误:java.lang.ClassNotFoundException: org.apache.spark.SparkConf,或调试:在pom文件中注掉红色字体一行 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_${scala.version...
2021-11-30 10:30:46 3512 2
转载 type struct和struct
报错内容:Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: Column features must be oftype struct<type:tinyint,size:int,indices:array<int>,values:array<double>> but was actuallystruct<type:tinyint,size
2021-11-29 23:36:53 616
原创 如何txt数据导入到hive表中
报错1:Error: java.io.FileNotFoundException: Path is not a file背景:建orc表报错1 FIELDS TERMINATED BY '\t'STORED AS ORCTBLPROPERTIES ('orc.compress'='SNAPPY');解决方法:修改表格式为text表 FIELDS TERMINATED BY '\t' stored as textfile;语句:load data inpath 'hdfs:&a...
2021-11-29 14:43:10 2589 2
原创 scala特征加工中的报错记录和调试
错误1:You provided indices and values, which exceeds the specified vector size 13错误1:va.lang.IllegalArgumentException: requirement failed: You provided 262 indic分析:特征数量不匹配,特征中的和在计算过程中计算的不一致,检查代码特征数量计算是否有错误错误2:java.lang.NumberFormatException: For input
2021-11-26 10:07:24 1344
原创 关于empty collection的报错 scala
Exception in thread "main" java.lang.UnsupportedOperationException: empty collection整了很久,mark一下,是因为RDD里面没有数据,报这个错误。
2021-07-19 09:20:53 696 1
原创 初学Scala如何调试代码——关于ScalaWorksheet的使用
1.如何进入ScalaWorksheet使用idea,file -》 new -》ScalaWorksheet,如下图:2.如何调试调试语句如下:zipval symbols = Array("[","-","]")val counts = Array(2,5,2)val pairs = symbols.zip(counts)for((x,y) <- pairs) Console.print(x * y)运行结果:symbols: Array[String]
2021-07-09 11:11:18 429
原创 fondFirstNegative是scala中的一个函数吗
import scala.collection.mutable.ArrayBufferval a = ArrayBuffer[Int]()a += (1,2,3,4,5,-1,-3,-5,-7)
2021-05-28 14:31:28 48
原创 hive中时间戳和日期相互转化
select distinct unix_timestamp(‘2011-12-07 13:01:03’);select distinct from_unixtime(1323234063,‘yyyy/MM/dd HH:mm:ss’) ;
2021-04-20 17:20:52 1660
原创 scala打包
非常感谢小伙伴帮我调bug,虽然没有当面感谢,但很感动在聪哥的指导下,开始打包;执行mvn -U package试试原因是手动打包xgb失败,报错:Caused by: java.lang.ClassNotFoundException: ml.dmlc.xgboost4j.scala.spark.XGBoostClassifier先想想mvn -U package怎么写?mvn -U model.xgbmodelmvn -U -X model.xgbmodel报错:[Help 1] htt
2021-03-04 01:05:54 433 2
原创 Mac安装Scala、idea基本操作
Mac 查找java安装路径/usr/libexec/java_home -V2.打开配置文件open .bash_profile3.配置Scala和java配置文件(参考其他链接)export SCALA_HOME="/路径"PATH="$PATH:/路径"Export JAVA_HOME=/路径4.查看java是否安装成功java -version...
2021-02-28 19:09:40 567
原创 Spark sql :load和save操做--spark学习笔记之一
对于spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作主要用于将DataFrame中的数据保存到文件中。scala实现:package **.tag.testimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}.
2020-06-03 16:55:22 429
原创 如何提交jar包到集群上执行?如何把电脑本机路径的文件上传到服务器上
如何提交jar包到集群上执行?spark-submit --class 包名+类名 /home/****/myScala.jar> rizhi.txt其中:spark-submit 是命令–class 包名+类名, 包名为jj.tag.test 类名为 DataFrameOperation>rizhi.txt 是把日志打在rizhi.txt文件中*如何将电脑本机路径的文件上传的服务器上?hadoop dfs -put /home/**** hdfs://****其中
2020-06-03 14:34:58 309
原创 验数时需要去掉分隔符前后在数据,怎么办?
在这里插入图片描述1000000#食品饮料#136.4352001841384,想用电子表格提取#前中后的字符串:step1:=MID(H5,FIND("#",H5)+1,50)得到结果食品饮料#136.4352001841384step2:=MID(I5,FIND("#",I5)+1,50)得到结果136.4352001841384step3:=LEFT(H5,6) 这是为了取出带一个分隔符的字符串step4:=IF(ISERROR(FIND("#",L5)),L5,LEFT(L5,
2020-05-15 16:26:17 158
原创 scala开发新建文件,不显示scala class
scala开发新建文件,不显示scala class首先,鼠标选定项目,单击右键,,其次,选择Add FrameWorks Support,弹出第二张图,选择scala。图片展示如下:(改方法仅限配置好plugin,选择文件夹为source之后还不出现scala class的情形)欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们
2020-05-11 15:38:08 397
原创 如何将hive中字符串解析(字符串的连接、解析)
场景:(1)将表中的字段转化成json数组,合并列,然后再合并行。建测试表,1315 、11729为表中某字段的值分属于不同的行,123、456为另一字段的对应行数字。准备测试数据,样例如下:[{"c1":"1315","c2":"123"},{"c1":"11729","c2":"456"}]。(2)将上述样例解析为表中的字段值1315、123。1.准备测试数据的方法:1)用:连接s...
2019-08-16 14:45:33 2729
转载 深度学习中Multinoulli分布
Multinoulli分布Multinoulli 分布是多项式分布(multinomial distribution)的一个特例。 多项式分布是{0; : : : ; n}k 中的向量的分布,用于表示当对 Multinoulli 分布采样 n 次时 k 个类中的每一个被访问的次数。很多文章使用 “多项式分布’’ 而实际上说的是 Multinoulli 分布,但是他们并没有说是对 n = 1 ...
2019-08-05 10:26:22 2452
原创 跟老齐学pythonP127 2.5.1 做猜数字游戏代码调试
作为图书发布,我觉得最基本的标准是应该保证代码正确如果按原书代码执行,则报错如下:TypeError: '>' not supported between instances of 'str' and 'int'作为初学者磨灭了学习兴趣,还需要去解决问题。之后在代码第5行,做字符类型转换,把输入的字符类型由字符串转换为整数intimport randomi = 0num =...
2019-07-11 18:15:14 147
原创 跟老齐学python数据分析学习笔记(之一)
第一章 numpy基础和应用1.1 数组对象基础1)numpy版本查询import numpy as npnp.__version__2)数组元素的类型,新建数组:data = np.array([1,2,3,4,5])type(data) --查看数组类型dir(data) --查看data.dtype 查看数组元素类型3)根据指定类型生成新数...
2018-12-07 18:07:55 804
原创 跨集群拷贝表
hadoop distcp –m 200 -update –skipcrccheck /user/集市名称/数据库名称/table_a hdfs://BJHTYD-Hope-27-202.hadoop.jd.local:8020/user/集市名称/数据库名称/table_a...
2018-12-04 10:17:53 240
转载 [Shell]使用find命令查找最近修改过的文件
find命令:在指定的目录搜索文件常用的option:-name:指定文件名,或者使用“*.py”来指定文件的后缀名,如在/home目录下搜索所有py文件 [cpp] view plain copyfind /home -name '*.py' -type:指定要搜索的文件类型,常见的文件类型有:b表示块设备,c字符设备,d文件目录,f普通文件等,例如在/dev目录下搜索...
2018-12-04 10:17:00 1551
原创 HIVE简明教程学习笔记(一)——数据库及表的操作HIVE DDL
1.创建数据库create database if not exists aa_db;2.查看数据库定义describe database aa_db;3.查看数据库列表show databases;4.删除数据库drop database if exists testdb cascade;**删除数据库时,如果库中存在数据表,是不能删除的,要先删除所有表,然后删除数据库。添加ca...
2018-11-21 11:00:33 198
原创 修改表属性、注释及分区情况
1.修改表的属性,内部表和外部表;ALTER TABLE tablename SET TBLPROPERTIES ('EXTERNAL'='TRUE'); 2.修改表的字段注释;alter table tablename change column filedname `filedname` string COMMENT '';3.删除分区alter table tab...
2018-09-10 16:04:55 1203
原创 如何将txt文件用shell拆分成多个?
1.(实测)按行拆分txt文件 (将50,000,000行的dddd.txt文件拆成5个文件,每个文件10,000,000行)split -l 10000000 dddd.txt aa(aa为拆分文件的前缀-可选)2.其他可以参考如下内容(split --help查询到的内容):Usage: split [OPTION]... [INPUT [PREFIX]]Output ...
2018-09-05 11:43:28 8151 2
转载 实现Xshell断开连接情况下Linux命令继续执行(nohup命令)
实现Xshell断开连接情况下Linux命令继续执行1、将原命令语句改为:nohup 命令语句 &2、回车执行,再回车,窗口中会显示一个进程号3、如果中途想关闭,可执行:kill -9 进程号。如果想查看命令执行情况,可执行:cat nohup.out 转自https://www.cnblogs.com/zhangtianyuan/p/7098620.html...
2018-08-22 17:51:06 6539
原创 hive编程指南学习笔记之二:hive数据库及其中的表查询
show databases; /*查看数据库*/show tables in dbname; /*查看数据库中全部的表*/show tables ‘put.*'; /*查看当前数据库中以"put"开头的表*/sh...
2018-05-09 18:16:13 206
原创 hive编程指南学习笔记之一:建表语句以及分隔符定义
/*创建包括基本数据类型string\float,以及集合数据类型array、map 、struct的表,并指定表中的列、元素、map中键值之间的分隔符很好的一个例子。*/create table employees ( name string, salary float, subordinates array<string>, deductions map&l...
2018-05-09 17:47:55 1169
原创 hadoop中如何把已知路径的文件放在指定目录下?
小白第一次写这个命令,同事热心指导,非常感谢。总结如下:第一步,进入指定目录,cd [指定文件目录];第二步,在该 目录下,执行 hadoop fs - get [已知路径]第三步,ll查看是否成功。第四步,如何将文件的格式改为 .txt? 并下载? a.改文件格式:mv [原文件名] [重新命名后文件名如0000.txt]; b.sz -...
2018-04-28 15:27:01 2651
转载 Mysql数据库安装过程中忘记密码
1.按照如下链接安装mysql数据库:http://www.jb51.net/article/134181.htmmysql 5.7.21 winx64安装配置方法图文教程1、将下载好的mysql压缩包解压到安装目录下2、新建文件 my.ini,放置到mysql安装目录下,内容如下:[mysql] # 设置mysql客户端默认字符集 default-character-set=utf8 [m...
2018-02-26 14:30:10 996
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人