自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(418)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 combineByKey 一点通

var rdd = sc.makeRDD(Array(("A",2),("A",1),("A",3),("B",1),("B",2),("C",1))) val collect: Array[(String, String)] = rdd.combineByKey( (v: Int) => v + "_", (c: String, v: Int) => c + "@" + v,//同一分区内 (c1: String, c2: String) ...

2022-02-16 10:40:06 715

原创 coalesce 影响task数量解决方法

coalesce算子不是suffle算子,在划分stage时不会把它分在一个独立的stage中,而它又明确指定了分区数,所以这个stage的分区数就由它确定了,如果目的是为了减少输出文件而合并分区,但是又不影响上一个stage的并行度,可以执行colesce(num,true)让coalesce发生shuffle,这样它的分区数就不会影响到上一个stage了但是会多发生一次shuffle...

2021-08-26 16:29:30 380

原创 xgboost面试小结

这几天面试,面了很多讲xgboost,自己也是半吊子,在这里总结一下考点1.error :bias和variance2.特征选择 与 特征构造:特征组合可以提升逻辑回归模型对非线性性数据的拟合能力。3.并行:树之间是必须串行训练的,但是树里的每个节点是可以串行训练的4.输出结果:每棵树的输出结果相加5.残差训练:正确值减掉输出值作为下一个样本的输入...

2021-08-26 16:27:35 323

原创 spark jobs 数量有什么决定?

参考:(6条消息) spark中job,stage,task之间的关系_mys_35088的博客-CSDN博客我猜,是由不相干的reduce的数量决定的,注意,是不相干,如果reduce之间有联系,那就是同一个job了。

2021-08-23 22:31:38 426

原创 pycharm 安装不了git,原因是目录不对

艹,坑死我算了,应该是这个目录C:\Program Files\Git\cmd\git.exe,之前我一直用的是git-bash那个,导致一直不对。

2021-08-17 17:54:48 4442

原创 scala + = 和 +=

scala> var a =1a: Int = 1scala> a + = 1 ^ error: ambiguous reference to overloaded definition, both method + in class Int of type (x: Char)Int and method + in class Int of type (x: Byte)Int match expected type...

2021-08-10 15:15:49 482

原创 gbdt,xgboost,lightgbm

Q1:xbg为啥快?所谓的并行,是指,每个特征算增益的时候,是并行算的,而不是每棵树是并行算的Q2:gbd的输入是什么?每棵树的输入是什么?回答这个问题,要明白,构建每个树,都是为了让总体的loss达到最小。对于mse,真实y值和前一个树的输出的差即所谓残差作为正好能让总体的loss最小,所以每个树正好是y值残差但是xbg,每个树的输入,还是原来的数值。但是在构建每个树的时候,至于叶节点的值,是最小化loss导出最大化信息增益然后导出每个节点的w值...

2021-08-06 14:22:41 110

原创 scala里的import scala.collection.immutable.HashMap import scala.collection.mutable

import scala.collection.immutable.HashMap这个map是个坑,很多op都不能用,比如put,+=(k->v),foreachimport scala.collection.mutable这个是好用的,我试过的操作都可以

2020-10-21 15:38:35 1058

原创 mysql 遇到的大坑,!= NULL 和 is not null

有屎以来最丑的坑:MySQL [general_growth]> select "d" != null ;+-------------+| "d" != null |+-------------+| NULL |+-------------+1 row in set (0.00 sec)MySQL [general_growth]> select "d...

2019-10-15 10:39:05 588 3

原创 idea中java class的签名设置

2019-09-30 10:15:54 3809

原创 sed 或运算 同时处理两个字符串 用\|,记住,一定要加上转移斜杠

finish_out0.000000 0.536274 b'63939' b'3418219'0.000000 0.058268 b'59920' b'7633987'0.000000 0.385762 b'250422' b'13985778'0.000000 0.034014 b'20789' b'13943778'0.000000 0.056284 b'223316' b'140...

2019-04-02 10:27:42 2828

原创 tar --exclude 的坑

晕,已解决# tar -cvzf test.tar.gz --exclude=test/005/ test# tar -cvzf test.tar.gz --exclude=test/005test这两个效果是绝对不一样的。、不要加斜杠啊啊啊啊啊啊啊啊啊tar -cvf deepfm.tar deepfm/ --exclude deepfm/model/wide_deep_x...

2019-03-31 16:04:02 4423 1

转载 因为一次时区问题闹的误会,尴尬

timestamp也可以直接被转换到UTC标准时区的时间:>>> from datetime import datetime>>> t = 1429417200.0>>> print(datetime.fromtimestamp(t)) # 本地时间2015-04-19 12:20:00>>> print(dat...

2019-03-01 11:22:57 259

原创 join用子查询

join 这种尽量不要和子查询,比如order by这种放在一起,在用大括号另选一个表

2019-02-14 11:21:55 1911

转载 scala Seq Array List 区别

seq()和array()Scala数组与Scala序列是兼容的 - 在需要Seq[T]的地方可由Array[T]代替。最后,Scala数组支持所有的序列操作。https://www.cnblogs.com/iceelor/p/6039088.htmlScala的Seq将是Java的List,Scala的List将是Java的LinkedList。https://zhidao.ba...

2019-01-24 11:53:04 14663 1

原创 连续join

 在实际工作中,很多情况下会用到外连接,尤其是做主页面的数据展示查询时,连续用到多个left join会很常见,这样的多个left join会怎么样执行呢,之前在网上查到的执行顺序是,顺序的从坐到右的连接表,例如有 a,b,c三张表的数据都需要查到,就需要进行连接查询,如 select *  from  a  left join b on a.id = b.id left join a.id = ...

2019-01-22 09:34:52 460

原创 xshell6 免费 免注册

https://www.netsarang.com/download/down_result.html 

2019-01-07 14:07:41 3309

转载 source 命令找不到

zz:https://blog.csdn.net/liuweihang/article/details/70049246执行shell报错source:notfound2017年04月11日 11:14:05 _vliu 阅读数:2100更多个人分类: Linuxsudo sh rsyncclient.shrsyncclient.sh ---------source ${A...

2018-10-29 15:31:47 11702 1

原创 机器学习小结

关于svm和神经网络的恩爱情仇两者都是在寻找一个可分割的超平面,单层神经网络的感知机是线性可分,非线性不可分的。有局限性。这时候svm出现了,通过核函数解决了非线性数据的问题。后来随着硬件的发展解决了多层神经网络的计算问题,神经网络也可以做非线性数据的分割问题了 至于svm怎么寻找超平面的,大概分三步第一步,线性可分,求距离各个样本距离最短的超平面。第二步,线性不太可分,引入松...

2018-08-14 15:41:32 233

原创 关于boost和bagging对error的影响

error分为bias和variance。boost,多个二傻子一起思考,第一个二傻子只会算加法,第二个二傻子只会算乘法。最后得出的结果,就比较接近真实值,bias就比较小 bagging,多个聪明人,第一个聪明人,可能估值偏小,第二个聪明人可能估值偏大。总体想加,variance就小了...

2018-08-01 14:35:37 280

原创 mysql数据库同步

因为权限问题,不能用mysqldump或是load file的方式。。。所以自己手动写脚本导入。遇到了很多坑,最主要的就是null和空格问题:function manage_db(){ mysql -h "s4494i.mars.grid.sina.com.cn" -P 4494 -u ea_fuyi_read_r -p3c5c7dfb6d873b7 ea -N -e "set ...

2018-07-25 14:21:11 380

原创 【Windows环境下jdk安装环境配置】

set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_171set PATH=%JAVA_HOME%\bin;%PATH%set CLASSPATH=.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar

2018-07-12 17:56:23 184

转载 python mysql_config: command not found 安装 MySQL-python 的错误解决

yum -y install MySQL-python问题解决只是下面blog的评论https://blog.csdn.net/changdejie/article/details/19415147

2018-05-04 14:23:40 1757

转载 解决ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)

https://stackoverflow.com/questions/4448467/cant-connect-to-local-mysql-server-through-socket-var-lib-mysql-mysql-sock/31984482#31984482

2018-05-04 12:01:36 359

原创 Python文件直接操作文件描述符open的大坑

17 fr1 = open(file1).readlines() 18 fr2 = open(file2).readlines() ###如果是fr2 = open(file2) ,那么for 嵌套循环会报错 19 sh_dict = {} 20 cnt_mil = 0 21 cnt_ent =0 22 cnt_tech = 0 23 ch1 = '' 24 for l

2018-01-23 15:26:47 2563

原创 awk的数组

awk -F '\001' '{split($3,a,",");print $1"\001"$2"\001"a[1]"]"}' all.result >awk.result

2018-01-19 20:35:55 1033

原创 awk重复行输出重复数,逆排序

cat mark.all |awk -F '\t' '{a[$1]++}END{for(i in a){print i,a[i] | "sort -k  2nr"}}'

2018-01-19 20:15:08 2123

原创 xargs解决循环的问题

ls *.original |xargs -I @ echo " head -10000  @ > ratio/@.10000 "|sh

2018-01-17 19:39:13 1604

原创 建索引后,发现还是慢,原因竟然是。。。

我的搜索条件extension2设为数字,但实际上是字符串,这里包含了隐式转换,可能对全表做了很多次扫描。太惨痛的教训了

2017-12-26 16:52:33 8714 1

原创 line 132: syntax error: unexpected end of file

这种情况,一般不是Windows转Unix引起的。一般是if ...fi  双引号,大括号引起的

2017-12-19 11:08:48 918

原创 Git 状态 untracked 和 not staged的区别

untrack表示是新文件,没有被add过,是为跟踪的意思。not staged 表示add过的文件,即跟踪文件,再次修改没有add,就是没有暂存的意思具体看:https://git-scm.com/book/zh/v2/Git-%E5%9F%BA%E7%A1%80-%E8%AE%B0%E5%BD%95%E6%AF%8F%E6%AC%A1%E6%9B%B4%E6%96%B0%E5%88

2017-12-14 17:37:23 18462 1

原创 json loads会一次性把所有“字典和数组”字符串都变成字典和数组

如题

2017-12-11 16:38:56 1263

转载 python 从哪开始执行 之 main 函数

[ Python ] python 从哪开始执行 之 main 函数转载 2013年04月11日 08:53:0715375http://www.cnblogs.com/lvxiuquan/archive/2012/07/09/2582437.htmlpython main函数初次接触Python的人会很不习惯Python没有ma

2017-12-07 14:32:22 15717

原创 写文件时候,permission deny的原因:建文件,ls,用户和用户组

我今天写脚本遇到写入一个文件时候,发生permission deny的错误。查了原因:我用root用户建立的文件夹,然后用zeus用户写这个文件夹下的文件。而mkdir 的目录,系统默认权限,用户所在的组只有读,没有写的权限。如下图所示:后记:之前zeus不在用户root组里面的,我 usermod -g root  zeus 赋予zeus用户root权限,

2017-12-06 14:53:30 1362

原创 Python global全局变量只能在函数中没做global申明,可以引用但修改会报错。

2017-11-30 17:01:02 3879

原创 mysql update join

update cec_item_lib a  inner join cec_item_info_lib b on a.item_id = b.item_id set a.status =10 where substring_index(b.categroy,';',1)  in ("699","703","807","13529","1410","4978","4979","12323","490

2017-09-22 20:15:05 1419

原创 hive表insert table into这个要注意

insert into table cna_goods_info PARTITION(dt='20170905')    select 跟sql不一样。table后面没有(),而且要有table关键字

2017-09-06 10:06:29 7171

转载 python处理命令行参数

http://blog.csdn.net/shy871265996/article/details/17247529例 10.20. sys.argv 介绍如果您还没有下载本书附带的样例程序, 可以 下载本程序和其他样例程序。#argecho.pyimport sysfor arg in sys.argv: print arg每个

2017-09-02 11:30:01 513

原创 使用xargs循环查找文件中的字符串并打印出来

sed -n "539,1469p" cate_data_all |awk -F "\t" '{print $2}' |xargs -I {} grep ',,{}' item_id.thread.all一直不知道xargs的{}能不能在别的shell命令中双引号里起作用,这次试了一下,跟我用Python执行的结果是一样的,看来是可以的【步骤五】sed -n "开始行,结束

2017-08-31 10:17:54 1469

转载 使用grep精确匹配一个单词

使用grep精确匹配一个单词2012-05-24 15:35:09标签:的 abc原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://lynnteng0.blog.51cto.com/2145094/876020面试时问到一个问题,要精确的找出进程名为abc,判断进程的数量是否在3-5之间,如果不在,

2017-08-31 10:00:49 23447 1

dnw DNW usb串口下载工具

DNW软件,是用来做嵌入式开发时用来下载文件镜像的,ARM系列芯片:S3C2440,S3C2410等。

2014-01-16

securecrt 串口工具

非常好用的串口调试工具,直接下载然后加压缩就可以用了,注意需要设置串口端号。

2014-01-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除