自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(105)
  • 收藏
  • 关注

原创 springboot项目之java.lang.NullPointerException: null问题

没有任何提示,只有一行报错: RuntimeException-[java.lang.NullPointerException]最后发现是 controller文件,service定义一行少加了关键字 final 导致的, 补充之后就完美解决啦!

2024-02-21 14:33:44 622 1

原创 scala dataFrame 一列向量(部分为稀疏向量)转化为dense vector(rg.apache.spark.ml.linalg.SparseVector cannot be cast )

scala在数据输入模型前,用VectorAssembler函数将特征转化为向量,但是扔进模型fit时报错: org.apache.spark.ml.linalg.SparseVector cannot be cast to org.apache.spark.ml.linalg.DenseVector。), 那么如何将dataFrame的一列VectorAssembler转化完成的feature列全部转化为稠密向量呢?尝试了很多方法,最后成功的做法很简单,用UDF转换,代码如下。

2023-06-14 15:14:35 313

原创 pyltp postagger 运行过程中报错Process finished with exit code -1073740791 (0xC0000409)

pyltp postagger 运行过程中报错Process finished with exit code -1073740791 (0xC0000409)解决方案

2022-10-28 14:52:37 705 1

转载 pytorch 安装

anaconda 安装bash Anaconda3-2020.02-Linux-x86_64.shsource ~/.bashrcconda create -n pytorch python=3.7source activate pytorch 或者 condaactivate pytorch官网安装合适版本的pytorchconda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytor...

2021-12-01 21:10:25 215

原创 【presto & hive 对比4】获取数组长度

如何获取数组长度呢?hive: size 函数presto: cardinality函数--数据表 test_tb --字段 user_ids, 为逗号分隔的用户id--hive size函数select size(split(user_ids,',')) from test_tb-- prestoselect cardinality(split(user_ids,',')) from test_tbps: hive的数组index从0开始 presto的数组index从1开始

2021-04-30 21:26:23 1191 1

原创 20210417 [leetcode] 合并K个升序链表

https://leetcode-cn.com/problems/merge-k-sorted-lists/方法1 分治# Definition for singly-linked list.# class ListNode:# def __init__(self, val=0, next=None):# self.val = val# self.next = nextclass Solution: def mergeKLists(self, l

2021-04-17 18:10:32 87

原创 2021-03-06 一周总结

vim 多行加/去注释或替换字符https://blog.csdn.net/step_ma/article/details/76474864?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&dist_request_id=&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogComme.

2021-03-06 15:52:05 80

原创 2021-02-27

近一周使用shell 命令:按照第一列,第二列进行排序-sortsort-k1n-k2nr批量替换文件夹文件中的字符-sedhttps://jingyan.baidu.com/article/0a52e3f4e87b5ebf62ed729d.htmlsed-i"s/len/size/g"`greplen-rl./`执行如下sed -i "s/len/size/g" `grep len -rl ./`其中,len为原字符串size为目标字符串-rl是递...

2021-02-27 15:29:10 116 3

原创 决策数的特征重要性结果变动原因分析

训练决策树的时候发现,多次训练结束的特征重要性不一样,最重要的特征总是会有变动,特别是第一重要的特征在三个当中不断变动。分析是特征共线性导致的,这三个特征的相关关系是0.99,业务逻辑上,三者也确实是正相关的,因此剔除其中两个,剔除之后特征重要性就未定了许多...

2021-02-27 15:02:07 287

原创 【presto & hive 对比3】分位点提取

--hiveselect '20210202' as log_date, percentile_approx(prob,array(0.25,0.5,0.75,0.95),9999) from ai.push_recsys_open_status_pred_buvid where log_date='20210202';--prestoselect '20210202' as log_date, approx_percentile(prob,array[0.25,0.5,0.75,0.95],9999

2021-02-05 14:28:19 5218

原创 【presto & hive 对比2】json字符串提取,行转列,位运算

json字符串提取--hiveselect get_json_object(json, '$.book');--Prestoselect json_extract_scalar(json, '$.book');--注意这里Presto中json_extract_scalar返回值是一个string类型,其还有一个函数json_extract是直接返回一个json串,所以使用的时候你得自己知道取的到底是一个什么类型的值.列转行有两个字段, user_id, scores(分别是用户的得分)

2020-11-16 23:24:27 966

原创 hive查看当前参数设置

hive调整参数过程中,有时候看下默认参数还是有必要的,那么如何查看默认参数呢?set : 查看所有参数set 参数: 查看参数当前值参考 https://www.cnblogs.com/carltmf/p/13191392.html

2020-09-30 18:21:37 4017

原创 【涨知识啦】 20200802

目录解压&压缩命令vim 替换命令hive 中 map reduce个数控制python特定版本的pip调用解压&压缩命令01-.tar格式解包:[*******]$ tar xvf FileName.tar打包:[*******]$ tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)02-.gz格式解压1:[*******]$ gunzip FileName.gz解压2:[*******]$ gzip -d FileName.gz压 缩

2020-08-02 17:10:16 103

原创 【presto & hive 对比1】presto 与 hive的时间转换对比

工作中经常遇到的问题log_date:20200110 需要转换为标准日期,或者与时间戳数据进行比较工作环境涉及到presto与hive, 利用presto检查查询时速度更快,因此一般需要同时用presto和hive的语法对日期进行转换因此本篇博文主要对最近用到的时间转换进行梳理问题1:时间格式转换例子: 当前时间-20200110 转化为2020-01-10--输出 2020-01-10--hiveselect to_date(from_unixtime(UNIX_TIMESTAMP(

2020-07-26 15:44:58 1657

原创 scp免密操作

scp当前机器的文件到目标文件,每次scp的时候需要输入密码,免密设置为:将当前机器的公钥(没有的话就ssh-keygen -t rsa),复制到目标机器的authorized_keys文件中(没有文件则新建)scp .ssh/id_rsa.pub login_user@ip:/home/login_user/.ssh/authorized_keys参考链接https://www.jianshu.com/p/35c8dc1eecc1...

2020-07-23 20:56:53 3118

原创 vim 全选粘贴代码到本地 ggVG ctrl+v失效的原因

想全选vim的代码复制并粘贴代码到本地,百度出的方法:ggVG是全选,y是复制。gg是光标定位到文件首行;V是进入可视模式;G是跳转到文件最后一行;这个时候就将文本全选了。使用"*y使用进行复制,然后在浏览器中用ctrl+v粘贴。知":表示使用寄存器注意不要关闭vim。但是这种方法可以成功复制内容到粘贴板,在本地ctrl+V依然粘贴不到。原因是:执行 vim --version在列出来的feature中 xterm_clipboard 前面得有 ‘+’ 加号,才具有这个功能。或者使用

2020-05-15 11:20:37 2350

原创 【涨知识啦】2020-04-17 面试感悟

很庆幸在近两年左右开始面试, 跟大佬交流让人如沐春风,同时也学到了很多道理。我看到很多像你一样对工作有热情的人,但是没有深入研究的方向,导致工作一段时间之后失去核心竞争力,要早点确认自己的方向,深入研究工作的前五年应该尽量拓宽自己的深度,五年之后再拓宽广度,有了深度之后,广度是更容易的事情。依托自己的项目拓宽深度即可,多多思考如何才能做的更好,如何将遇到的问题抽象成算法。短平快的方法有的时...

2020-04-17 15:10:14 183

原创 【涨知识啦】2020-04-06 面试汇总

逻辑回归相关面试题https://blog.csdn.net/weixin_42933718/article/details/88874376逻辑回归为什么要用sigmoid函数https://blog.csdn.net/qq_19645269/article/details/79551576doc2vec原理https://blog.csdn.net/weixin_40547993/...

2020-04-04 12:10:39 129

原创 【涨知识啦】2020-03-30

二叉树各种遍历https://blog.csdn.net/Candy_GL/article/details/88531064后续遍历https://blog.csdn.net/u012435142/article/details/89062177kmeans适用条件数据集是凸数据集,就是数据集内任意两点的连线上所有的点都在数据集内,否则分类效果就很差,K mea...

2020-03-30 15:14:15 144

原创 【涨知识】 2020-03-29

python 生成器(yeild关键字)有什么优点呢? 1. 节省内存空间 2. 代码更为整洁 注意点:生成器只能遍历一次https://www.zhihu.com/question/24807364

2020-03-29 12:33:53 118

原创 二分搜索:是否带等号以及边界问题

一直纠结与二分搜索的<= 和< 以及边界界定问题,终于找到一个大神把相关问题捋明白啦链接:https://leetcode-cn.com/problems/find-first-and-last-position-of-element-in-sorted-array/solution/er-fen-cha-zhao-suan-fa-xi-jie-xiang-jie-by-labul...

2020-03-27 00:44:00 1527 1

原创 【2020-03-25】数据不平衡 & L1/L2正则防止过拟合的原理

数据不平衡https://blog.csdn.net/keycoder/article/details/79188853https://www.jianshu.com/p/f170d72f6fb6l1, l2正则化可以缓解过拟合的原因为什么要做特征归一化...

2020-03-25 11:05:17 188

原创 【涨知识】2020-03-08

最小二乘与梯度下降的区别(https://blog.csdn.net/zaishuiyifangxym/article/details/93787233?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task)总的来说,在机器学习中,最小二乘法只适...

2020-03-08 14:57:53 106

原创 【涨知识】2020-03-05

1. python 二维数组赋值注意点matrix = [[0] * 3] * 3执行 matrix = [1][1]此时matrix 变成 [[0,2,0], [0,2,0], [0,2,0]]本意是把矩阵的第一行第一列赋值为 2, 但是最终结果是每一行的第一列都是 2出现这个结果的原因是:list * n—>n shallow copies of list concaten...

2020-03-05 23:56:41 83

原创 2020-03-01 周日 晴

今日学习效率 良依然是上午几乎荒废的一天,好在下午3点开始,一直看神经网络-bert的内容,晚上视频直播学习,效率还不错!开始刷题

2020-03-01 23:22:22 106

原创 2020-02-29 雨周六

–军港之夜单曲播放ing家里的事情让我很是烦躁,进哥也很让我烦躁!如何才能修炼自己不受这些事情影响,安稳早早睡觉

2020-02-29 23:39:39 207

原创 算法题记录

中文分词–最大匹配发https://zhuanlan.zhihu.com/p/103392455

2020-02-26 23:36:32 94

原创 懂得多不如做得多

感悟二三菜是原罪。上学的时候学习是为了考试,学完就忘。 当下的学习则须记一辈子的。工作也好,生活也罢。最重要的莫过于三点听:耐心听人讲话,准确get到对方的点思考:理解别人的点,并有自己的思考。说:简明扼要准确的阐述自己的观点,使别人理解。不管是哪一点,都需要有足够的知识积累,厚积薄发。与大佬有同样的知识水平,才可以高效的与之对话。懂得多不如做得多。自律最难得!...

2020-02-26 23:22:10 180

原创 bert学习资料

https://blog.csdn.net/ibelieve8013/article/details/90021717把word2vec, nnlm, seq2seq, attension, transformer, bert串起来了https://www.zhihu.com/search?type=content&q=bert berthttps://zhuan...

2020-02-23 22:29:12 276

原创 梯度下降法与牛顿法

梯度下降,牛顿,拟牛顿法:https://zhuanlan.zhihu.com/p/37524275梯度下降的推导:https://blog.csdn.net/pengchengliu/article/details/80932232

2020-02-14 00:04:12 114

原创 交叉熵函数

https://juejin.im/post/5b28bd26f265da59bb0cc8f6

2020-02-12 14:42:11 290

转载 git pull/push不需要输入密码

有两种方式:一是自建ssh;另外一种直接配置config配置文件不需要每次输入密码vim .git-credentialshttps://{username}:{password}@github.comgit config --global credential.helper store参考文档;https://www.jianshu.com/p/f54053afecf2...

2020-01-16 17:28:24 1459

原创 基于矩阵分解,svd的推荐算法参考博客记录

面试时被问到矩阵分解和svd做推荐算法的原理,特来探究了一下。矩阵分解:https://blog.csdn.net/GZHermit/article/details/73920755https://blog.csdn.net/recall_tomorrow/article/details/80218051svd:网上搜的大多数哦svd跟矩阵分解混为一谈了,下面的这个博客讲...

2019-12-22 14:50:43 239

原创 工作tips

1.杀死进程名称中包含qemu的所有进程ps aux|grep qemu|awk '{print $2}'|xargs kill -9

2019-12-11 15:22:43 90

原创 hive 将json格式的字符串取值或转为map格式

1. 取值:SELECT get_json_object(字段名,'$.json_key_value')--,--get_json_object(get_json_object(ad_test_group,'$.2019-09-cid2_1342_1276'),'$.group_id')fromtable_namewhere dt= '2019-09-21'2. st...

2019-09-25 23:45:47 4334

原创 python eval函数--将字符串存储的json格式可以直接转化为map

python eval函数可以将json格式的string 转化为map

2019-09-25 23:39:41 1985

原创 交叉熵

简单的交叉熵,你真的懂了吗? - 知乎 https://zhuanlan.zhihu.com/p/61944055Softmax函数与交叉熵 - 知乎 https://zhuanlan.zhihu.com/p/27223959

2019-09-14 22:11:47 107

原创 python udf 读取hive 传入的map & python udf 返回hive map

参考:hive之Python UDF函数操作map数据 详解 全是干货 - colby_chenlun的博客 - CSDN博客 https://blog.csdn.net/colby_chenlun/article/details/78140033str_to_map hive 字符串转为map格式 - yuanyangsdo的博客 - CSDN博客 https://blog.csdn.net...

2019-09-11 15:03:51 1174

原创 【python】【剑指offer】判断平衡二叉树

按照剑指offer复现python版本的平衡二叉树的题时,发现无法通过,代码如下:class Solution: def IsBalanced_Solution(self, pRoot): # write code here d = 0 return self.isBalanced(pRoot,d) def isBalanced...

2019-09-08 19:15:26 241

原创 【20190726】程序媛日常反思--都是粗心惹的祸

周报之前发现一个数据有问题查找问了搞了俩小时,最终定位到,一开始生产数据时, 类目信息,cid2name 与 cid3name 重复了,也许第一次生产完毕没在意,觉得利用数据的时候注意一下就行了。没想到几天之后又从这份原始数据中筛选数据时,忽略了这个问题,而且cid2name也用在了模型中,导致数据不可信,而且查问题花费了很长时间,周五哎,又搞到了9点半。不过问题定位到了,仍然是个好结局...

2019-07-26 21:33:40 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除